Software de data mining: realiza análisis de datos más efectivos

Cada vez son más las empresas que disponen de un volumen insospechado de datos, considerado un recurso de gran valor para la segmentación de clientes, el control de ventas y el marketing dirigido. No obstante, aunque se disponga de una cantidad ingente de información, esta solo va a resultar útil si realmente se le saca el rendimiento adecuado, es decir, de nada les sirve a las empresas contar con muchos registros de datos si estos no se analizan y evalúan adecuadamente. El investigador de tendencias y futurólogo John Naisbitt advierte de este problema en su tantas veces citada:

Cita

“We are drowning in information, but starving for knowledge.” (“nos ahogamos en información, pero estamos hambrientos de saber”)

–John Naisbitt, futurólogo e investigador de tendencias, a propósito de la cantidad creciente de datos digitales

Las herramientas de data mining se utilizan para gestionar los datos e identificar las posibles tendencias y los patrones más significativos. Los programas desarrollados para ello son cada vez más complejos y el abanico de herramientas cada vez mayor. Para que tengas una visión general te presentamos a continuación las mejores data mining tools.

Técnicas, tareas y componentes del data mining

Como data mining, también conocida como minería de datos, se describen los procedimientos algorítmicos para la evaluación de datos aplicados a bloques de datos con un tamaño y una complejidad determinados. Su función es la de extraer la información oculta en grandes volúmenes de datos, especialmente en las masas de información conocidas como big data, y además reconocer tendencias, relaciones y patrones ocultos en ellas. Para que este proceso se pueda llevar a cabo se recurre a las data mining tools.

Con el término data mining no se hace referencia ni al proceso de generación de datos ni a los bloques de datos en sí, sino a su análisis. Asimismo, el data mining tampoco es pura estadística a pesar de que muchos de los procedimientos utilizados provienen de ella, sino un procedimiento interdisciplinario que combina los conocimientos de informática y matemáticas con la tecnología del machine learning (especialmente el aprendizaje no supervisado) y de la inteligencia artificial. Estos métodos de alto rendimiento se integran en un solo software que permite la evaluación de la mayor cantidad de datos posible.

Hecho

El text mining es una variante especial del data mining que está adquiriendo cada vez mayor relevancia debido a la popularidad de la tecnología y el software de voz. Aquí la información no se obtiene de registros de datos, sino de grandes volúmenes de textos, como artículos especializados o documentos corporativos, resultando de gran utilidad a las empresas, por ejemplo, en sus nuevos proyectos.

No obstante, hay que tener en cuenta que para que el data mining se lleve a cabo de forma efectiva es necesario conocer bien los bloques de datos, ya que solo así se podrá sacar el máximo partido a las herramientas de análisis de información encargadas de reconocer relaciones implícitas, realizar pronósticos de cifras de ventas o analizar patrones de compra. Eso sí, no se requieren para ello conocimientos en programación.

Algunas de las tareas del data mining son:

  • Clasificación: el data mining clasifica los datos individuales en categorías específicas definidas previamente, en las que no se habían incluido hasta ese momento (por ejemplo, en gatos o bicicletas). Un recurso útil para llevar a cabo esta clasificación es el denominado análisis de árboles de decisión.

  • Análisis de valores atípicos o de desviaciones: el data mining identifica a los objetos que no cumplen las reglas de dependencia en objetos emparentados, lo que permite encontrar las causas que explican estas desviaciones.

  • Análisis de clústeres: identifica la concentración de similitudes, a partir de lo cual construye grupos de objetos que comparten una serie de características comunes en comparación con otros grupos. Al contrario que en la clasificación, aquí los grupos no están predefinidos y pueden adquirir diferentes formas en función de los datos que se analicen.

  • Análisis de correlación: descubre correlaciones entre dos o más objetos independientes que, aunque no muestran ningún tipo de relación directa, aparecen juntos con frecuencia.

  • Análisis de la regresión: destapa las relaciones entre una variable dependiente (por ejemplo, los análisis de cifras de ventas de productos) y una o varias variables independientes (el precio del producto o los ingresos del comprador) con el objetivo de realizar una serie de pronósticos sobre la variable dependiente (pronóstico de ventas).

  • Análisis predictivo: se trata de una tarea de gran relevancia que tiene como objetivo realizar predicciones y encontrar tendencias futuras. Para ello usa, entre otros, el data mining y trabaja con una variable que sirve de medida para individuos o entidades.
Hecho

Con ayuda de los análisis de correlación se establecieron sorprendentes conexiones en las decisiones de compra de diferentes productos que ayudaron a mejorar en gran medida los análisis de la cesta de compra. Con este método se determinan las recomendaciones de compra en la venta online.

Estos procedimientos se pueden clasificar en los conocidos como problemas de observación (análisis de desviaciones, de clústeres) y de pronósticos (análisis de regresión, clasificación).

Comparativa de data mining tools

A continuación analizamos y comparamos las mejores herramientas de data mining del mercado hoy en día: RapidMiner, WEKA, Orange, KNIME y SAS. Es bien conocido que los usuarios usan más de una, combinándolas entre sí, pues tienen puntos fuertes diferentes. No obstante, si es una de las primeras veces que recurres a este tipo de programas, también puedes conseguir grandes avances con un único software polivalente.

RapidMiner

RapidMiner, antes conocida como YALE, siglas de “Yet Another Learning Environment”, es un data mining software muy conocido. De acuerdo con una encuesta de KDnuggets realizada en el año 2014, esta tool se constituía como la herramienta de data mining más usada. Destaca por permitir el acceso gratuito y por su fácil manejo dado que no requiere un conocimiento elaborado en programación, sin olvidar la gran selección de operadores que ofrece. Especialmente son las startups las que recurren a ella.

RapidMiner está escrita en Java y contiene más de 500 operadores con diferentes enfoques para mostrar las conexiones en los datos: hay opciones para data mining, text mining o web mining, pero también análisis de sentimiento o minería de opinión. Asimismo, el programa puede importar tablas Excel, archivos SPSS y masas de datos de diferentes bases de datos e integra los programas de data mining WEKA y R. Todo ello pone de relieve el carácter polivalente de este software.

RapidMiner participa en todos y cada uno de los pasos del proceso de data mining, interviniendo también en la visualización de los resultados. La herramienta está formada por tres grandes módulos: RapidMiner Studio, RapidMinder Server y RapidMiner Radoop, cada uno encargado de una técnica diferente de minería de datos. Asimismo, RapidMiner prepara los datos antes del análisis y los optimiza para su rápido procesamiento. Para cada uno de estos tres módulos hay una versión gratuita y diferentes opciones de pago.

El punto fuerte de RapidMiner, si se compara con el resto de software de data mining, reside en los análisis predictivos, es decir, en la previsión de desarrollos futuros basándose en los datos recopilados.

WEKA

WEKA (Waikato Environment for Knowledge Analysis) es un software de código abierto desarrollado por la Universidad de Waikato en la primera mitad de los años noventa. Basada en Java y compatible con Windows, macOS y Linux, la interfaz gráfica de usuario facilita el acceso a este software que también ofrece conexión a bases de datos SQL, siendo capaz de procesar en ellas los datos solicitados. Asimismo, presenta un sinnúmero de funciones de aprendizaje automático y secunda tareas tan relevantes del data mining como el análisis de clústeres, de correlación o de regresión, así como la clasificación de datos, punto fuerte este último del data mining software al usar redes de neuronas artificiales, árboles de decisión y algoritmos ID3 o C4.5. No obstante, este programa no es tan potente en aspectos como el análisis de clústeres, en el que solo se ofrecen los procedimientos más importantes.

Otra desventaja es que este software presenta problemas de procesamiento cuando hay que tratar grandes cantidades de datos, dado que intenta cargar el programa de data mining completo en la memoria de trabajo. WEKA ofrece para ello como solución una línea de comandos sencilla (CTL) que aligera el tráfico de un gran volumen de datos.

Hecho

En 2005 la Association for Computing Machinery premia a WEKA con el reconocimiento “SIGKDD Service Award” por su alta contribución a la investigación. De hecho, en este software se basa la obra de referencia en aprendizaje automático publicada por primera vez en 1999 por Eibe Frank y Ian H. Witten titulada “Practical Machine Learning Tools and Techniques”. En comparación con otras herramientas de data mining, WEKA ha demostrado ser especialmente útil en el ámbito de la enseñanza y la investigación.

Orange

El software de data mining Orange existe desde hace más de 20 años como proyecto de la Universidad de Liubliana. El núcleo del software se escribió en C++, aunque poco después se amplió el programa al lenguaje de programación Python que solo se usa como lenguaje de entrada. Las operaciones más complejas, sin embargo, se llevan a cabo en C++. Orange es un software muy extenso que demuestra todo lo que se puede conseguir con Python, ya que ofrece aplicaciones de gran utilidad para el análisis de datos y de texto así como características de aprendizaje automático.

Además, en el ámbito del data mining trabaja con operadores para la clasificación, regresión y clustering e integra una programación visual. De hecho, es muy llamativo que los usuarios destaquen lo entretenido que es usar esta herramienta en comparación con otras: tanto si se empieza con la minería de datos o se es más experto, a todos los usuarios les fascina Orange. Esto se debe a que, por un lado, ofrece un sistema de visualización de datos atractivo para trabajar y, por otro, alcanza esta visualización con rapidez y facilidad. El programa prepara los datos de forma visual, convirtiendo la comprensión de gráficas así como el procesamiento de análisis de datos en tareas muy sencillas, lo que a su vez facilita a los usuarios tomar decisiones rápidamente en el ámbito profesional.

Otra ventaja para los menos versados: existe un sinnúmero de tutoriales sobre la herramienta. Una particularidad de Orange es que, además, va aprendiendo las preferencias de sus usuarios y se comporta en función de ellas, lo que simplifica enormemente el proceso de data mining para el usuario.

KNIME

El software KNIME (Konstanz Information Miner), desarrollado por la universidad de Constanza, se puso a disposición de los usuarios como software de código abierto pese a crearse desde el principio con objetivos comerciales. Escrito en Java y preparado con Eclipse, en la actualidad KNIME se considera una herramienta de gran popularidad entre la comunidad internacional de programadores y, si se compara con otros programas de data mining, destaca por una amplia gama de funciones: con más de 1000 módulos y paquetes de aplicaciones preparados, esta herramienta permite descubrir estructuras ocultas de datos. Además, se pueden ampliar sus módulos con otras soluciones adicionales de pago.

Entre todas las funciones destaca el análisis de datos integrativo. En este ámbito KNIME es uno de los programas más avanzados, puesto que permite la integración de numerosos procedimientos de aprendizaje automático y de data mining. Además, presenta una eficiencia notable en el tratamiento previo de los datos así como en su extracción, transformación y carga. Debido a su segmentación en módulos, sirve principalmente como software de data mining orientado al flujo de datos.

KNIME se usa en la investigación farmacéutica desde 2006 y supone una herramienta muy importante también en el sector financiero, sin olvidar su uso frecuente en el campo de la inteligencia empresarial (BI). Asimismo, esta herramienta es también muy interesante para quienes apenas acaban de iniciarse con el data mining pues, aunque posee un amplio abanico de funciones, se requiere poco tiempo para aprender a manejarla. Por último, apuntar que KNIME existe en su versión gratuita y de pago.

SAS

SAS (Statistical Analysis System) es un producto de SAS Institute, una de las mayores empresas privadas de software en todo el mundo. SAS constituye la data mining tool principal en el análisis en el sector de los negocios y, de hecho, se considera como el programa más adecuado para grandes empresas, aunque también sea el software con un coste económico mayor de todos los aquí descritos.

El prestigio de este software se debe a que utiliza tecnología punta en la realización de pronósticos y presenta una visualización interactiva de los datos, de inestimable ayuda en grandes presentaciones. Con este programa de data mining dispones básicamente de todos los elementos necesarios para llevar a cabo una minería de datos con éxito. Además, se caracteriza por su gran escalabilidad, pues permite aumentar progresivamente su eficiencia aumentando los recursos de hardware o de cualquier otro tipo, sin olvidar que para aquellos usuarios con menos afinidad técnica la herramienta dispone de una interfaz de usuario gráfica. Por todo ello no sorprende que se considere una de las herramientas más valiosas en el ámbito empresarial.

No obstante, solo puede usarse de forma gratuita si una institución pública proporciona una licencia, es decir, que en la mayoría de los casos este data mining software es de pago obligado. El precio se regula en función de la solicitud y es posible establecer condiciones especiales, por ejemplo, para autoridades o instituciones educativas. Solicitar una licencia de usuario anual ronda los 5.500 euros, hecho que convierte a SAS en una de las soluciones comerciales más caras. Aunque si se ajustan las funciones necesarias individualmente, se puede modificar el precio.

Esta herramienta se ha establecido como estándar en el ámbito farmacéutico, aunque también se encuentra con mucha frecuencia en el ámbito financiero y ofrece soluciones óptimas en el ámbito de la inteligencia empresarial y el web mining. Para ello dispone, entre otros, de un software de inteligencia empresarial específico. Todo ello la convierte en una de las herramientas más potentes del mercado.

Comparativa de software de data mining

Tras una presentación detallada de los diferentes tipos de data mining software, a continuación recogemos la información más relevante en esta tabla comparativa:

  Características Lenguaje de programación Sistema operativo Precio/Licencia
RapidMiner Apto para todos los procesos. Destaca en el análisis predictivo Java Windows, macOS, Linux Freeware, diferentes versiones de pago
WEKA Muchos métodos de clasificación Java Windows, macOS, Linux Software libre (GPL)
Orange Crea una visualización de datos atractiva sin que se requieran muchos conocimientos previos para ello Núcleo del software: C++, ampliación y lenguaje de entrada: Python Windows, macOS, Linux Software libre (GPL)
KNIME Software de data mining de código abierto que ha democratizado el acceso a los análisis predictivos Java Windows, macOS, Linux Software libre (GPL) (a partir de la versión 2.1)
SAS Caro, pero potente para grandes empresas Lenguaje SAS Windows, macOS, Linux Freeware limitado a instituciones públicas, el precio se establece tras solicitud, diferentes modelos disponibles