¿Qué Tipos de Patrones Puede Descubrir la Minería de Datos?
Utilizando los datos más relevantes (que pueden provenir de bases de datos organizacionales o pueden obtenerse de fuentes externas), la minería de datos construye modelos para identificar patrones entre los atributos (es decir, variables o características) que existen en un conjunto de datos. Los modelos suelen ser representaciones matemáticas (correlaciones lineales simples y / o relaciones complejas altamente no lineales) que identifican las relaciones entre los atributos de los objetos (por ejemplo, clientes) descritos en el conjunto de datos. Algunos de estos patrones son explicativos (explicando las interrelaciones y afinidades entre los atributos), mientras que otros son predictivos (proyectando valores futuros de ciertos atributos). En general, la minería de datos busca identificar tres tipos principales de patrones:
-
Las asociaciones encuentran agrupaciones de cosas comunes, como «cervezas y pañales» o «pan y mantequilla» que se compran y observan juntas en un carrito de compras (es decir, análisis de la cesta de mercado). Otro tipo de patrón de asociación captura las secuencias de cosas. Estas relaciones secuenciales pueden descubrir eventos ordenados en el tiempo, como predecir que un cliente bancario existente que ya tiene una cuenta corriente abrirá una cuenta de ahorros seguida de una cuenta de inversión dentro de un año.
-
Las predicciones indican la naturaleza de las ocurrencias futuras de ciertos eventos en función de lo que ha sucedido en el pasado, como predecir el ganador del Super Bowl o pronosticar la temperatura absoluta en un día en particular.
-
Los clústeres identifican agrupaciones naturales de cosas en función de sus características conocidas, como la asignación de clientes en diferentes segmentos en función de sus datos demográficos y comportamientos de compra pasados.
Estos tipos de patrones han sido extraídos manualmente de los datos por los seres humanos durante siglos, pero el creciente volumen de datos en los tiempos modernos ha creado la necesidad de enfoques más automáticos. A medida que los conjuntos de datos han crecido en tamaño y complejidad, el análisis manual directo de datos se ha incrementado cada vez más con herramientas indirectas de procesamiento automático de datos que utilizan metodologías, métodos y algoritmos sofisticados. La manifestación de esta evolución de los medios automatizados y semiautomáticos de procesamiento de grandes conjuntos de datos se conoce ahora comúnmente como minería de datos.
Como se mencionó anteriormente, en términos generales, las tareas y patrones de minería de datos se pueden clasificar en tres categorías principales: predicción, asociación y agrupación. En función de la forma en que se extraen los patrones de los datos históricos, los algoritmos de aprendizaje de los métodos de minería de datos se pueden clasificar como supervisados o no supervisados. Con algoritmos de aprendizaje supervisado, los datos de entrenamiento incluyen tanto los atributos descriptivos (es decir, variables independientes o variables de decisión) como el atributo de clase (es decir, variable de salida o variable de resultado). En contraste, con el aprendizaje no supervisado, los datos de entrenamiento incluyen solo los atributos descriptivos. La Figura 2.3 muestra una taxonomía simple para las tareas de minería de datos, junto con los métodos de aprendizaje y los algoritmos populares para cada una de las tareas de minería de datos. De las tres categorías principales de tareas, los patrones/modelos de predicción se pueden clasificar como el resultado de un procedimiento de aprendizaje supervisado, mientras que los patrones/modelos de asociación y agrupación se pueden clasificar como el resultado de procedimientos de aprendizaje no supervisados.
La predicción se usa comúnmente para indicar el futuro. Se diferencia de la simple suposición por tener en cuenta las experiencias, opiniones y otra información relevante al realizar la tarea de predicción. Un término que se asocia comúnmente con la predicción es la predicción. A pesar de que muchas personas usan estos dos términos como sinónimos, hay una sutil diferencia entre ellos. Mientras que la predicción se basa en gran medida en la experiencia y la opinión, la predicción se basa en datos y modelos. Es decir, en el orden de aumentar la confiabilidad, uno podría enumerar los términos relevantes como adivinar, predecir y pronosticar. En la terminología de minería de datos, la predicción y la predicción se usan como sinónimos, y el término predicción se usa como representación común del acto. Dependiendo de la naturaleza de lo que se está prediciendo, la predicción se puede nombrar más específicamente como clasificación (donde lo predicho, como el pronóstico de mañana, es una etiqueta de clase como «lluvioso» o «soleado») o regresión (donde lo predicho, como la temperatura de mañana, es un número real, como «65 grados»).
La clasificación, o inducción supervisada, es quizás la más común de todas las tareas de minería de datos. El objetivo de la clasificación es analizar los datos históricos almacenados en una base de datos y generar automáticamente un modelo que pueda predecir el comportamiento futuro. Este modelo inducido consiste en generalizaciones sobre los registros de un conjunto de datos de entrenamiento, que ayudan a distinguir las clases predefinidas. La esperanza es que el modelo se pueda usar para predecir las clases de otros registros no clasificados y, lo que es más importante, para predecir con precisión eventos futuros reales.
Las herramientas de clasificación comunes incluyen redes neuronales y árboles de decisión (del aprendizaje automático), regresión logística y análisis discriminante (de las estadísticas tradicionales), y herramientas emergentes como conjuntos aproximados, máquinas de vectores de soporte y algoritmos genéticos. Las técnicas de clasificación basadas en estadísticas (por ejemplo, regresión logística, análisis discriminante) han sido criticadas por hacer suposiciones poco realistas sobre los datos, como la independencia y la normalidad, que limitan su uso en proyectos de extracción de datos de tipo de clasificación.
Las redes neuronales implican el desarrollo de estructuras matemáticas (algo similares a las redes neuronales biológicas en el cerebro humano) que tienen la capacidad de aprender de experiencias pasadas, presentadas en forma de conjuntos de datos bien estructurados. Tienden a ser más eficaces cuando el número de variables involucradas es bastante grande y las relaciones entre ellas son complejas e imprecisas. Las redes neuronales tienen tanto desventajas como ventajas. Por ejemplo, por lo general es muy difícil proporcionar una buena justificación para las predicciones hechas por una red neuronal. Además, las redes neuronales tienden a necesitar un entrenamiento considerable. Desafortunadamente, el tiempo necesario para la capacitación tiende a aumentar exponencialmente a medida que aumenta el volumen de datos y, en general, las redes neuronales no se pueden entrenar en bases de datos muy grandes. Estos y otros factores han limitado la aplicabilidad de las redes neuronales en dominios ricos en datos. (Consulte el capítulo 5, «Algoritmos para Análisis Predictivos», para obtener una cobertura más detallada de las redes neuronales.)
Los árboles de decisión clasifican los datos en un número finito de clases, en función de los valores de las variables de entrada. Los árboles de decisión son esencialmente una jerarquía de declaraciones if–then y, por lo tanto, son significativamente más rápidos que las redes neuronales. Son los más apropiados para datos categóricos y de intervalos. Por lo tanto, incorporar variables continuas en un marco de árbol de decisiones requiere discretización, es decir, la conversión de variables numéricas de valor continuo en rangos y categorías.
Una categoría relacionada de herramientas de clasificación es la inducción de reglas. A diferencia de un árbol de decisiones, con la inducción de reglas, las declaraciones if–then se inducen a partir de los datos de entrenamiento directamente, y no necesitan ser de naturaleza jerárquica. Otras técnicas más recientes, como SVM, conjuntos aproximados y algoritmos genéticos, están entrando gradualmente en el arsenal de algoritmos de clasificación y se tratan con más detalle en el Capítulo 5 como parte de la discusión sobre algoritmos de minería de datos.
El uso de asociaciones, que comúnmente se denominan reglas de asociación en la minería de datos, es una técnica popular y bien investigada para descubrir relaciones interesantes entre variables en grandes bases de datos. Gracias a las tecnologías automatizadas de recopilación de datos, como el uso de escáneres de códigos de barras, el uso de reglas de asociación para descubrir regularidades entre productos en transacciones a gran escala registradas por sistemas de puntos de venta en supermercados se ha convertido en una tarea común de descubrimiento de conocimientos en la industria minorista. En el contexto de la industria minorista, la minería de reglas de asociación a menudo se denomina análisis de canasta de mercado.
Dos derivados comúnmente utilizados de la minería de reglas de asociación son el análisis de enlaces y la minería de secuencias. Con el análisis de enlaces, los enlaces entre muchos objetos de interés se descubren automáticamente, como el enlace entre páginas web y las relaciones referenciales entre grupos de autores de publicaciones académicas. Con la minería de secuencias, las relaciones se examinan en términos de su orden de ocurrencia para identificar asociaciones a lo largo del tiempo. Los algoritmos utilizados en la minería de reglas de asociación incluyen los populares algoritmos Apriori (donde se identifican conjuntos de elementos frecuentes), FP-Growth, OneR, ZeroR y Eclat. El capítulo 4, «Datos y métodos para el Análisis Predictivo», proporciona una explicación de Apriori.
La agrupación en clústeres implica particionar una colección de cosas (por ejemplo, objetos, eventos, etc.)., presentados en un conjunto de datos estructurado) en segmentos (o agrupaciones naturales) cuyos miembros comparten características similares. A diferencia de la clasificación, en la agrupación en clústeres, las etiquetas de clase son desconocidas. A medida que el algoritmo seleccionado pasa por el conjunto de datos, identificando los puntos en común de las cosas en función de sus características, se establecen los clústeres. Debido a que los clústeres se determinan utilizando un algoritmo de tipo heurístico, y debido a que diferentes algoritmos pueden terminar con diferentes conjuntos de clústeres para el mismo conjunto de datos, antes de que se pongan en uso los resultados de las técnicas de clústeres, puede ser necesario que un experto interprete y modifique potencialmente los clústeres sugeridos. Una vez identificados los grupos razonables, se pueden utilizar para clasificar e interpretar nuevos datos.
No es sorprendente que las técnicas de agrupación en clústeres incluyan la optimización. El objetivo de la agrupación es crear grupos para que los miembros de cada grupo tengan la máxima similitud y los miembros de los grupos tengan la mínima similitud. Las técnicas de agrupamiento más utilizadas incluyen k-means (de estadísticas) y mapas autoorganizados (de aprendizaje automático), que es una arquitectura de red neuronal única desarrollada por Kohonen (1982).
Las empresas a menudo utilizan eficazmente sus sistemas de minería de datos para realizar segmentación de mercado con análisis de clústeres. El análisis de clústeres es un medio de identificar clases de elementos para que los elementos de un clúster tengan más en común entre sí que con los elementos de otros clústeres. Este tipo de análisis se puede utilizar para segmentar a los clientes y dirigir los productos de marketing adecuados a los segmentos en el momento adecuado, en el formato correcto y al precio correcto. El análisis de conglomerados también se utiliza para identificar agrupaciones naturales de eventos u objetos de modo que se pueda identificar un conjunto común de características de estos grupos para describirlos.
Dos técnicas a menudo asociadas con la minería de datos son la visualización y la previsión de series temporales. La visualización se puede usar junto con otras técnicas de minería de datos para obtener una comprensión más clara de las relaciones subyacentes. A medida que la importancia de la visualización ha aumentado en los últimos años, ha surgido el término análisis visual. La idea es combinar el análisis y la visualización en un único entorno para crear conocimientos de forma más fácil y rápida. El análisis visual se trata en detalle en el Capítulo 4. En la previsión de series temporales, los datos consisten en valores de la misma variable que se capturan y almacenan a lo largo del tiempo, a intervalos regulares. Estos datos se utilizan para desarrollar modelos de pronóstico para extrapolar los valores futuros de la misma variable.