Quels Types de Modèles L’Exploration de Données Peut-Elle découvrir?
En utilisant les données les plus pertinentes (qui peuvent provenir de bases de données organisationnelles ou qui peuvent être obtenues de sources extérieures), l’exploration de données construit des modèles pour identifier des modèles parmi les attributs (c.-à-d. des variables ou des caractéristiques) qui existent dans un ensemble de données. Les modèles sont généralement les représentations mathématiques (corrélations linéaires simples et / ou relations complexes hautement non linéaires) qui identifient les relations entre les attributs des objets (par exemple, les clients) décrits dans l’ensemble de données. Certains de ces modèles sont explicatifs (expliquant les interrelations et les affinités entre les attributs), tandis que d’autres sont prédictifs (projetant les valeurs futures de certains attributs). En général, l’exploration de données cherche à identifier trois grands types de modèles:
-
Les associations trouvent des regroupements communs de choses, telles que « bières et couches » ou « pain et beurre » couramment achetés et observés ensemble dans un panier d’achat (c.-à-d., analyse du panier de marché). Un autre type de modèle d’association capture les séquences de choses. Ces relations séquentielles permettent de découvrir des événements ordonnés dans le temps, par exemple en prédisant qu’un client bancaire existant qui possède déjà un compte courant ouvrira un compte d’épargne suivi d’un compte de placement dans l’année.
-
Les prédictions indiquent la nature des événements futurs de certains événements en fonction de ce qui s’est passé dans le passé, comme prédire le vainqueur du Super Bowl ou prévoir la température absolue un jour donné.
-
Les clusters identifient des regroupements naturels d’objets en fonction de leurs caractéristiques connues, telles que l’attribution de clients dans différents segments en fonction de leurs données démographiques et de leurs comportements d’achat passés.
Ces types de modèles ont été extraits manuellement des données par les humains pendant des siècles, mais le volume croissant de données dans les temps modernes a créé un besoin d’approches plus automatiques. Au fur et à mesure que les ensembles de données ont gagné en taille et en complexité, l’analyse manuelle directe des données a été de plus en plus complétée par des outils indirects de traitement automatique des données qui utilisent des méthodologies, des méthodes et des algorithmes sophistiqués. La manifestation d’une telle évolution des moyens automatisés et semi-automatisés de traitement de grands ensembles de données est maintenant communément appelée exploration de données.
Comme mentionné précédemment, de manière générale, les tâches et les modèles d’exploration de données peuvent être classés en trois catégories principales: prédiction, association et clustering. Sur la base de la manière dont les modèles sont extraits des données historiques, les algorithmes d’apprentissage des méthodes d’exploration de données peuvent être classés comme supervisés ou non supervisés. Avec les algorithmes d’apprentissage supervisé, les données d’apprentissage comprennent à la fois les attributs descriptifs (c’est-à-dire les variables indépendantes ou les variables de décision) et l’attribut de classe (c’est-à-dire la variable de sortie ou la variable de résultat). En revanche, avec l’apprentissage non supervisé, les données de formation ne comprennent que les attributs descriptifs. La figure 2.3 montre une taxonomie simple pour les tâches d’exploration de données, ainsi que les méthodes d’apprentissage et les algorithmes populaires pour chacune des tâches d’exploration de données. Parmi les trois principales catégories de tâches, les modèles / modèles de prédiction peuvent être classés comme le résultat d’une procédure d’apprentissage supervisée, tandis que les modèles / modèles d’association et de regroupement peuvent être classés comme le résultat de procédures d’apprentissage non supervisées.
La prédiction est couramment utilisée pour indiquer l’avenir. Il diffère de la simple supposition en tenant compte des expériences, des opinions et d’autres informations pertinentes dans la conduite de la tâche de prédiction. Un terme communément associé à la prédiction est la prévision. Même si beaucoup de gens utilisent ces deux termes comme synonymes, il existe une différence subtile entre eux. Alors que la prévision est largement basée sur l’expérience et l’opinion, la prévision est basée sur des données et des modèles. C’est-à-dire que, dans l’ordre de la fiabilité croissante, on peut énumérer les termes pertinents comme deviner, prédire et prévoir. Dans la terminologie de l’exploration de données, la prédiction et la prévision sont utilisées comme synonymes, et le terme prédiction est utilisé comme représentation commune de l’acte. Selon la nature de ce qui est prédit, la prédiction peut être nommée plus spécifiquement classification (où la chose prévue, telle que la prévision de demain, est une étiquette de classe telle que « pluvieux » ou « ensoleillé ») ou régression (où la chose prévue, telle que la température de demain, est un nombre réel, tel que « 65 degrés »).
La classification, ou induction supervisée, est peut-être la plus courante de toutes les tâches d’exploration de données. L’objectif de la classification est d’analyser les données historiques stockées dans une base de données et de générer automatiquement un modèle capable de prédire le comportement futur. Ce modèle induit consiste en des généralisations sur les enregistrements d’un ensemble de données d’entraînement, qui aident à distinguer les classes prédéfinies. L’espoir est que le modèle puisse ensuite être utilisé pour prédire les classes d’autres enregistrements non classifiés et, plus important encore, pour prédire avec précision les événements futurs réels.
Les outils de classification courants comprennent les réseaux de neurones et les arbres de décision (issus de l’apprentissage automatique), la régression logistique et l’analyse discriminante (issues des statistiques traditionnelles), ainsi que des outils émergents tels que des ensembles approximatifs, des machines vectorielles de support et des algorithmes génétiques. Les techniques de classification basées sur les statistiques (par exemple, la régression logistique, l’analyse discriminante) ont été critiquées comme faisant des hypothèses irréalistes sur les données, telles que l’indépendance et la normalité, qui limitent leur utilisation dans les projets d’exploration de données de type classification.
Les réseaux de neurones impliquent le développement de structures mathématiques (ressemblant quelque peu aux réseaux de neurones biologiques du cerveau humain) qui ont la capacité d’apprendre des expériences passées, présentées sous la forme d’ensembles de données bien structurés. Ils ont tendance à être plus efficaces lorsque le nombre de variables impliquées est assez important et que les relations entre elles sont complexes et imprécises. Les réseaux de neurones présentent des inconvénients ainsi que des avantages. Par exemple, il est généralement très difficile de fournir une bonne justification des prédictions faites par un réseau de neurones. En outre, les réseaux de neurones ont tendance à nécessiter une formation considérable. Malheureusement, le temps nécessaire à la formation a tendance à augmenter de façon exponentielle à mesure que le volume de données augmente et, en général, les réseaux de neurones ne peuvent pas être formés sur de très grandes bases de données. Ces facteurs et d’autres ont limité l’applicabilité des réseaux de neurones dans des domaines riches en données. (Voir Chapitre 5, » Algorithmes pour l’analyse prédictive « , pour une couverture plus détaillée des réseaux de neurones.)
Les arbres de décision classent les données en un nombre fini de classes, en fonction des valeurs des variables d’entrée. Les arbres de décision sont essentiellement une hiérarchie d’instructions if–then et sont donc nettement plus rapides que les réseaux de neurones. Ils sont les plus appropriés pour les données catégorielles et d’intervalle. Par conséquent, l’intégration de variables continues dans un cadre d’arbre de décision nécessite une discrétisation, c’est—à-dire la conversion de variables numériques à valeur continue en plages et catégories.
Une catégorie connexe d’outils de classification est l’induction de règles. Contrairement à un arbre de décision, avec l’induction de règles, les instructions if–then sont induites directement à partir des données d’entraînement, et elles n’ont pas besoin d’être de nature hiérarchique. D’autres techniques plus récentes telles que la SVM, les ensembles approximatifs et les algorithmes génétiques trouvent progressivement leur place dans l’arsenal des algorithmes de classification et sont traitées plus en détail au chapitre 5 dans le cadre de la discussion sur les algorithmes d’exploration de données.
L’utilisation d’associations — communément appelées règles d’association dans l’exploration de données — est une technique populaire et bien étudiée pour découvrir des relations intéressantes entre les variables dans de grandes bases de données. Grâce aux technologies automatisées de collecte de données telles que l’utilisation de scanners de codes à barres, l’utilisation de règles d’association pour découvrir les régularités entre les produits dans les transactions à grande échelle enregistrées par les systèmes de point de vente dans les supermarchés est devenue une tâche commune de découverte de connaissances dans le secteur de la vente au détail. Dans le contexte de l’industrie de la vente au détail, l’extraction de règles d’association est souvent appelée analyse du panier de marché.
Deux dérivés couramment utilisés de l’extraction de règles d’association sont l’analyse de liens et l’extraction de séquences. Avec l’analyse des liens, les liens entre de nombreux objets d’intérêt sont découverts automatiquement, tels que le lien entre les pages Web et les relations référentielles entre les groupes d’auteurs de publications universitaires. Avec l’extraction de séquences, les relations sont examinées en fonction de leur ordre d’occurrence pour identifier les associations au fil du temps. Les algorithmes utilisés dans l’exploration de règles d’association incluent les algorithmes populaires Apriori (où des ensembles d’éléments fréquents sont identifiés), FP-Growth, OneR, ZeroR et Eclat. Le chapitre 4, » Données et méthodes pour l’analyse prédictive « , fournit une explication des A priori.
Le clustering implique le partitionnement d’une collection d’objets (par exemple, des objets, des événements, etc., présentés dans un ensemble de données structurées) en segments (ou groupements naturels) dont les membres partagent des caractéristiques similaires. Contrairement à la classification, en clustering, les étiquettes de classe sont inconnues. Au fur et à mesure que l’algorithme sélectionné parcourt l’ensemble de données, identifiant les points communs des choses en fonction de leurs caractéristiques, les clusters sont établis. Étant donné que les clusters sont déterminés à l’aide d’un algorithme de type heuristique et que des algorithmes différents peuvent se retrouver avec des ensembles de clusters différents pour le même ensemble de données, avant que les résultats des techniques de clusters ne soient utilisés, il peut être nécessaire qu’un expert interprète et modifie potentiellement les clusters suggérés. Une fois que des grappes raisonnables ont été identifiées, elles peuvent être utilisées pour classer et interpréter de nouvelles données.
Sans surprise, les techniques de clustering incluent l’optimisation. Le but du regroupement est de créer des groupes afin que les membres de chaque groupe aient un maximum de similarité et que les membres d’un groupe à l’autre aient un minimum de similitude. Les techniques de clustering les plus couramment utilisées incluent les k-means (à partir de statistiques) et les cartes auto-organisatrices (à partir de l’apprentissage automatique), qui est une architecture de réseau de neurones unique développée par Kohonen (1982).
Les entreprises utilisent souvent efficacement leurs systèmes d’exploration de données pour effectuer une segmentation du marché avec une analyse par grappes. L’analyse de cluster est un moyen d’identifier des classes d’éléments afin que les éléments d’un cluster aient plus de points communs les uns avec les autres qu’avec les éléments d’autres clusters. Ce type d’analyse peut être utilisé pour segmenter les clients et orienter les produits marketing appropriés vers les segments au bon moment, dans le bon format et au bon prix. L’analyse de grappes est également utilisée pour identifier des groupements naturels d’événements ou d’objets afin qu’un ensemble commun de caractéristiques de ces groupes puisse être identifié pour les décrire.
Deux techniques souvent associées à l’exploration de données sont la visualisation et la prévision de séries chronologiques. La visualisation peut être utilisée conjointement avec d’autres techniques d’exploration de données pour mieux comprendre les relations sous-jacentes. Alors que l’importance de la visualisation a augmenté ces dernières années, le terme analyse visuelle a émergé. L’idée est de combiner l’analyse et la visualisation dans un environnement unique pour une création de connaissances plus facile et plus rapide. L’analyse visuelle est traitée en détail au chapitre 4. Dans la prévision de séries chronologiques, les données sont constituées de valeurs de la même variable qui sont capturées et stockées dans le temps, à intervalles réguliers. Ces données sont ensuite utilisées pour développer des modèles de prévision afin d’extrapoler les valeurs futures de la même variable.