Welche Arten von Mustern kann Data Mining entdecken?
Unter Verwendung der relevantesten Daten (die aus Organisationsdatenbanken stammen oder aus externen Quellen stammen können) erstellt Data Mining Modelle, um Muster zwischen den Attributen (d. H. Variablen oder Merkmalen) zu identifizieren, die in einem Datensatz vorhanden sind. Modelle sind in der Regel die mathematischen Darstellungen (einfache lineare Korrelationen und / oder komplexe hochgradig nichtlineare Beziehungen), die die Beziehungen zwischen den Attributen der im Datensatz beschriebenen Objekte (z. B. Kunden) identifizieren. Einige dieser Muster sind erklärend (Erklärung der Wechselbeziehungen und Affinitäten zwischen den Attributen), während andere prädiktiv sind (Projektion zukünftiger Werte bestimmter Attribute). Im Allgemeinen versucht Data Mining, drei Haupttypen von Mustern zu identifizieren:
-
Assoziationen finden häufig zusammen vorkommende Gruppierungen von Dingen, wie „Bier und Windeln“ oder „Brot und Butter“, die häufig zusammen in einem Einkaufswagen gekauft und beobachtet werden (d. H. Marktkorbanalyse). Eine andere Art von Assoziationsmuster erfasst die Sequenzen der Dinge. Diese sequentiellen Beziehungen können zeitlich geordnete Ereignisse erkennen, z. B. die Vorhersage, dass ein bestehender Bankkunde, der bereits über ein Girokonto verfügt, innerhalb eines Jahres ein Sparkonto und anschließend ein Anlagekonto eröffnet.
-
Vorhersagen sagen die Art des zukünftigen Auftretens bestimmter Ereignisse basierend auf dem, was in der Vergangenheit passiert ist, wie die Vorhersage des Gewinners des Super Bowl oder die Vorhersage der absoluten Temperatur an einem bestimmten Tag.
-
Cluster identifizieren natürliche Gruppierungen von Dingen basierend auf ihren bekannten Merkmalen, z. B. die Zuordnung von Kunden zu verschiedenen Segmenten basierend auf ihren demografischen Merkmalen und ihrem früheren Kaufverhalten.
Diese Arten von Mustern wurden von Menschen seit Jahrhunderten manuell aus Daten extrahiert, aber das zunehmende Datenvolumen in der heutigen Zeit hat einen Bedarf an automatischeren Ansätzen geschaffen. Da Datensätze an Größe und Komplexität zugenommen haben, wurde die direkte manuelle Datenanalyse zunehmend durch indirekte, automatische Datenverarbeitungswerkzeuge ergänzt, die ausgefeilte Methoden, Methoden und Algorithmen verwenden. Die Manifestation einer solchen Entwicklung automatisierter und halbautomatischer Mittel zur Verarbeitung großer Datensätze wird heute allgemein als Data Mining bezeichnet.
Wie bereits erwähnt, können Data Mining-Aufgaben und -Muster im Allgemeinen in drei Hauptkategorien eingeteilt werden: Vorhersage, Assoziation und Clustering. Basierend auf der Art und Weise, wie die Muster aus den historischen Daten extrahiert werden, können die Lernalgorithmen von Data-Mining-Methoden entweder als überwacht oder unbeaufsichtigt klassifiziert werden. Bei überwachten Lernalgorithmen umfassen die Trainingsdaten sowohl die beschreibenden Attribute (d. h. unabhängige Variablen oder Entscheidungsvariablen) als auch das Klassenattribut (d. h. Ausgangsvariable oder Ergebnisvariable). Im Gegensatz dazu enthalten die Trainingsdaten beim unüberwachten Lernen nur die beschreibenden Attribute. Abbildung 2.3 zeigt eine einfache Taxonomie für Data Mining-Aufgaben sowie die Lernmethoden und gängigen Algorithmen für jede der Data Mining-Aufgaben. Von den drei Hauptkategorien von Aufgaben können Vorhersagemuster / -modelle als Ergebnis eines überwachten Lernverfahrens klassifiziert werden, während Assoziations- und Clustermuster / -modelle als Ergebnis unbeaufsichtigter Lernverfahren klassifiziert werden können.
Vorhersage wird häufig verwendet, um Aussagen über die Zukunft anzuzeigen. Es unterscheidet sich vom einfachen Raten, indem es die Erfahrungen, Meinungen und andere relevante Informationen bei der Durchführung der Aufgabe der Vorhersage berücksichtigt. Ein Begriff, der häufig mit Vorhersage in Verbindung gebracht wird, ist Prognose. Obwohl viele Menschen diese beiden Begriffe synonym verwenden, gibt es einen subtilen Unterschied zwischen ihnen. Während die Vorhersage weitgehend auf Erfahrungen und Meinungen basiert, basiert die Prognose auf Daten und Modellen. Das heißt, in der Reihenfolge zunehmender Zuverlässigkeit könnte man die relevanten Begriffe als Raten, Vorhersagen und Vorhersagen auflisten. In der Data-Mining-Terminologie werden Vorhersage und Prognose synonym verwendet, und der Begriff Vorhersage wird als gemeinsame Darstellung der Handlung verwendet. Abhängig von der Art dessen, was vorhergesagt wird, kann die Vorhersage genauer als Klassifikation (wobei die vorhergesagte Sache, wie die Vorhersage von morgen, eine Klassenbezeichnung wie „regnerisch“ oder „sonnig“ ist) oder Regression (wobei die vorhergesagte Sache, wie die Temperatur von morgen, ist eine reelle Zahl, wie „65 Grad“).
Klassifizierung oder überwachte Induktion ist vielleicht die häufigste aller Data-Mining-Aufgaben. Ziel der Klassifizierung ist es, die in einer Datenbank gespeicherten historischen Daten zu analysieren und automatisch ein Modell zu generieren, das zukünftiges Verhalten vorhersagen kann. Dieses Trainingsmodell besteht aus Verallgemeinerungen über die Datensätze eines Trainingsdatensatzes, die helfen, vordefinierte Klassen zu unterscheiden. Die Hoffnung ist, dass das Modell dann verwendet werden kann, um die Klassen anderer nicht klassifizierter Datensätze vorherzusagen und, was noch wichtiger ist, um tatsächliche zukünftige Ereignisse genau vorherzusagen.
Gängige Klassifizierungswerkzeuge umfassen neuronale Netze und Entscheidungsbäume (aus dem maschinellen Lernen), logistische Regression und Diskriminanzanalyse (aus der traditionellen Statistik) sowie aufkommende Werkzeuge wie grobe Mengen, Support-Vektor-Maschinen und genetische Algorithmen. Statistikbasierte Klassifizierungstechniken (z. B. logistische Regression, Diskriminanzanalyse) wurden als unrealistische Annahmen über die Daten wie Unabhängigkeit und Normalität kritisiert, die ihre Verwendung in Data-Mining-Projekten vom Klassifikationstyp einschränken.
Neuronale Netze beinhalten die Entwicklung mathematischer Strukturen (ähnlich den biologischen neuronalen Netzen im menschlichen Gehirn), die die Fähigkeit haben, aus vergangenen Erfahrungen zu lernen, die in Form von gut strukturierten Datensätzen präsentiert werden. Sie sind in der Regel effektiver, wenn die Anzahl der beteiligten Variablen ziemlich groß ist und die Beziehungen zwischen ihnen komplex und ungenau sind. Neuronale Netze haben sowohl Nachteile als auch Vorteile. Zum Beispiel ist es normalerweise sehr schwierig, eine gute Begründung für die Vorhersagen eines neuronalen Netzwerks zu liefern. Außerdem benötigen neuronale Netze in der Regel ein erhebliches Training. Leider nimmt die für das Training benötigte Zeit mit zunehmendem Datenvolumen exponentiell zu, und im Allgemeinen können neuronale Netze nicht auf sehr großen Datenbanken trainiert werden. Diese und andere Faktoren haben die Anwendbarkeit neuronaler Netze in datenreichen Domänen eingeschränkt. (Siehe Kapitel 5, „Algorithmen für Predictive Analytics“, für eine detailliertere Abdeckung neuronaler Netze.)
Entscheidungsbäume klassifizieren Daten in eine endliche Anzahl von Klassen, basierend auf den Werten der Eingabevariablen. Entscheidungsbäume sind im Wesentlichen eine Hierarchie von Wenn-Dann-Aussagen und damit deutlich schneller als neuronale Netze. Sie eignen sich am besten für kategoriale und Intervalldaten. Daher erfordert die Einbeziehung kontinuierlicher Variablen in ein Entscheidungsbaumgerüst eine Diskretisierung, dh die Umwandlung kontinuierlich bewerteter numerischer Variablen in Bereiche und Kategorien.
Eine verwandte Kategorie von Klassifizierungswerkzeugen ist die Regelinduktion. Im Gegensatz zu einem Entscheidungsbaum werden bei der Regelinduktion die if–Then-Anweisungen direkt aus den Trainingsdaten induziert und müssen nicht hierarchischer Natur sein. Andere, neuere Techniken wie SVM, grobe Mengen und genetische Algorithmen finden allmählich ihren Weg in das Arsenal der Klassifikationsalgorithmen und werden im Rahmen der Diskussion über Data Mining-Algorithmen in Kapitel 5 ausführlicher behandelt.
Die Verwendung von Assoziationen — die im Data Mining allgemein als Assoziationsregeln bezeichnet werden — ist eine beliebte und gut erforschte Technik, um interessante Beziehungen zwischen Variablen in großen Datenbanken zu entdecken. Dank automatisierter Datenerfassungstechnologien wie der Verwendung von Barcodescannern ist die Verwendung von Assoziationsregeln zur Erkennung von Regelmäßigkeiten zwischen Produkten in groß angelegten Transaktionen, die von Point-of-Sale-Systemen in Supermärkten aufgezeichnet werden, zu einer gängigen Wissenserkennungsaufgabe im Einzelhandel geworden. Im Kontext des Einzelhandels wird Association Rule Mining oft als Market-Basket-Analyse bezeichnet.
Zwei häufig verwendete Derivate des Association Rule Mining sind Link Analysis und Sequence Mining. Mit der Linkanalyse werden die Verknüpfungen zwischen vielen interessanten Objekten automatisch erkannt, z. B. die Verknüpfung zwischen Webseiten und Referenzbeziehungen zwischen Gruppen von Autoren wissenschaftlicher Publikationen. Beim Sequence Mining werden Beziehungen in ihrer Reihenfolge des Auftretens untersucht, um Assoziationen im Zeitverlauf zu identifizieren. Zu den Algorithmen, die beim Assoziationsregel-Mining verwendet werden, gehören die beliebten Apriori- (bei denen häufige Elementsätze identifiziert werden), FP-Growth-, OneR-, ZeroR- und Eclat-Algorithmen. Kapitel 4, „Daten und Methoden für Predictive Analytics“, erläutert Apriori.
Clustering beinhaltet die Partitionierung einer Sammlung von Dingen (z. B. Objekte, Ereignisse usw., dargestellt in einem strukturierten Datensatz) in Segmente (oder natürliche Gruppierungen), deren Mitglieder ähnliche Merkmale aufweisen. Im Gegensatz zur Klassifizierung sind beim Clustering die Klassenbezeichnungen unbekannt. Während der ausgewählte Algorithmus den Datensatz durchläuft und die Gemeinsamkeiten der Dinge anhand ihrer Eigenschaften identifiziert, werden die Cluster erstellt. Da die Cluster unter Verwendung eines heuristischen Algorithmus bestimmt werden und unterschiedliche Algorithmen möglicherweise unterschiedliche Clustersätze für denselben Datensatz ergeben, kann es erforderlich sein, dass ein Experte die vorgeschlagenen Cluster interpretiert und möglicherweise ändert, bevor die Ergebnisse von Clustertechniken verwendet werden. Nachdem vernünftige Cluster identifiziert wurden, können sie zur Klassifizierung und Interpretation neuer Daten verwendet werden.
Es überrascht nicht, dass Clustering-Techniken die Optimierung beinhalten. Das Ziel des Clusters besteht darin, Gruppen so zu erstellen, dass die Mitglieder innerhalb jeder Gruppe eine maximale Ähnlichkeit und die Mitglieder in den Gruppen eine minimale Ähnlichkeit aufweisen. Die am häufigsten verwendeten Clustering-Techniken umfassen k-Means (aus Statistiken) und selbstorganisierende Karten (aus maschinellem Lernen), eine einzigartige neuronale Netzwerkarchitektur, die von Kohonen (1982) entwickelt wurde.
Unternehmen nutzen ihre Data-Mining-Systeme häufig effektiv, um eine Marktsegmentierung mit Clusteranalyse durchzuführen. Bei der Clusteranalyse werden Klassen von Elementen identifiziert, sodass Elemente in einem Cluster mehr gemeinsam haben als Elemente in anderen Clustern. Diese Art der Analyse kann verwendet werden, um Kunden zu segmentieren und geeignete Marketingprodukte zur richtigen Zeit im richtigen Format zum richtigen Preis an die Segmente zu richten. Clusteranalyse wird auch verwendet, um natürliche Gruppierungen von Ereignissen oder Objekten zu identifizieren, so dass ein gemeinsamer Satz von Merkmalen dieser Gruppen identifiziert werden kann, um sie zu beschreiben.
Zwei Techniken, die häufig mit Data Mining in Verbindung gebracht werden, sind Visualisierung und Zeitreihenprognose. Die Visualisierung kann in Verbindung mit anderen Data Mining-Techniken verwendet werden, um ein klareres Verständnis der zugrunde liegenden Beziehungen zu erhalten. Da die Bedeutung der Visualisierung in den letzten Jahren zugenommen hat, ist der Begriff Visual Analytics entstanden. Die Idee ist, Analyse und Visualisierung in einer einzigen Umgebung zu kombinieren, um die Wissenserstellung zu vereinfachen und zu beschleunigen. Visual Analytics wird in Kapitel 4 ausführlich behandelt. Bei der Zeitreihenprognose bestehen die Daten aus Werten derselben Variablen, die im Laufe der Zeit in regelmäßigen Abständen erfasst und gespeichert werden. Diese Daten werden dann verwendet, um Prognosemodelle zu entwickeln, um die zukünftigen Werte derselben Variablen zu extrapolieren.