Quali tipi di modelli possono essere rilevati dal Data Mining?
Utilizzando i dati più rilevanti (che possono provenire da database organizzativi o possono essere ottenuti da fonti esterne), il data mining costruisce modelli per identificare modelli tra gli attributi (cioè variabili o caratteristiche) esistenti in un set di dati. I modelli sono di solito le rappresentazioni matematiche (semplici correlazioni lineari e / o complesse relazioni altamente non lineari) che identificano le relazioni tra gli attributi degli oggetti (ad esempio, clienti) descritti nel set di dati. Alcuni di questi modelli sono esplicativi (spiegando le interrelazioni e le affinità tra gli attributi), mentre altri sono predittivi (proiettando valori futuri di determinati attributi). In generale, il data mining cerca di identificare tre tipi principali di modelli:
-
Le associazioni trovano comunemente raggruppamenti di cose, come “birre e pannolini” o “pane e burro” comunemente acquistati e osservati insieme in un carrello della spesa (ad esempio, analisi del carrello del mercato). Un altro tipo di modello di associazione cattura le sequenze di cose. Queste relazioni sequenziali possono scoprire eventi ordinati nel tempo, come prevedere che un cliente bancario esistente che ha già un conto corrente aprirà un conto di risparmio seguito da un conto di investimento entro un anno.
-
Le previsioni raccontano la natura degli eventi futuri di determinati eventi in base a ciò che è accaduto in passato, come prevedere il vincitore del Super Bowl o prevedere la temperatura assoluta in un determinato giorno.
-
I cluster identificano raggruppamenti naturali di oggetti in base alle loro caratteristiche note, ad esempio assegnando clienti in segmenti diversi in base ai loro dati demografici e ai comportamenti di acquisto passati.
Questi tipi di modelli sono stati estratti manualmente dai dati dagli esseri umani per secoli, ma il crescente volume di dati in tempi moderni ha creato la necessità di approcci più automatici. Man mano che i set di dati sono cresciuti in termini di dimensioni e complessità, l’analisi manuale diretta dei dati è stata sempre più aumentata con strumenti di elaborazione dati indiretti e automatici che utilizzano metodologie, metodi e algoritmi sofisticati. La manifestazione di tale evoluzione dei mezzi automatizzati e semiautomatici di elaborazione di grandi insiemi di dati è ora comunemente indicata come data mining.
Come accennato in precedenza, in generale, le attività e i modelli di data mining possono essere classificati in tre categorie principali: previsione, associazione e clustering. In base al modo in cui i modelli vengono estratti dai dati storici, gli algoritmi di apprendimento dei metodi di data mining possono essere classificati come supervisionati o non supervisionati. Con gli algoritmi di apprendimento supervisionati, i dati di allenamento includono sia gli attributi descrittivi (cioè variabili indipendenti o variabili decisionali) che l’attributo di classe (cioè variabile di output o variabile di risultato). Al contrario, con l’apprendimento non supervisionato, i dati di allenamento includono solo gli attributi descrittivi. Figura 2.3 mostra una semplice tassonomia per le attività di data mining, insieme con i metodi di apprendimento e algoritmi popolari per ciascuna delle attività di data mining. Tra le tre principali categorie di compiti, i modelli / modelli di previsione possono essere classificati come il risultato di una procedura di apprendimento supervisionato, mentre i modelli/modelli di associazione e clustering possono essere classificati come il risultato di procedure di apprendimento non supervisionate.
Previsione è comunemente usato per indicare raccontare il futuro. Si differenzia dalla semplice supposizione tenendo conto delle esperienze, delle opinioni e di altre informazioni rilevanti nel condurre il compito di predire. Un termine comunemente associato alla previsione è la previsione. Anche se molte persone usano questi due termini come sinonimi, c’è una sottile differenza tra loro. Mentre la previsione è in gran parte basata sull’esperienza e sull’opinione, la previsione è basata su dati e modelli. Cioè, nell’ordine di crescente affidabilità, si potrebbero elencare i termini pertinenti come indovinare, prevedere e prevedere. Nella terminologia del data mining, la previsione e la previsione vengono utilizzate come sinonimi e il termine previsione viene utilizzato come rappresentazione comune dell’atto. A seconda della natura di ciò che viene previsto, la previsione può essere denominata più specificamente come classificazione (dove la cosa prevista, come la previsione di domani, è un’etichetta di classe come “rainy” o “sunny”) o regressione (dove la cosa prevista, come la temperatura di domani, è un numero reale, come “65 gradi”).
La classificazione, o induzione supervisionata, è forse la più comune di tutte le attività di data mining. L’obiettivo della classificazione è quello di analizzare i dati storici memorizzati in un database e generare automaticamente un modello in grado di prevedere il comportamento futuro. Questo modello indotto consiste in generalizzazioni sui record di un set di dati di allenamento, che aiutano a distinguere le classi predefinite. La speranza è che il modello possa essere utilizzato per prevedere le classi di altri record non classificati e, cosa più importante, per prevedere con precisione gli eventi futuri effettivi.
Gli strumenti di classificazione comuni includono reti neurali e alberi decisionali (dall’apprendimento automatico), regressione logistica e analisi discriminante (dalle statistiche tradizionali) e strumenti emergenti come insiemi grezzi, macchine vettoriali di supporto e algoritmi genetici. Le tecniche di classificazione basate sulle statistiche (ad esempio, regressione logistica, analisi discriminante) sono state criticate come ipotesi irrealistiche sui dati, come l’indipendenza e la normalità, che limitano il loro uso nei progetti di data mining di tipo classificazione.
Le reti neurali implicano lo sviluppo di strutture matematiche (in qualche modo simili alle reti neurali biologiche nel cervello umano) che hanno la capacità di apprendere dalle esperienze passate, presentate sotto forma di set di dati ben strutturati. Tendono ad essere più efficaci quando il numero di variabili coinvolte è piuttosto ampio e le relazioni tra loro sono complesse e imprecise. Le reti neurali presentano svantaggi e vantaggi. Ad esempio, di solito è molto difficile fornire una buona logica per le previsioni fatte da una rete neurale. Inoltre, le reti neurali tendono ad avere bisogno di una formazione considerevole. Sfortunatamente, il tempo necessario per l’allenamento tende ad aumentare esponenzialmente all’aumentare del volume dei dati e, in generale, le reti neurali non possono essere addestrate su database molto grandi. Questi e altri fattori hanno limitato l’applicabilità delle reti neurali in domini ricchi di dati. (Vedere Capitolo 5, “Algoritmi per l’analisi predittiva”, per una copertura più dettagliata delle reti neurali.)
Gli alberi decisionali classificano i dati in un numero finito di classi, in base ai valori delle variabili di input. Gli alberi decisionali sono essenzialmente una gerarchia di istruzioni if–then e sono quindi significativamente più veloci delle reti neurali. Sono più appropriati per i dati categoriali e di intervallo. Pertanto, l’integrazione di variabili continue in un framework ad albero decisionale richiede la discretizzazione, ovvero la conversione di variabili numeriche a valori continui in intervalli e categorie.
Una categoria correlata di strumenti di classificazione è l’induzione delle regole. A differenza di un albero decisionale, con l’induzione della regola, le istruzioni if-then sono indotte direttamente dai dati di allenamento e non devono essere di natura gerarchica. Altre tecniche più recenti come SVM, rough set e algoritmi genetici stanno gradualmente trovando la loro strada nell’arsenale degli algoritmi di classificazione e sono trattate in modo più dettagliato nel Capitolo 5 come parte della discussione sugli algoritmi di data mining.
L’utilizzo di associazioni—che sono comunemente chiamate regole di associazione nel data mining—è una tecnica popolare e ben studiata per scoprire relazioni interessanti tra variabili in database di grandi dimensioni. Grazie a tecnologie automatizzate di raccolta dati come l’uso di scanner di codici a barre, l’uso di regole di associazione per scoprire regolarità tra i prodotti in transazioni su larga scala registrate dai sistemi di punti vendita nei supermercati è diventato un compito di conoscenza-scoperta comune nel settore della vendita al dettaglio. Nel contesto dell’industria al dettaglio, l’estrazione di regole di associazione viene spesso chiamata analisi del paniere di mercato.
Due derivati comunemente usati dell’estrazione delle regole di associazione sono l’analisi dei collegamenti e l’estrazione delle sequenze. Con link analysis, i collegamenti tra molti oggetti di interesse vengono scoperti automaticamente, come il collegamento tra le pagine web e le relazioni referenziali tra gruppi di autori di pubblicazioni accademiche. Con il sequence mining, le relazioni vengono esaminate in termini di ordine di occorrenza per identificare le associazioni nel tempo. Gli algoritmi utilizzati nel mining delle regole di associazione includono gli algoritmi Apriori (in cui vengono identificati set di elementi frequenti), FP-Growth, OneR, ZeroR ed Eclat. Il capitolo 4, “Dati e metodi per l’analisi predittiva”, fornisce una spiegazione di Apriori.
Il clustering comporta il partizionamento di una raccolta di cose (ad esempio, oggetti, eventi, ecc., presentato in un set di dati strutturati) in segmenti (o raggruppamenti naturali) i cui membri condividono caratteristiche simili. A differenza della classificazione, nel clustering, le etichette delle classi sono sconosciute. Mentre l’algoritmo selezionato passa attraverso il set di dati, identificando i punti in comune delle cose in base alle loro caratteristiche, i cluster vengono stabiliti. Poiché i cluster sono determinati utilizzando un algoritmo di tipo euristico e poiché diversi algoritmi possono finire con diversi set di cluster per lo stesso set di dati, prima che i risultati delle tecniche di clustering vengano messi in uso, potrebbe essere necessario che un esperto interpreti e potenzialmente modifichi i cluster suggeriti. Dopo che i cluster ragionevoli sono stati identificati, possono essere utilizzati per classificare e interpretare nuovi dati.
Non sorprende che le tecniche di clustering includano l’ottimizzazione. L’obiettivo del clustering è creare gruppi in modo che i membri all’interno di ciascun gruppo abbiano la massima somiglianza e i membri tra i gruppi abbiano una somiglianza minima. Le tecniche di clustering più comunemente utilizzate includono k-means (dalle statistiche) e mappe auto-organizzanti (dall’apprendimento automatico), che è un’architettura di rete neurale unica sviluppata da Kohonen (1982).
Le aziende spesso utilizzano efficacemente i loro sistemi di data mining per eseguire la segmentazione del mercato con l’analisi dei cluster. L’analisi del cluster è un mezzo per identificare le classi di elementi in modo che gli elementi in un cluster abbiano più in comune tra loro che con gli elementi in altri cluster. Questo tipo di analisi può essere utilizzato per segmentare i clienti e indirizzare i prodotti di marketing appropriati ai segmenti al momento giusto nel giusto formato al giusto prezzo. L’analisi del cluster viene anche utilizzata per identificare i raggruppamenti naturali di eventi o oggetti in modo che un insieme comune di caratteristiche di questi gruppi possa essere identificato per descriverli.
Due tecniche spesso associate al data mining sono la visualizzazione e la previsione delle serie temporali. La visualizzazione può essere utilizzata in combinazione con altre tecniche di data mining per ottenere una comprensione più chiara delle relazioni sottostanti. Poiché l’importanza della visualizzazione è aumentata negli ultimi anni, è emerso il termine analisi visiva. L’idea è di combinare analisi e visualizzazione in un unico ambiente per una creazione di conoscenza più semplice e veloce. L’analisi visiva è trattata in dettaglio nel Capitolo 4. Nella previsione di serie temporali, i dati sono costituiti da valori della stessa variabile che viene catturata e memorizzata nel tempo, a intervalli regolari. Questi dati vengono quindi utilizzati per sviluppare modelli di previsione per estrapolare i valori futuri della stessa variabile.