ce tipuri de modele pot descoperi exploatarea datelor?
folosind cele mai relevante date (care pot proveni din baze de date organizaționale sau pot fi obținute din surse externe), data mining construiește modele pentru a identifica modele printre atributele (adică variabile sau caracteristici) care există într-un set de date. Modelele sunt de obicei reprezentările matematice (corelații liniare simple și/sau relații complexe extrem de neliniare) care identifică relațiile dintre atributele obiectelor (de exemplu, clienți) descrise în setul de date. Unele dintre aceste modele sunt explicative (explicând interrelațiile și afinitățile dintre atribute), în timp ce altele sunt predictive (proiectând valori viitoare ale anumitor atribute). În general, data mining încearcă să identifice trei tipuri majore de modele:
-
asociațiile găsesc grupări comune de lucruri, cum ar fi” beri și scutece „sau” pâine și unt ” cumpărate și observate împreună într-un coș de cumpărături (adică analiza coșului de piață). Un alt tip de model de asociere surprinde secvențele lucrurilor. Aceste relații secvențiale pot descoperi evenimente ordonate în timp, cum ar fi prezicerea că un client bancar existent care are deja un cont de verificare va deschide un cont de economii urmat de un cont de investiții în termen de un an.
-
predicțiile spun natura evenimentelor viitoare ale anumitor evenimente pe baza a ceea ce s-a întâmplat în trecut, cum ar fi prezicerea câștigătorului Super Bowl sau prognozarea temperaturii absolute într-o anumită zi.
-
clusterele identifică grupări naturale de lucruri pe baza caracteristicilor lor cunoscute, cum ar fi atribuirea clienților în diferite segmente pe baza demografiei lor și a comportamentelor de cumpărare anterioare.
aceste tipuri de modele au fost extrase manual din date de către oameni de secole, dar volumul tot mai mare de date din timpurile moderne a creat o nevoie de abordări mai automate. Pe măsură ce seturile de date au crescut în dimensiune și complexitate, analiza manuală directă a datelor a fost din ce în ce mai amplificată cu instrumente indirecte, automate de procesare a datelor care utilizează metodologii, metode și algoritmi sofisticați. Manifestarea unei astfel de evoluții a mijloacelor automate și semiautomate de prelucrare a seturilor mari de date este acum denumită în mod obișnuit data mining.
după cum am menționat mai devreme, în general, sarcinile și modelele de extragere a datelor pot fi clasificate în trei categorii principale: predicție, asociere și grupare. Pe baza modului în care modelele sunt extrase din datele istorice, algoritmii de învățare ai metodelor de extragere a datelor pot fi clasificați fie ca supravegheați, fie nesupravegheați. Cu algoritmi de învățare supravegheați, datele de instruire includ atât atributele descriptive (adică variabile independente sau variabile de decizie), cât și atributul clasei (adică variabilă de ieșire sau Variabilă de rezultat). În schimb, cu învățarea nesupravegheată, datele de instruire includ doar atributele descriptive. Figura 2.3 prezintă o taxonomie simplă pentru sarcinile de extragere a datelor, împreună cu metodele de învățare și algoritmii populari pentru fiecare dintre sarcinile de extragere a datelor. Dintre cele trei categorii principale de sarcini, modelele/modelele de predicție pot fi clasificate ca rezultatul unei proceduri de învățare supravegheate, în timp ce modelele/modelele de asociere și grupare pot fi clasificate ca rezultatul procedurilor de învățare nesupravegheate.
Predicția este folosită în mod obișnuit pentru a indica povestirea despre viitor. Acesta diferă de ghicitul simplu, luând în considerare experiențele, opiniile și alte informații relevante în îndeplinirea sarcinii de prezicere. Un termen care este frecvent asociat cu predicția este prognoza. Chiar dacă mulți oameni folosesc acești doi termeni sinonim, există o diferență subtilă între ei. În timp ce predicția este în mare parte bazată pe experiență și opinie, prognoza este bazată pe date și modele. Adică, în ordinea creșterii fiabilității, s-ar putea enumera termenii relevanți ca ghicitul, prezicerea și prognoza. În terminologia de extragere a datelor, predicția și prognoza sunt utilizate sinonim, iar termenul de predicție este folosit ca reprezentare comună a actului. În funcție de natura a ceea ce este prezis, predicția poate fi numită mai specific ca clasificare (unde lucrul prezis, cum ar fi prognoza de mâine, este o etichetă de clasă precum „ploios” sau „însorit”) sau regresie (unde lucrul prezis, cum ar fi temperatura de mâine, este un număr real, cum ar fi „65 de grade”).
clasificarea sau inducția supravegheată este probabil cea mai comună dintre toate sarcinile de extragere a datelor. Obiectivul clasificării este de a analiza datele istorice stocate într-o bază de date și de a genera automat un model care poate prezice comportamentul viitor. Acest model indus constă în generalizări asupra înregistrărilor unui set de date de antrenament, care ajută la distingerea claselor predefinite. Speranța este că modelul poate fi apoi folosit pentru a prezice clasele altor înregistrări neclasificate și, mai important, pentru a prezice cu exactitate evenimentele viitoare reale.
instrumentele comune de clasificare includ rețele neuronale și arbori de decizie (din învățarea automată), regresie logistică și analiză discriminantă (din Statisticile tradiționale) și instrumente emergente, cum ar fi seturi brute, mașini vectoriale de sprijin și algoritmi genetici. Tehnicile de clasificare bazate pe statistici (de exemplu, regresia logistică, analiza discriminantă) au fost criticate ca făcând presupuneri nerealiste cu privire la date, cum ar fi independența și normalitatea, care limitează utilizarea lor în proiecte de extragere a datelor de tip clasificare.
rețelele neuronale implică dezvoltarea de structuri matematice (oarecum asemănătoare rețelelor neuronale biologice din creierul uman) care au capacitatea de a învăța din experiențele trecute, prezentate sub formă de seturi de date bine structurate. Ele tind să fie mai eficiente atunci când numărul de variabile implicate este destul de mare și relațiile dintre ele sunt complexe și imprecise. Rețelele neuronale au dezavantaje, precum și avantaje. De exemplu, este de obicei foarte dificil să oferiți o justificare bună pentru predicțiile făcute de o rețea neuronală. De asemenea, rețelele neuronale tind să aibă nevoie de o pregătire considerabilă. Din păcate, timpul necesar instruirii tinde să crească exponențial pe măsură ce volumul de date crește și, în general, rețelele neuronale nu pot fi instruite pe baze de date foarte mari. Acești factori și alți factori au limitat aplicabilitatea rețelelor neuronale în domenii bogate în date. (Vezi capitolul 5, „algoritmi pentru analiza predictivă”, pentru o acoperire mai detaliată a rețelelor neuronale.)
arborii de decizie clasifică datele într-un număr finit de clase, pe baza valorilor variabilelor de intrare. Arborii de decizie sunt în esență o ierarhie a declarațiilor if–then și, prin urmare, sunt semnificativ mai rapide decât rețelele neuronale. Acestea sunt cele mai potrivite pentru datele categorice și de interval. Prin urmare, încorporarea variabilelor continue într—un cadru arbore de decizie necesită discretizare-adică conversia variabilelor numerice cu valoare continuă în intervale și categorii.
o categorie înrudită de instrumente de clasificare este inducerea regulilor. Spre deosebire de un arbore de decizie, cu inducerea regulilor, declarațiile if–then sunt induse direct din datele de antrenament și nu trebuie să fie de natură ierarhică. Alte tehnici mai recente, cum ar fi SVM, seturi brute și algoritmi genetici, își găsesc treptat drumul în arsenalul algoritmilor de clasificare și sunt acoperite mai detaliat în Capitolul 5 ca parte a discuției despre algoritmii de extragere a datelor.
utilizarea asociațiilor—care sunt denumite în mod obișnuit reguli de asociere în extragerea datelor—este o tehnică populară și bine cercetată pentru a descoperi relații interesante între variabile în baze de date mari. Datorită tehnologiilor automate de colectare a datelor, cum ar fi utilizarea scanerelor de coduri de bare, utilizarea regulilor de asociere pentru descoperirea regularităților între produse în tranzacțiile la scară largă înregistrate de sistemele de puncte de vânzare în supermarketuri a devenit o sarcină comună de descoperire a cunoștințelor în industria de retail. În contextul industriei de vânzare cu amănuntul, exploatarea regulilor de asociere este adesea numită analiză a coșului de piață.
două derivate utilizate în mod obișnuit ale exploatării regulilor de asociere sunt analiza legăturilor și exploatarea secvenței. Cu analiza legăturilor, legăturile dintre multe obiecte de interes sunt descoperite automat, cum ar fi legătura dintre paginile web și relațiile referențiale dintre grupurile de autori de publicații academice. Cu extragerea secvenței, relațiile sunt examinate în ceea ce privește ordinea lor de apariție pentru a identifica asociațiile în timp. Algoritmii utilizați în exploatarea regulilor de asociere includ popularul Apriori (unde sunt identificate seturi frecvente de articole), FP-Growth, Oner, zeror și algoritmi Eclat. Capitolul 4, „Date și metode pentru analiza predictivă”, oferă o explicație a Apriori.
gruparea implică partiționarea unei colecții de lucruri (de exemplu, obiecte, evenimente etc., prezentate într-un set de date structurat) în segmente (sau grupări naturale) ai căror membri au caracteristici similare. Spre deosebire de clasificare, în clustering, etichetele clasei sunt necunoscute. Pe măsură ce algoritmul selectat trece prin setul de date, identificând elementele comune ale lucrurilor pe baza caracteristicilor lor, se stabilesc clusterele. Deoarece clusterele sunt determinate folosind un algoritm de tip euristic și deoarece algoritmi diferiți pot ajunge la seturi diferite de clustere pentru același set de date, înainte de a fi utilizate rezultatele tehnicilor de clustering, poate fi necesar ca un expert să interpreteze și să modifice potențial clusterele sugerate. După identificarea clusterelor rezonabile, acestea pot fi utilizate pentru clasificarea și interpretarea datelor noi.
nu este surprinzător că tehnicile de grupare includ optimizarea. Scopul grupării este de a crea grupuri astfel încât membrii din fiecare grup să aibă similitudine maximă, iar membrii din toate grupurile să aibă similitudine minimă. Cele mai frecvent utilizate tehnici de grupare includ k-means (din statistici) și hărți autoorganizate (din învățarea automată), care este o arhitectură unică de rețea neuronală dezvoltată de Kohonen (1982).
firmele folosesc adesea în mod eficient sistemele lor de extragere a datelor pentru a efectua segmentarea pieței cu analiza clusterului. Analiza clusterului este un mijloc de identificare a claselor de elemente, astfel încât elementele dintr-un cluster să aibă mai multe în comun între ele decât cu elementele din alte clustere. Acest tip de analiză poate fi utilizat în segmentarea clienților și direcționarea produselor de marketing adecvate către segmente la momentul potrivit, în formatul potrivit, la prețul potrivit. Analiza clusterului este, de asemenea, utilizată pentru a identifica grupările naturale de evenimente sau obiecte, astfel încât un set comun de caracteristici ale acestor grupuri să poată fi identificat pentru a le descrie.
două tehnici adesea asociate cu extragerea datelor sunt vizualizarea și prognozarea seriilor de timp. Vizualizarea poate fi utilizată împreună cu alte tehnici de extragere a datelor pentru a obține o înțelegere mai clară a relațiilor de bază. Pe măsură ce importanța vizualizării a crescut în ultimii ani, a apărut termenul de analiză vizuală. Ideea este de a combina analiza și vizualizarea într-un singur mediu pentru crearea mai ușoară și mai rapidă a cunoștințelor. Analiza vizuală este acoperită în detaliu în Capitolul 4. În prognozarea seriilor de timp, datele constau din valori ale aceleiași variabile care sunt capturate și stocate în timp, la intervale regulate. Aceste date sunt apoi utilizate pentru a dezvolta modele de prognoză pentru a extrapola valorile viitoare ale aceleiași variabile.