welke soorten patronen kunnen Data Mining ontdekken?
gebruikmakend van de meest relevante gegevens (die afkomstig kunnen zijn uit organisatorische databases of kunnen worden verkregen uit externe bronnen), bouwt datamining modellen om patronen te identificeren tussen de kenmerken (d.w.z. variabelen of kenmerken) die in een gegevensverzameling bestaan. Modellen zijn meestal de wiskundige representaties (eenvoudige lineaire correlaties en/of complexe zeer niet-lineaire relaties) die de relaties tussen de attributen van de objecten (bijvoorbeeld klanten) beschreven in de dataset identificeren. Sommige van deze patronen zijn verklarend (het verklaren van de onderlinge verbanden en affiniteiten tussen de attributen), terwijl andere voorspellend zijn (het projecteren van toekomstige waarden van bepaalde attributen). In het algemeen probeert datamining drie belangrijke soorten patronen te identificeren:
-
verenigingen vinden vaak co-voorkomende groepen van dingen, zoals “bieren en luiers” of “brood en boter” vaak gekocht en waargenomen samen in een Winkelwagen (dat wil zeggen, markt-mand analyse). Een ander soort associatiepatroon vangt de opeenvolgingen van dingen. Deze sequentiële relaties kunnen tijdgeordende gebeurtenissen ontdekken, zoals voorspellen dat een bestaande bankklant die al een bankrekening heeft binnen een jaar een spaarrekening opent, gevolgd door een beleggingsrekening.
-
voorspellingen vertellen de aard van toekomstige gebeurtenissen van bepaalde gebeurtenissen op basis van wat er in het verleden is gebeurd, zoals het voorspellen van de winnaar van de Super Bowl of het voorspellen van de absolute temperatuur op een bepaalde dag.
-
Clusters identificeren natuurlijke groeperingen van dingen op basis van hun bekende kenmerken, zoals het toewijzen van klanten in verschillende segmenten op basis van hun demografie en eerdere aankoop gedrag.
deze soorten patronen zijn handmatig geëxtraheerd uit gegevens door de mens eeuwenlang, maar de toenemende hoeveelheid gegevens in de moderne tijd heeft een behoefte aan meer automatische benaderingen gecreëerd. Naarmate datasets in omvang en complexiteit zijn gegroeid, is directe handmatige data-analyse in toenemende mate uitgebreid met indirecte, automatische data processing tools die geavanceerde methodologieën, methoden en algoritmen gebruiken. De manifestatie van een dergelijke evolutie van geautomatiseerde en semi-geautomatiseerde middelen voor het verwerken van grote datasets wordt nu algemeen aangeduid als Data mining.
zoals eerder vermeld, kunnen taken en patronen voor datamining in het algemeen worden ingedeeld in drie hoofdcategorieën: voorspelling, associatie en clustering. Op basis van de manier waarop de patronen worden geëxtraheerd uit de historische data, kunnen de leeralgoritmen van data mining methoden worden geclassificeerd als ofwel onder toezicht of zonder toezicht. Met algoritmen voor begeleid leren omvatten de trainingsgegevens zowel de beschrijvende attributen (d.w.z. onafhankelijke variabelen of beslissingsvariabelen) als het class-attribuut (d.w.z. uitvoervariabele of resultaatvariabele). Bij leren zonder toezicht bevatten de trainingsgegevens alleen de beschrijvende eigenschappen. Figuur 2.3 toont een eenvoudige taxonomie voor data mining taken, samen met de leermethoden en populaire algoritmen voor elk van de data mining taken. Van de drie hoofdcategorieën taken kunnen voorspellingspatronen/ – modellen worden geclassificeerd als het resultaat van een leerprocedure onder toezicht, terwijl associatie-en clustering-patronen/ – modellen kunnen worden geclassificeerd als het resultaat van leerprocedures zonder toezicht.
voorspelling wordt vaak gebruikt om vertellen over de toekomst aan te geven. Het verschilt van eenvoudig raden door rekening te houden met de ervaringen, meningen, en andere relevante informatie bij het uitvoeren van de taak van voorspellen. Een term die vaak geassocieerd wordt met voorspelling is voorspellen. Hoewel veel mensen deze twee termen synoniem gebruiken, is er een subtiel verschil tussen hen. Terwijl voorspelling grotendeels gebaseerd is op ervaring en opinie, is voorspelling gebaseerd op gegevens en modellen. Dat wil zeggen, in de volgorde van toenemende betrouwbaarheid, zou men de relevante termen kunnen noemen als raden, voorspellen en voorspellen. In datamining terminologie worden voorspelling en voorspelling synoniem gebruikt, en de term voorspelling wordt gebruikt als de gemeenschappelijke representatie van de wet. Afhankelijk van de aard van wat wordt voorspeld, kan voorspelling specifieker worden genoemd als classificatie (waarbij het voorspelde ding, zoals de voorspelling van morgen, een klassetiket is zoals “regenachtig” of “zonnig”) of regressie (waarbij het voorspelde ding, zoals de temperatuur van morgen, een reëel getal is, zoals “65 graden”).
classificatie, of inductie onder toezicht, is misschien wel de meest voorkomende van alle dataminingtaken. Het doel van classificatie is om de historische gegevens te analyseren die in een database zijn opgeslagen en automatisch een model te genereren dat toekomstig gedrag kan voorspellen. Dit geïnduceerde model bestaat uit generalisaties over de records van een opleidingsdataset, die helpen vooraf gedefinieerde klassen te onderscheiden. De hoop is dat het model dan kan worden gebruikt om de klassen van andere niet-geclassificeerde records te voorspellen en, nog belangrijker, om actuele toekomstige gebeurtenissen nauwkeurig te voorspellen.
gemeenschappelijke classificatietools omvatten neurale netwerken en beslissingsbomen (van machine learning), logistieke regressie en discriminant analyse (van traditionele statistieken), en opkomende tools zoals ruwe verzamelingen, ondersteunende vectormachines en genetische algoritmen. Statistische classificatietechnieken (bijvoorbeeld logistische regressie, discriminant analysis) worden bekritiseerd als onrealistische veronderstellingen over de gegevens, zoals onafhankelijkheid en normaliteit, die het gebruik ervan in classificatietype dataminingprojecten beperken.Neurale netwerken omvatten de ontwikkeling van wiskundige structuren (die enigszins lijken op de biologische neurale netwerken in de menselijke hersenen) die het vermogen hebben om te leren van ervaringen uit het verleden, gepresenteerd in de vorm van goed gestructureerde datasets. Ze zijn meestal effectiever wanneer het aantal betrokken variabelen vrij groot is en de relaties tussen hen complex en onnauwkeurig zijn. Neurale netwerken hebben zowel nadelen als voordelen. Bijvoorbeeld, het is meestal erg moeilijk om een goede reden voor de voorspellingen die door een neuraal netwerk. Neurale netwerken hebben ook veel training nodig. Helaas neemt de tijd die nodig is voor de training exponentieel toe naarmate de hoeveelheid gegevens toeneemt, en in het algemeen kunnen neurale netwerken niet worden getraind op zeer grote databases. Deze en andere factoren hebben de toepasbaarheid van neurale netwerken in data-rijke domeinen beperkt. (Zie hoofdstuk 5, “algoritmen voor voorspellende analyse,” voor meer gedetailleerde dekking van neurale netwerken.)
beslissingsbomen classificeren gegevens in een eindig aantal klassen, gebaseerd op de waarden van de invoervariabelen. Beslissingsbomen zijn in wezen een hiërarchie van als–dan uitspraken en zijn dus aanzienlijk sneller dan neurale netwerken. Ze zijn het meest geschikt voor categorische en intervalgegevens. Daarom vereist het opnemen van continue variabelen in een decision tree framework discretisatie—dat wil zeggen, de conversie van continue gewaardeerde numerieke variabelen naar bereiken en categorieën.
een Verwante categorie van classificatiehulpmiddelen is regelinductie. Anders dan bij een beslissingsboom, worden bij regelinductie de if-then statements direct uit de trainingsgegevens afgeleid en hoeven ze niet hiërarchisch van aard te zijn. Andere, meer recente technieken zoals SVM, ruwe verzamelingen en genetische algoritmen vinden geleidelijk hun weg in het arsenaal van classificatiealgoritmen en worden in meer detail behandeld in hoofdstuk 5 als onderdeel van de discussie over dataminingalgoritmen.
het gebruik van associaties—die gewoonlijk associatieregels worden genoemd in datamining—is een populaire en goed onderbouwde techniek om interessante relaties tussen variabelen in grote databases te ontdekken. Dankzij technologieën voor geautomatiseerde gegevensverzameling, zoals het gebruik van barcodescanners, is het gebruik van verenigingsregels voor het ontdekken van regelmatigheden tussen producten in grootschalige transacties die worden geregistreerd door verkooppuntsystemen in supermarkten, uitgegroeid tot een gemeenschappelijke kennisontdekkingstaak in de detailhandel. In de context van de detailhandel, vereniging regel mijnbouw wordt vaak markt-mand analyse genoemd.
twee veelgebruikte derivaten van associatieregel mijnbouw zijn link analyse en sequence mining. Met link analyse worden de links tussen veel interessante objecten automatisch ontdekt, zoals de link tussen webpagina ‘ s en referentiële relaties tussen groepen van academische publicatie auteurs. Met sequence mining worden relaties onderzocht in termen van hun volgorde van voorkomen om associaties in de tijd te identificeren. Algoritmen gebruikt in associatie regel mining zijn de populaire Apriori (waar frequente item sets worden geïdentificeerd), FP-Growth, OneR, ZeroR, en Eclat algoritmen. Hoofdstuk 4, “Data and Methods for Predictive Analytics,” geeft een uitleg van Apriori.
clusteren omvat het partitioneren van een verzameling dingen (bijvoorbeeld objecten, gebeurtenissen, enz., gepresenteerd in een gestructureerde gegevensverzameling) in segmenten (of natuurlijke groepen) waarvan de leden dezelfde kenmerken hebben. In tegenstelling tot in classificatie, in clustering, zijn de klassenetiketten onbekend. Aangezien het geselecteerde algoritme door de gegevensverzameling gaat, het identificeren van de gemeenschappelijkheden van dingen op basis van hun kenmerken, worden de clusters vastgesteld. Omdat de clusters worden bepaald gebruikend een heuristisch-typealgoritme, en omdat de verschillende algoritmen met verschillende reeksen clusters voor de zelfde gegevensreeks kunnen eindigen, alvorens de resultaten van het clusteren technieken in gebruik worden genomen, kan het voor een deskundige noodzakelijk zijn om de voorgestelde clusters te interpreteren en potentieel te wijzigen. Nadat redelijke clusters zijn geà dentificeerd, kunnen zij worden gebruikt om nieuwe gegevens te classificeren en te interpreteren.
niet verrassend, clustering technieken omvatten optimalisatie. Het doel van clustering is om groepen te creëren zodat de leden binnen elke groep maximale gelijkenis hebben en de leden tussen groepen minimale gelijkenis hebben. De meest gebruikte clustering technieken omvatten k-middelen (van statistieken) en zelforganiserende kaarten (van machine learning), dat is een unieke neurale netwerkarchitectuur ontwikkeld door Kohonen (1982).
bedrijven gebruiken hun dataminingsystemen vaak effectief om marktsegmentatie uit te voeren met clusteranalyse. Clusteranalyse is een middel om klassen van items te identificeren, zodat items in een cluster meer met elkaar gemeen hebben dan met items in andere clusters. Dit type analyse kan worden gebruikt bij het segmenteren van klanten en het leiden van de juiste marketing producten naar de segmenten op het juiste moment in het juiste formaat tegen de juiste prijs. Clusteranalyse wordt ook gebruikt om natuurlijke groeperingen van gebeurtenissen of objecten te identificeren zodat een gemeenschappelijke reeks kenmerken van deze groepen kan worden geà dentificeerd om hen te beschrijven.
twee technieken die vaak geassocieerd worden met datamining zijn visualisatie en tijdreeksvoorspelling. Visualisatie kan worden gebruikt in combinatie met andere data mining technieken om een duidelijker begrip van de onderliggende relaties te krijgen. Aangezien het belang van visualisatie in de afgelopen jaren is toegenomen, is de term visual analytics ontstaan. Het idee is om analytics en visualisatie te combineren in een enkele omgeving voor eenvoudiger en sneller kenniscreatie. Visuele analyse wordt in detail behandeld in hoofdstuk 4. In tijdreeksvoorspellingen bestaan de gegevens uit waarden van dezelfde variabele die met regelmatige tussenpozen in de tijd wordt vastgelegd en opgeslagen. Deze gegevens worden vervolgens gebruikt om voorspellingsmodellen te ontwikkelen om de toekomstige waarden van dezelfde variabele te extrapoleren.