Hvilke Typer Mønstre Kan Data Mining Oppdage?
ved å Bruke de mest relevante dataene (som kan komme fra organisasjonsdatabaser eller kan hentes fra eksterne kilder), bygger data mining modeller for å identifisere mønstre blant attributter (dvs.variabler eller egenskaper) som finnes i et datasett. Modeller er vanligvis de matematiske representasjonene (enkle lineære korrelasjoner og/eller komplekse svært ikke-lineære relasjoner) som identifiserer relasjonene mellom egenskapene til objektene (f. eks. kunder) beskrevet i datasettet. Noen av disse mønstrene er forklarende (forklarer sammenhenger og slektskap mellom attributter), mens andre er prediktive (projiserer fremtidige verdier av visse attributter). Generelt søker data mining å identifisere tre hovedtyper av mønstre:
-
Foreninger finner ofte sammenfallende grupperinger av ting, for eksempel «øl og bleier» eller «brød og smør» som ofte kjøpes og observeres sammen i en handlekurv(dvs. markedskurvanalyse). En annen type assosiasjonsmønster fanger sekvensene av ting. Disse sekvensielle forholdene kan oppdage tidsbestemte hendelser, for eksempel å forutsi at en eksisterende bankkunde som allerede har en brukskonto, vil åpne en sparekonto etterfulgt av en investeringskonto innen et år.
-
Forutsigelser forteller hva slags fremtidige hendelser av visse hendelser er basert på hva som har skjedd tidligere, for eksempel å forutsi vinneren Av Super Bowl eller forutsi den absolutte temperaturen på en bestemt dag.
-
Klynger identifiserer naturlige grupperinger av ting basert på deres kjente egenskaper, for eksempel å tildele kunder i ulike segmenter basert på deres demografi og tidligere kjøpsatferd.
disse typer mønstre har blitt manuelt hentet fra data av mennesker i århundrer, men det økende volumet av data i moderne tid har skapt et behov for flere automatiske tilnærminger. Etter hvert som datasettene har vokst i størrelse og kompleksitet, har direkte manuell dataanalyse i økende grad blitt utvidet med indirekte, automatiske databehandlingsverktøy som bruker sofistikerte metoder, metoder og algoritmer. Manifestasjonen av en slik utvikling av automatiserte og halvautomatiske metoder for behandling av store datasett er nå ofte referert til som data mining.
som nevnt tidligere, kan data mining oppgaver og mønstre generelt klassifiseres i tre hovedkategorier: prediksjon, forening og clustering. Basert på måten mønstrene er hentet fra de historiske dataene, kan læringsalgoritmene til datautvinningsmetoder klassifiseres som enten overvåket eller uten tilsyn. Med overvåkede læringsalgoritmer inkluderer treningsdataene både beskrivende attributter (dvs. uavhengige variabler eller beslutningsvariabler) og klasseattributtet(dvs. utgangsvariabel eller resultatvariabel). I motsetning, med uovervåket læring, inneholder treningsdataene bare de beskrivende egenskapene. Figur 2.3 viser en enkel taksonomi for data mining oppgaver, sammen med læringsmetoder og populære algoritmer for hver av data mining oppgaver. Av de tre hovedkategorier av oppgaver kan prediksjonsmønstre/ – modeller klassifiseres som utfallet av en veiledet læringsprosedyre, mens assosiasjon og klyngemønstre / – modeller kan klassifiseres som utfallet av uovervåkede læringsprosedyrer.
Prediksjon brukes ofte til å indikere å fortelle om fremtiden. Det adskiller seg fra enkel gjetting ved å ta hensyn til erfaringer, meninger og annen relevant informasjon i å utføre oppgaven med å forutse. Et begrep som vanligvis er knyttet til prediksjon er prognoser. Selv om mange bruker disse to begrepene synonymt, det er en subtil forskjell mellom dem. Mens prediksjon er i stor grad erfaring og mening basert, prognoser er data og modell basert. Det vil si, i rekkefølge av økende pålitelighet, kan man liste de relevante vilkårene som gjetting, forutsi og prognoser. I data mining terminologi brukes prediksjon og prognoser synonymt, og begrepet prediksjon brukes som felles representasjon av loven. Avhengig av hva som blir spådd, kan prediksjon bli kalt mer spesifikt som klassifisering (hvor den forutsagte tingen, som morgendagens prognose, er en klassemerke som «regnfull» eller «solfylt») eller regresjon (hvor den forutsagte tingen, som morgendagens temperatur, er et reelt tall, for eksempel «65 grader»).
Klassifisering, eller overvåket induksjon, er kanskje den vanligste av alle data mining oppgaver. Formålet med klassifisering er å analysere historiske data lagret i en database og automatisk generere en modell som kan forutsi fremtidig atferd. Denne induserte modellen består av generaliseringer over registreringer av et treningssett, som bidrar til å skille forhåndsdefinerte klasser. Håpet er at modellen da kan brukes til å forutsi klassene av andre uklassifiserte poster og, enda viktigere, å nøyaktig forutsi faktiske fremtidige hendelser.
Vanlige klassifiseringsverktøy inkluderer nevrale nettverk og beslutningstrær (fra maskinlæring), logistisk regresjon og diskriminantanalyse (fra tradisjonell statistikk), og nye verktøy som grove sett, støttevektormaskiner og genetiske algoritmer. Statistikkbaserte klassifiseringsteknikker (f. eks. logistisk regresjon, diskriminantanalyse) har blitt kritisert for å gjøre urealistiske antagelser om dataene, for eksempel uavhengighet og normalitet, som begrenser bruken av dem i klassifiseringstype data mining prosjekter.
Nevrale nettverk involverer utvikling av matematiske strukturer (noe som ligner de biologiske nevrale nettverkene i den menneskelige hjerne) som har evnen til å lære av tidligere erfaringer, presentert i form av godt strukturerte datasett. De pleier å være mer effektive når antall involverte variabler er ganske store og forholdene mellom dem er komplekse og upresise. Nevrale nettverk har ulemper så vel som fordeler. For eksempel er det vanligvis svært vanskelig å gi en god begrunnelse for spådommene fra et nevralt nettverk. Nevrale nettverk har også en tendens til å trenge betydelig trening. Dessverre har tiden som trengs for trening en tendens til å øke eksponentielt ettersom volumet av data øker, og generelt kan nevrale nettverk ikke trent på svært store databaser. Disse og andre faktorer har begrenset anvendelsen av nevrale nettverk i datarike domener. (Se Kapittel 5, «Algoritmer For Prediktiv Analyse», for mer detaljert dekning av nevrale nettverk.)
Beslutningstrær klassifiserer data i et begrenset antall klasser, basert på verdiene til inngangsvariablene. Beslutningstrær er i hovedsak et hierarki av if-then-setninger og er dermed betydelig raskere enn nevrale nettverk. De er mest hensiktsmessige for kategoriske og intervalldata. Derfor krever inkorporering av kontinuerlige variabler i et beslutningstrerammeverk diskretisering—det vil si konvertering av kontinuerlige verdier av numeriske variabler til områder og kategorier.
en relatert kategori av klassifiseringsverktøy er regelinduksjon. I motsetning til med et beslutningstre, med regelinduksjon, er if–then-setningene indusert fra treningsdataene direkte, og de trenger ikke å være hierarkiske i naturen. Andre nyere teknikker som SVM, grove sett og genetiske algoritmer finner seg gradvis inn i arsenalet av klassifiseringsalgoritmer og dekkes mer detaljert I Kapittel 5 som en del av diskusjonen om data mining algoritmer.
bruk av foreninger—som ofte kalles assosiasjonsregler i datautvinning—Er en populær og godt undersøkt teknikk for å oppdage interessante relasjoner mellom variabler i store databaser. Takket være automatiserte datainnsamlingsteknologier som bruk av strekkodeskannere, har bruken av assosieringsregler for å oppdage regelmessigheter blant produkter i store transaksjoner registrert av salgsstedssystemer i supermarkeder blitt en felles kunnskapsoppdagingsoppgave i detaljhandelen. I sammenheng med detaljhandelen, er foreningen regel gruvedrift ofte kalt marked-kurv analyse.
To vanlige derivater av foreningen regel gruvedrift er link analyse og sekvens gruvedrift. Med lenkeanalyse oppdages koblingene mellom mange objekter av interesse automatisk, for eksempel koblingen mellom nettsider og referanseforhold mellom grupper av vitenskapelige publiseringsforfattere. Med sekvensutvinning undersøkes relasjoner med hensyn til deres rekkefølge for å identifisere foreninger over tid. Algoritmer som brukes i assosiasjonsregel gruvedrift inkluderer De populære Apriori (hvor hyppige element sett er identifisert), fp-Vekst, OneR, ZeroR, Og Eclat algoritmer. Kapittel 4,» Data Og Metoder For Prediktiv Analyse, » gir en forklaring På Apriori.
Clustering innebærer partisjonering av en samling ting (f.eks., presentert i et strukturert datasett) i segmenter (eller naturlige grupperinger) hvis medlemmer deler lignende egenskaper. I motsetning til i klassifisering, i clustering, er klassetikettene ukjente. Som den valgte algoritmen går gjennom datasettet, identifisere fellestrekk av ting basert på deres egenskaper, klynger er etablert. Fordi klyngene bestemmes ved hjelp av en heuristisk algoritme, og fordi forskjellige algoritmer kan ende opp med forskjellige sett med klynger for det samme datasettet, før resultatene av klyngeteknikker blir tatt i bruk, kan det være nødvendig for en ekspert å tolke og potensielt endre de foreslåtte klyngene. Etter at rimelige klynger er identifisert, kan de brukes til å klassifisere og tolke nye data.
ikke overraskende, clustering teknikker inkluderer optimalisering. Målet med clustering er å skape grupper slik at medlemmene i hver gruppe har maksimal likhet og medlemmene på tvers av grupper har minimum likhet. De mest brukte klyngeteknikkene inkluderer k-midler (fra statistikk) og selvorganiserende kart( fra maskinlæring), som er en unik nevral nettverksarkitektur utviklet Av Kohonen (1982).
Bedrifter bruker ofte sine data mining systemer til å utføre markedssegmentering med klyngeanalyse. Klyngeanalyse er et middel til å identifisere klasser av elementer slik at elementer i en klynge har mer felles med hverandre enn med elementer i andre klynger. Denne typen analyse kan brukes til å segmentere kunder og lede passende markedsføringsprodukter til segmentene til rett tid i riktig format til riktig pris. Cluster analyse brukes også til å identifisere naturlige grupperinger av hendelser eller objekter, slik at et felles sett av karakteristikker av disse gruppene kan identifiseres for å beskrive dem.
to teknikker som ofte er forbundet med data mining er visualisering og tidsserieprognoser. Visualisering kan brukes sammen med andre data mining teknikker for å få en klarere forståelse av underliggende relasjoner. Etter hvert som betydningen av visualisering har økt de siste årene, har begrepet visuell analyse oppstått. Tanken er å kombinere analyse og visualisering i et enkelt miljø for enklere og raskere kunnskapsoppretting. Visuell analyse er dekket i detalj I Kapittel 4. I tidsserieprognoser består dataene av verdier av samme variabel som fanges og lagres over tid, med jevne mellomrom. Disse dataene brukes deretter til å utvikle prognosemodeller for å ekstrapolere fremtidige verdier av samme variabel.