hvilke typer mønstre kan Data Mining opdage?
ved hjælp af de mest relevante data (som kan komme fra organisatoriske databaser eller kan hentes fra eksterne kilder) bygger data mining modeller til at identificere mønstre blandt de attributter (dvs.variabler eller egenskaber), der findes i et datasæt. Modeller er normalt de matematiske repræsentationer (simple lineære korrelationer og/eller komplekse meget ikke-lineære relationer), der identificerer relationerne mellem attributterne for objekterne (f.eks. kunder) beskrevet i datasættet. Nogle af disse mønstre er forklarende (forklarer indbyrdes forhold og tilhørsforhold mellem attributterne), mens andre er forudsigelige (projicerer fremtidige værdier af visse attributter). Generelt søger data mining at identificere tre hovedtyper af mønstre:
-
foreninger finder ofte sammenfaldende grupperinger af ting, såsom “øl og bleer” eller “brød og smør”, der ofte købes og observeres sammen i en indkøbskurv (dvs.markedskurvanalyse). En anden type associeringsmønster fanger sekvenserne af ting. Disse sekventielle relationer kan opdage tidsbestemte begivenheder, såsom at forudsige, at en eksisterende bankkunde, der allerede har en checkkonto, åbner en opsparingskonto efterfulgt af en investeringskonto inden for et år.
-
forudsigelser fortæller arten af fremtidige forekomster af visse begivenheder baseret på hvad der er sket i fortiden, såsom at forudsige vinderen af Superskålen eller forudsige den absolutte temperatur på en bestemt dag.
-
klynger identificerer naturlige grupperinger af ting baseret på deres kendte egenskaber, såsom tildeling af kunder i forskellige segmenter baseret på deres demografi og tidligere købsadfærd.
disse typer mønstre er manuelt udvundet fra data af mennesker i århundreder, men den stigende mængde data i moderne tid har skabt et behov for mere automatiske tilgange. Efterhånden som datasæt er vokset i størrelse og kompleksitet, direkte manuel dataanalyse er i stigende grad blevet forstærket med indirekte, automatiske databehandlingsværktøjer, der bruger sofistikerede metoder, metoder, og algoritmer. Manifestationen af en sådan udvikling af automatiserede og halvautomatiske midler til behandling af store datasæt kaldes nu almindeligvis datamining.
som tidligere nævnt kan data mining-opgaver og-mønstre generelt klassificeres i tre hovedkategorier: forudsigelse, forening og klyngedannelse. Baseret på den måde, hvorpå mønstrene udvindes fra de Historiske data, kan læringsalgoritmerne for data mining-metoder klassificeres som enten overvåget eller uden tilsyn. Med overvågede læringsalgoritmer inkluderer træningsdataene både de beskrivende attributter (dvs.uafhængige variabler eller beslutningsvariabler) og klasseattributten (dvs. outputvariabel eller resultatvariabel). I modsætning hertil omfatter træningsdataene kun de beskrivende attributter med uovervåget læring. Figur 2.3 viser en simpel taksonomi for data mining opgaver, sammen med de læringsmetoder og populære algoritmer for hver af de data mining opgaver. Ud af de tre hovedkategorier af opgaver kan forudsigelsesmønstre/modeller klassificeres som resultatet af en overvåget læringsprocedure, mens associerings-og klyngemønstre/modeller kan klassificeres som resultatet af ikke-overvågede læringsprocedurer.
forudsigelse bruges ofte til at indikere at fortælle om fremtiden. Det adskiller sig fra simpel gætte ved at tage hensyn til erfaringer, meninger og andre relevante oplysninger i udførelsen af opgaven med at forudsige. Et udtryk, der ofte er forbundet med forudsigelse, er prognoser. Selvom mange mennesker bruger disse to udtryk synonymt, er der en subtil forskel mellem dem. Mens forudsigelse er stort set erfaring og mening baseret, prognoser er data og model baseret. Det vil sige, i rækkefølge af stigende pålidelighed, kan man liste de relevante udtryk som gætte, forudsige og forudsige. I data mining terminologi, forudsigelse og prognoser bruges synonymt, og udtrykket forudsigelse bruges som den fælles repræsentation af handlingen. Afhængig af arten af det, der forudsiges, kan forudsigelse navngives mere specifikt som klassificering (hvor den forudsagte ting, såsom morgendagens prognose, er en klassemærke som “regnfuld” eller “solrig”) eller regression (hvor den forudsagte ting, såsom morgendagens temperatur, er et reelt tal, såsom “65 grader”).
klassificering, eller overvåget induktion, er måske den mest almindelige af alle data mining opgaver. Formålet med klassificering er at analysere de Historiske data, der er gemt i en database og automatisk generere en model, der kan forudsige fremtidig adfærd. Denne inducerede model består af generaliseringer over optegnelserne i et træningsdatasæt, som hjælper med at skelne mellem foruddefinerede klasser. Håbet er, at modellen derefter kan bruges til at forudsige klasserne i andre uklassificerede poster og, vigtigere, til nøjagtigt at forudsige faktiske fremtidige begivenheder.
almindelige klassificeringsværktøjer inkluderer neurale netværk og beslutningstræer (fra maskinindlæring), logistisk regression og diskriminerende analyse (fra traditionel statistik) og nye værktøjer såsom Grove sæt, supportvektormaskiner og genetiske algoritmer. Statistikbaserede klassificeringsteknikker (f.eks. logistisk regression, diskriminerende analyse) er blevet kritiseret for at gøre urealistiske antagelser om dataene, såsom uafhængighed og normalitet, som begrænser deres anvendelse i klassificeringstypedataminingprojekter.
neurale netværk involverer udvikling af matematiske strukturer (noget der ligner de biologiske neurale netværk i den menneskelige hjerne), der har evnen til at lære af tidligere erfaringer, præsenteret i form af velstrukturerede datasæt. De har tendens til at være mere effektive, når antallet af involverede variabler er ret stort, og forholdet mellem dem er komplekst og upræcist. Neurale netværk har ulemper såvel som fordele. For eksempel er det normalt meget vanskeligt at give en god begrundelse for forudsigelserne fra et neuralt netværk. Også neurale netværk har tendens til at have brug for betydelig træning. Desværre har den nødvendige tid til træning en tendens til at stige eksponentielt, når datamængden øges, og generelt kan neurale netværk ikke trænes i meget store databaser. Disse og andre faktorer har begrænset anvendeligheden af neurale netværk i datarige domæner. (Se Kapitel 5,” algoritmer til forudsigelig analyse”, for mere detaljeret dækning af neurale netværk.)
beslutningstræer klassificerer data i et begrænset antal klasser baseret på værdierne for inputvariablerne. Beslutningstræer er i det væsentlige et hierarki af IF–then-udsagn og er således betydeligt hurtigere end neurale netværk. De er mest hensigtsmæssige for kategoriske og interval data. Derfor kræver inkorporering af kontinuerlige variabler i en beslutningstræramme diskretisering—det vil sige konvertering af kontinuerlige værdsatte numeriske variabler til intervaller og kategorier.
en relateret kategori af klassificeringsværktøjer er regelinduktion. I modsætning til et beslutningstræ med regelinduktion induceres if–then-udsagnene direkte fra træningsdataene, og de behøver ikke være hierarkiske. Andre nyere teknikker som SVM, Grove sæt og genetiske algoritmer finder gradvist vej ind i arsenalet af klassificeringsalgoritmer og er dækket mere detaljeret i kapitel 5 som en del af diskussionen om data mining algoritmer.
brug af foreninger—som ofte kaldes associeringsregler i data mining—er en populær og velundersøgt teknik til at opdage interessante forhold mellem variabler i store databaser. Takket være automatiserede dataindsamlingsteknologier såsom brug af stregkodescannere er brugen af associeringsregler til at opdage regelmæssigheder blandt produkter i store transaktioner registreret af salgssteder i supermarkeder blevet en almindelig videnopdagelsesopgave i detailbranchen. I forbindelse med detailbranchen kaldes associeringsregelminedrift ofte markedskurvanalyse.
to almindeligt anvendte derivater af associeringsregelminedrift er linkanalyse og sekvensminedrift. Med linkanalyse opdages forbindelserne mellem mange objekter af interesse automatisk, såsom forbindelsen mellem hjemmesider og referenceforhold mellem grupper af akademiske publikationsforfattere. Med sekvensminedrift undersøges forhold med hensyn til deres rækkefølge for forekomst for at identificere foreninger over tid. Algoritmer, der anvendes i association rule mining, inkluderer de populære Apriori (hvor hyppige varesæt identificeres), FP-vækst, oner, Nulerog Eclat algoritmer. Kapitel 4,” Data og metoder til forudsigelig analyse, ” giver en forklaring på Apriori.
klyngedannelse involverer partitionering af en samling af ting (f.eks. objekter, begivenheder osv., præsenteret i et struktureret datasæt) i segmenter (eller naturlige grupperinger), hvis medlemmer har lignende egenskaber. I modsætning til i klassificering, i klyngedannelse, klasseetiketterne er ukendte. Da den valgte algoritme går gennem datasættet og identificerer de fælles ting baseret på deres egenskaber, etableres klyngerne. Fordi klyngerne bestemmes ved hjælp af en heuristisk type algoritme, og fordi forskellige algoritmer kan ende med forskellige sæt klynger for det samme datasæt, før resultaterne af klyngeteknikker tages i brug, kan det være nødvendigt for en ekspert at fortolke og potentielt ændre de foreslåede klynger. Når der er identificeret rimelige klynger, kan de bruges til at klassificere og fortolke nye data.
ikke overraskende inkluderer klyngeteknikker optimering. Målet med klyngedannelse er at oprette grupper, så medlemmerne inden for hver gruppe har maksimal lighed, og medlemmerne på tværs af grupper har mindst lighed. De mest almindeligt anvendte klyngeteknikker inkluderer k-midler (fra statistik) og selvorganiserende kort (fra maskinindlæring), som er en unik neural netværksarkitektur udviklet af Kohonen (1982).
virksomheder bruger ofte effektivt deres data mining-systemer til at udføre markedssegmentering med klyngeanalyse. Klyngeanalyse er et middel til at identificere klasser af elementer, så elementer i en klynge har mere til fælles med hinanden end med elementer i andre klynger. Denne type analyse kan bruges til at segmentere kunder og dirigere passende marketingprodukter til segmenterne på det rigtige tidspunkt i det rigtige format til den rigtige pris. Klyngeanalyse bruges også til at identificere naturlige grupperinger af begivenheder eller objekter, så et fælles sæt egenskaber ved disse grupper kan identificeres for at beskrive dem.
to teknikker, der ofte er forbundet med data mining, er visualisering og tidsserieprognoser. Visualisering kan bruges sammen med andre data mining teknikker til at få en klarere forståelse af underliggende relationer. Da vigtigheden af visualisering er steget i de senere år, er udtrykket visuel analyse opstået. Ideen er at kombinere analyse og visualisering i et enkelt miljø for lettere og hurtigere videnskabelse. Visuel analyse er beskrevet detaljeret i kapitel 4. I tidsserieprognoser består dataene af værdier af den samme variabel, der fanges og gemmes over tid med jævne mellemrum. Disse data bruges derefter til at udvikle prognosemodeller for at ekstrapolere de fremtidige værdier for den samme variabel.