vilka typer av mönster kan Data Mining upptäcka?
med hjälp av de mest relevanta uppgifterna (som kan komma från organisationsdatabaser eller kan erhållas från externa källor) bygger data mining modeller för att identifiera mönster bland attributen (dvs. variabler eller egenskaper) som finns i en datamängd. Modeller är vanligtvis matematiska representationer (enkla linjära korrelationer och/eller komplexa mycket icke-linjära relationer) som identifierar relationerna mellan attributen för objekten (t.ex. kunder) som beskrivs i datamängden. Några av dessa mönster är förklarande (förklarar relationerna och affiniteterna mellan attributen), medan andra är prediktiva (projicerar framtida värden för vissa attribut). I allmänhet försöker data mining att identifiera tre huvudtyper av mönster:
-
föreningar hittar ofta samverkande grupper av saker, till exempel ”öl och blöjor” eller ”bröd och smör” som vanligtvis köps och observeras tillsammans i en kundvagn (dvs. analys av marknadskorgar). En annan typ av associeringsmönster fångar sekvenserna av saker. Dessa sekventiella relationer kan upptäcka tidsbeställda händelser, som att förutsäga att en befintlig bankkund som redan har ett checkkonto öppnar ett sparkonto följt av ett investeringskonto inom ett år.
-
förutsägelser berättar om framtida händelser av vissa händelser baserat på vad som hänt tidigare, som att förutsäga vinnaren av Super Bowl eller förutse den absoluta temperaturen på en viss dag.
-
kluster identifierar naturliga grupperingar av saker baserat på deras kända egenskaper, som att tilldela kunder i olika segment baserat på deras demografi och tidigare köpbeteenden.
dessa typer av mönster har extraherats manuellt från data av människor i århundraden, men den ökande datamängden i modern tid har skapat ett behov av mer automatiska tillvägagångssätt. När datamängder har vuxit i storlek och komplexitet har direkt Manuell dataanalys alltmer utökats med indirekta, automatiska databehandlingsverktyg som använder sofistikerade metoder, metoder och algoritmer. Manifestationen av en sådan utveckling av automatiserade och halvautomatiska medel för bearbetning av stora datamängder kallas nu vanligtvis Data mining.
som tidigare nämnts kan data mining-uppgifter och mönster generellt klassificeras i tre huvudkategorier: förutsägelse, förening och kluster. Baserat på hur mönstren extraheras från historiska data kan inlärningsalgoritmerna för datautvinningsmetoder klassificeras som antingen övervakade eller oövervakade. Med övervakade inlärningsalgoritmer innehåller träningsdata både de beskrivande attributen (dvs. oberoende variabler eller beslutsvariabler) och klassattributet (dvs. utgångsvariabel eller resultatvariabel). Däremot, med oövervakat lärande, innehåller träningsdata endast de beskrivande attributen. Figur 2.3 visar en enkel taxonomi för data mining uppgifter, tillsammans med inlärningsmetoder och populära algoritmer för var och en av data mining uppgifter. Av de tre huvudkategorierna av uppgifter kan prediktionsmönster/modeller klassificeras som resultatet av ett övervakat inlärningsförfarande, medan associerings-och klustermönster/modeller kan klassificeras som resultatet av oövervakade inlärningsprocedurer.
förutsägelse används ofta för att indikera att berätta om framtiden. Det skiljer sig från enkel gissning genom att ta hänsyn till erfarenheter, åsikter och annan relevant information för att utföra uppgiften att förutse. En term som vanligtvis förknippas med förutsägelse är prognoser. Även om många människor använder dessa två termer synonymt, det finns en subtil skillnad mellan dem. Medan förutsägelse till stor del är erfarenhets-och åsiktsbaserad är prognoser data och modellbaserad. Det vill säga i storleksordningen ökad tillförlitlighet kan man lista de relevanta termerna som gissning, förutsägelse och prognos. I data mining terminologi, förutsägelse och prognoser används synonymt, och termen förutsägelse används som den gemensamma representationen av lagen. Beroende på arten av vad som förutses kan förutsägelse benämnas mer specifikt som klassificering (där den förutsagda saken, till exempel morgondagens prognos, är en klassetikett som ”regnig” eller ”solig”) eller regression (där den förutsagda saken, till exempel morgondagens temperatur, är ett reellt tal, till exempel ”65 grader”).
klassificering, eller övervakad induktion, är kanske den vanligaste av alla data mining uppgifter. Syftet med klassificeringen är att analysera historiska data lagrade i en databas och automatiskt generera en modell som kan förutsäga framtida beteende. Denna inducerade modell består av generaliseringar över register över en träningsdatauppsättning, som hjälper till att skilja fördefinierade klasser. Förhoppningen är att modellen sedan kan användas för att förutsäga klasserna av andra oklassificerade poster och, ännu viktigare, att exakt förutsäga faktiska framtida händelser.
vanliga klassificeringsverktyg inkluderar neurala nätverk och beslutsträd (från maskininlärning), logistisk regression och diskriminerande analys (från traditionell statistik) och nya verktyg som grova uppsättningar, stödvektormaskiner och genetiska algoritmer. Statistikbaserade klassificeringstekniker (t.ex. logistisk regression, diskriminerande analys) har kritiserats för att göra orealistiska antaganden om data, såsom oberoende och normalitet, som begränsar deras användning i klassificeringstyp data mining projekt.
neurala nätverk involverar utveckling av matematiska strukturer (något som liknar de biologiska neurala nätverken i den mänskliga hjärnan) som har förmågan att lära av tidigare erfarenheter, presenterade i form av välstrukturerade datamängder. De tenderar att vara mer effektiva när antalet involverade variabler är ganska stort och relationerna mellan dem är komplexa och oprecisa. Neurala nätverk har både nackdelar och fördelar. Till exempel är det vanligtvis mycket svårt att ge en bra motivering för förutsägelserna från ett neuralt nätverk. Neurala nätverk tenderar också att behöva betydande utbildning. Tyvärr tenderar den tid som behövs för träning att öka exponentiellt när datamängden ökar, och i allmänhet kan neurala nätverk inte tränas i mycket stora databaser. Dessa och andra faktorer har begränsat tillämpligheten av neurala nätverk i datarika domäner. (Se Kapitel 5,” algoritmer för prediktiv analys”, för mer detaljerad täckning av neurala nätverk.)
beslutsträd klassificerar data i ett begränsat antal klasser, baserat på värdena för ingångsvariablerna. Beslutsträd är i huvudsak en hierarki av if-then-uttalanden och är därmed betydligt snabbare än neurala nätverk. De är mest lämpliga för kategoriska och intervalldata. Därför kräver införlivande av kontinuerliga variabler i ett beslutsträdram diskretisering—det vill säga omvandlingen av kontinuerliga värderade numeriska variabler till intervall och kategorier.
en relaterad kategori av klassificeringsverktyg är regelinduktion. Till skillnad från ett beslutsträd, med regelinduktion, induceras if–then-uttalandena direkt från träningsdata, och de behöver inte vara hierarkiska. Andra, nyare tekniker som SVM, grova uppsättningar, och genetiska algoritmer hittar gradvis sin väg in i arsenalen för klassificeringsalgoritmer och behandlas mer detaljerat i kapitel 5 som en del av diskussionen om algoritmer för datautvinning.
att använda föreningar-som vanligtvis kallas föreningsregler i data mining-är en populär och välforskad teknik för att upptäcka intressanta relationer mellan variabler i stora databaser. Tack vare automatiserad datainsamlingsteknik som användning av streckkodsläsare har användningen av föreningsregler för att upptäcka regelbundenhet bland produkter i storskaliga transaktioner som registrerats av försäljningssystem i stormarknader blivit en vanlig kunskapsupptäcktuppgift i detaljhandeln. I samband med detaljhandeln kallas föreningsregelbrytning ofta marknads-korganalys.
två vanliga derivat av föreningsregelbrytning är länkanalys och sekvensbrytning. Med länkanalys upptäcks länkarna mellan många intressanta objekt automatiskt, till exempel länken mellan webbsidor och referensrelationer mellan grupper av akademiska publikationsförfattare. Med sekvensbrytning undersöks relationer med avseende på deras ordning för förekomst för att identifiera föreningar över tiden. Algoritmer som används i association rule mining inkluderar de populära Apriori (där frekventa objektuppsättningar identifieras), FP-Growth, OneR, ZeroR och Eclat algoritmer. Kapitel 4,” Data och metoder för prediktiv analys, ” ger en förklaring av Apriori.
Clustering innebär att man delar upp en samling saker (t.ex. objekt, händelser etc., presenteras i en strukturerad datamängd) i segment (eller naturliga grupperingar) vars medlemmar delar liknande egenskaper. Till skillnad från i klassificering, i kluster, är klassetiketterna okända. När den valda algoritmen går igenom datamängden, identifierar de gemensamma sakerna baserat på deras egenskaper, är klusterna etablerade. Eftersom klusterna bestäms med hjälp av en heuristisk algoritm, och eftersom olika algoritmer kan sluta med olika uppsättningar kluster för samma datamängd, innan resultaten av klustertekniker tas i bruk, kan det vara nödvändigt för en expert att tolka och potentiellt modifiera de föreslagna klusterna. Efter att rimliga kluster har identifierats kan de användas för att klassificera och tolka nya data.
inte överraskande inkluderar klustertekniker optimering. Målet med clustering är att skapa grupper så att medlemmarna inom varje grupp har maximal likhet och medlemmarna över grupper har minimal likhet. De vanligaste klusterteknikerna inkluderar k-means (från statistik) och självorganiserande kartor (från maskininlärning), som är en unik neuralnätverksarkitektur utvecklad av Kohonen (1982).
företag använder ofta effektivt sina data mining-system för att utföra marknadssegmentering med klusteranalys. Klusteranalys är ett sätt att identifiera klasser av objekt så att objekt i ett kluster har mer gemensamt med varandra än med objekt i andra kluster. Denna typ av analys kan användas för att segmentera kunder och rikta lämpliga marknadsföringsprodukter till segmenten vid rätt tidpunkt i rätt format till rätt pris. Klusteranalys används också för att identifiera naturliga grupperingar av händelser eller objekt så att en gemensam uppsättning egenskaper hos dessa grupper kan identifieras för att beskriva dem.
två tekniker som ofta förknippas med datautvinning är visualisering och tidsserieprognoser. Visualisering kan användas tillsammans med andra data mining tekniker för att få en tydligare förståelse för underliggande relationer. Eftersom vikten av visualisering har ökat de senaste åren har termen visuell analys uppstått. Tanken är att kombinera analys och visualisering i en enda miljö för enklare och snabbare kunskapsskapande. Visuell analys behandlas i detalj i kapitel 4. I tidsserieprognoser består data av värden av samma variabel som fångas och lagras över tiden, med jämna mellanrum. Dessa data används sedan för att utveckla prognosmodeller för att extrapolera framtida värden för samma variabel.