Millaisia Kuvioita Voi Data Mining Löytää?
Käyttää tärkeimmät tiedot (joka voi tulla organisaation tietokantoihin tai voidaan hankkia ulkopuolisista lähteistä), data mining rakentaa malleja tunnistaa kuvioita keskuudessa attribuutteja (eli muuttujia tai ominaisuuksia), joita esiintyy tietojen joukko. Mallit ovat yleensä matemaattisia representaatioita (yksinkertaisia lineaarisia korrelaatioita ja/tai monimutkaisia erittäin epälineaarisia suhteita), jotka yksilöivät aineistossa kuvattujen objektien (esim.asiakkaiden) attribuuttien väliset suhteet. Jotkin näistä malleista ovat selittäviä (selittävät attribuuttien keskinäiset suhteet ja affiniteetit), kun taas toiset ovat ennustavia (projisoivat tiettyjen attribuuttien tulevia arvoja). Yleisesti tiedonlouhinta pyrkii tunnistamaan kolme päätyyppiä:
-
yhdistykset löytävät yleisesti esiintyviä asioiden yhtymäkohtia, kuten” oluet ja vaipat ”tai” leipä ja voi”, joita ostetaan ja havaitaan yhdessä ostoskärryssä (eli markkina-kori-analyysi). Toisenlainen assosiaatiomalli vangitsee asioiden sekvenssit. Nämä peräkkäiset suhteet voivat löytää aika-tilattuja tapahtumia, kuten ennustaa, että olemassa oleva pankkiasiakas, jolla on jo sekkitili, avaa säästötilin, jota seuraa sijoitustili vuoden sisällä.
-
ennustukset kertovat tulevien tapahtumien luonteen tiettyjen tapahtumien perusteella, jotka perustuvat siihen, mitä on tapahtunut aiemmin, kuten Super Bowlin voittajan ennustaminen tai absoluuttisen lämpötilan ennustaminen tiettynä päivänä.
-
klusterit tunnistaa luonnollisia ryhmittymiä asioita perustuu niiden tunnettuja ominaisuuksia, kuten määrittämällä asiakkaita eri segmentteihin perustuu niiden demografinen ja aiemman ostokäyttäytymistä.
tämän tyyppisiä kuvioita on käsin poimittu datasta ihmisten toimesta vuosisatojen ajan, mutta kasvava tietomäärä nykyaikana on luonut tarpeen automaattisemmille lähestymistavoille. Kun tietoaineistojen koko ja monimutkaisuus ovat kasvaneet, suoraa manuaalista tietojen analysointia on yhä enemmän täydennetty epäsuorilla, automaattisilla tietojenkäsittelytyökaluilla, jotka käyttävät kehittyneitä menetelmiä, menetelmiä ja algoritmeja. Tällaisen automatisoitujen ja puoliautomaattisten suurten tietokokonaisuuksien käsittelytapojen kehityksen ilmentymistä kutsutaan nykyään yleisesti tiedonlouhinnaksi.
kuten aiemmin mainittiin, yleisesti ottaen tiedonlouhintatehtävät ja-kuviot voidaan luokitella kolmeen pääluokkaan: ennustaminen, assosiaatio ja ryhmittely. Sen perusteella, miten kuviot on poimittu historiallisesta datasta, tiedon louhintamenetelmien oppimisalgoritmit voidaan luokitella joko valvotuiksi tai valvomattomiksi. Valvotuilla oppimisalgoritmeilla harjoitustiedot sisältävät sekä kuvailevat attribuutit (eli itsenäiset muuttujat tai päätösmuuttujat) että luokkaattribuutin (eli lähtömuuttuja tai tulosmuuttuja). Sen sijaan valvomattomassa oppimisessa harjoitustiedot sisältävät vain kuvailevat attribuutit. Kuvassa 2.3 esitetään yksinkertainen taksonomia tiedonlouhintatehtäville sekä oppimistavat ja suositut algoritmit kullekin tiedonlouhintatehtävälle. Kolmesta päätehtäväluokasta ennustemallit/ – mallit voidaan luokitella valvotun oppimisprosessin tulokseksi, kun taas assosiaatio-ja ryhmittelymallit/ – mallit voidaan luokitella valvomattoman oppimisprosessin tulokseksi.
ennustamista käytetään yleisesti kertomaan tulevaisuudesta. Se eroaa yksinkertaisesta arvailusta siten, että ennustustehtävää suoritettaessa otetaan huomioon kokemukset, mielipiteet ja muu asiaankuuluva tieto. Ennustamiseen yleisesti liittyvä termi on ennustaminen. Vaikka monet ihmiset käyttävät näitä kahta termiä synonyymisesti, niiden välillä on hiuksenhieno ero. Siinä missä ennustaminen perustuu pitkälti kokemukseen ja mielipiteisiin, ennustaminen on dataan ja mallipohjaista. Toisin sanoen luotettavuuden lisäämisen mukaisessa järjestyksessä voitaisiin luetella relevantit termit arvailuksi, ennustamiseksi ja ennustamiseksi. Tiedonlouhinnan terminologiassa ennustamista ja ennustamista käytetään synonyymisesti, ja termiä ennustaminen käytetään lain yhteisenä esitystapana. Ennustuksen luonteesta riippuen ennustus voidaan nimetä tarkemmin luokitteluksi (jossa ennustettu asia, kuten huomisen ennuste, on luokkamerkintä kuten ”sateinen” tai ”aurinkoinen”) tai regressioksi (jossa ennustettu asia, kuten huomisen lämpötila, on reaaliluku, kuten ”65 astetta”).
luokittelu eli valvottu induktio on ehkä yleisin kaikista tiedonlouhintatehtävistä. Luokittelun tavoitteena on analysoida tietokantaan tallennettua historiallista tietoa ja luoda automaattisesti malli, jolla voidaan ennustaa tulevaa käyttäytymistä. Tämä indusoitu malli koostuu yleistyksiä yli kirjaa koulutus data set, jotka auttavat erottamaan ennalta luokat. Toiveena on, että mallia voidaan sitten käyttää muiden luokittelemattomien tietueiden luokkien ennustamiseen ja, mikä tärkeintä, todellisten tulevien tapahtumien täsmälliseen ennustamiseen.
yleisiä luokittelutyökaluja ovat neuroverkot ja päätöksentekopuut (koneoppimisesta), logistinen regressio ja diskriminanttianalyysi (perinteisistä tilastoista) sekä uudet työkalut, kuten karkeat sarjat, tukivektorikoneet ja geneettiset algoritmit. Tilastopohjaisia luokittelutekniikoita (esimerkiksi logistinen regressio, discriminant analysis) on kritisoitu siitä, että ne tekevät epärealistisia oletuksia aineistosta, kuten riippumattomuudesta ja normaaliudesta, jotka rajoittavat niiden käyttöä luokittelutyyppisissä tiedonlouhintaprojekteissa.
neuroverkkoihin liittyy sellaisten matemaattisten rakenteiden (jotka muistuttavat jonkin verran ihmisaivojen biologisia neuroverkkoja) kehittymistä, joilla on kyky oppia aiemmista kokemuksista, jotka esitetään hyvin jäsenneltyinä tietokokonaisuuksina. Ne ovat yleensä tehokkaampia, kun muuttujien määrä on melko suuri ja niiden väliset suhteet monimutkaisia ja epätäsmällisiä. Neuroverkoissa on sekä haittoja että etuja. Esimerkiksi hermoverkon tekemille ennustuksille on yleensä hyvin vaikea antaa hyvää perustetta. Myös neuroverkot tarvitsevat yleensä paljon koulutusta. Valitettavasti harjoitteluun tarvittava aika pyrkii lisääntymään eksponentiaalisesti tiedon määrän kasvaessa, eikä neuroverkkoja ylipäätään voi kouluttaa kovin laajoilla tietokannoilla. Nämä ja muut tekijät ovat rajoittaneet neuroverkkojen sovellettavuutta datarikkailla alueilla. (KS. Luku 5, ”Algorithms for Predictive Analytics”, neuroverkkojen yksityiskohtaisempaa kattamista varten.)
Päätöksentekopuut luokittelevat tiedot äärelliseen määrään luokkia, jotka perustuvat syöttömuuttujien arvoihin. Päätöksentekopuut ovat lähinnä hierarkiaa jos-niin-lausekkeita ja ovat siten huomattavasti nopeampia kuin neuroverkkoja. Ne soveltuvat parhaiten luokka-ja intervallitietoihin. Siksi jatkuvien muuttujien sisällyttäminen päätöksentekopuukehykseen edellyttää diskretointia eli jatkuvien arvomuuttujien muuntamista vaihteluväleiksi ja kategorioiksi.
siihen liittyvä luokitteluvälineiden luokka on sääntöinduktio. Toisin kuin päätöspuussa, sääntöinduktiolla if-then-lauseet indusoidaan suoraan harjoitustietojen pohjalta, eikä niiden tarvitse olla luonteeltaan hierarkkisia. Muut, uudemmat tekniikat, kuten SVM, karkeat sarjat ja geneettiset algoritmit, ovat vähitellen löytämässä tiensä luokittelualgoritmien arsenaaliin, ja niitä käsitellään yksityiskohtaisemmin luvussa 5 osana tiedon louhinnan algoritmeja koskevaa keskustelua.
assosiaatioiden käyttäminen-joita kutsutaan yleisesti assosiaatiosäännöiksi tiedonlouhinnassa-on suosittu ja hyvin tutkittu tekniikka, jolla voidaan löytää kiintoisia suhteita muuttujien välillä suurissa tietokannoissa. Automaattisten tiedonkeruutekniikoiden, kuten viivakoodiskannereiden, ansiosta yhdistyssääntöjen käytöstä tuotteiden säännönmukaisuuksien havaitsemiseksi supermarkettien myyntipistejärjestelmissä kirjatuissa suurissa liiketoimissa on tullut yleinen tiedonkeruutehtävä vähittäiskaupassa. Vähittäiskaupassa yhdistyssääntölouhintaa kutsutaan usein markkinakorianalyysiksi.
kaksi yleisesti käytettyä assosiaatiosäännön johdannaista ovat linkkianalyysi ja sekvenssilouhinta. Linkkianalyysin avulla monien kiinnostavien kohteiden linkit löydetään automaattisesti, kuten WWW-sivujen välinen linkki ja akateemisten julkaisujen tekijöiden ryhmien väliset viittaussuhteet. Sekvenssilouhinnalla suhteita tarkastellaan niiden esiintymisjärjestyksen perusteella assosiaatioiden tunnistamiseksi ajan myötä. Assosiaatiosäännön louhinnassa käytettyjä algoritmeja ovat muun muassa suositut Apriori-(jossa usein yksilöidyt kohderyhmät tunnistetaan), FP-Growth -, OneR -, ZeroR-ja Eclat-algoritmit. Luku 4, ”Data and Methods for Predictive Analytics,” tarjoaa selityksen Apriori.
ryhmittelyyn kuuluu asioiden (esim.esineiden, tapahtumien jne., esitetään strukturoidussa tietokokonaisuudessa) segmentteihin (tai luonnollisiin ryhmittymiin), joiden jäsenillä on samanlaiset ominaisuudet. Toisin kuin luokittelussa, ryhmittelyssä luokkamerkinnät ovat tuntemattomia. Kun valittu algoritmi käy läpi tietokokonaisuuden ja tunnistaa asioiden yhtäläisyydet niiden ominaisuuksien perusteella, klusterit muodostuvat. Koska klusterit määritetään heuristisen tyyppisen algoritmin avulla ja koska eri algoritmit voivat päätyä eri klustereihin samalle tietojoukolle, ennen kuin klusterointitekniikoiden tulokset otetaan käyttöön, asiantuntijan voi olla tarpeen tulkita ja mahdollisesti muuttaa ehdotettuja klustereita. Kun kohtuulliset klusterit on tunnistettu, niitä voidaan käyttää luokittelemaan ja tulkitsemaan uutta tietoa.
ei ole yllättävää, että ryhmittelytekniikoihin kuuluu optimointi. Ryhmittelyn tavoitteena on luoda ryhmiä niin, että kunkin ryhmän jäsenet ovat mahdollisimman samanlaisia ja eri ryhmien jäsenet mahdollisimman samanlaisia. Yleisimmin käytettyjä ryhmittelytekniikoita ovat k-keinot (tilastoista) ja itseorganisoituvat kartat (koneoppimisesta), joka on Kohosen kehittämä uniikki neuroverkkoarkkitehtuuri (1982).
yritykset käyttävät usein tehokkaasti tiedonlouhintajärjestelmiään markkinoiden segmentointiin klusterianalyysin avulla. Klusterianalyysi on keino yksilöidä kohdeluokkia siten, että klusterin kohteilla on enemmän yhteistä toistensa kuin muiden klusterien kohteiden kanssa. Tällaista analyysiä voidaan käyttää asiakkaiden segmentoimiseen ja asianmukaisten markkinointituotteiden ohjaamiseen segmenteille oikeaan aikaan oikeassa muodossa oikeaan hintaan. Klusterianalyysiä käytetään myös luonnollisten tapahtumien tai kohteiden ryhmittelyjen tunnistamiseen, jotta voidaan tunnistaa näiden ryhmien yhteiset ominaispiirteet kuvaamaan niitä.
kaksi tiedonlouhintaan usein liittyvää tekniikkaa ovat visualisointi ja aikasarjojen ennustaminen. Visualisointia voidaan käyttää yhdessä muiden tiedonlouhintatekniikoiden kanssa, jotta saadaan selkeämpi käsitys taustalla olevista suhteista. Visualisoinnin merkityksen kasvaessa viime vuosina on syntynyt termi visuaalinen analytiikka. Ajatuksena on yhdistää analytiikka ja visualisointi yhdessä ympäristössä, jolloin tiedon luominen helpottuu ja nopeutuu. Visuaalista Analytiikkaa käsitellään yksityiskohtaisesti luvussa 4. Aikasarjojen ennustamisessa aineisto koostuu saman muuttujan arvoista, jotka otetaan talteen ja tallennetaan ajan kuluessa säännöllisin väliajoin. Näiden tietojen pohjalta kehitetään ennustemalleja, joilla voidaan ekstrapoloida saman muuttujan tulevat arvot.