milyen mintákat fedezhet fel az adatbányászat?
a legrelevánsabb adatok felhasználásával (amelyek szervezeti adatbázisokból származhatnak, vagy külső forrásokból származhatnak) az adatbányászat modelleket épít az adatkészletben létező attribútumok (azaz változók vagy jellemzők) közötti minták azonosítására. A modellek általában azok a matematikai ábrázolások (egyszerű lineáris korrelációk és/vagy összetett, erősen nemlineáris kapcsolatok), amelyek azonosítják az adatkészletben leírt objektumok (pl. ügyfelek) attribútumai közötti kapcsolatokat. E minták némelyike magyarázó (az attribútumok közötti összefüggéseket és affinitásokat magyarázza), míg mások prediktívek (bizonyos attribútumok jövőbeli értékeit vetítik ki). Az adatbányászat általában a minták három fő típusát igyekszik azonosítani:
-
az egyesületek gyakran előforduló csoportosulásokat találnak, mint például a” sörök és pelenkák “vagy a” kenyér és vaj”, amelyeket gyakran vásárolnak és megfigyelnek egy bevásárlókosárban (azaz piac-kosár elemzés). Egy másik típusú asszociációs minta rögzíti a dolgok sorrendjét. Ezek a szekvenciális kapcsolatok időben rendezett eseményeket fedezhetnek fel, például megjósolhatják, hogy egy meglévő banki ügyfél, aki már rendelkezik folyószámlával, megtakarítási számlát nyit, amelyet egy éven belül befektetési számla követ.
-
az előrejelzések megmondják bizonyos események jövőbeli eseményeinek jellegét a múltban történtek alapján, például a Super Bowl győztesének előrejelzése vagy az abszolút hőmérséklet előrejelzése egy adott napon.
-
a klaszterek a dolgok természetes csoportosulásait azonosítják ismert jellemzőik alapján, például az ügyfelek különböző szegmensekbe történő hozzárendelését a demográfiai adatok és a múltbeli vásárlási szokások alapján.
az ilyen típusú mintákat az emberek évszázadok óta manuálisan nyerik ki az adatokból, de a modern időkben növekvő adatmennyiség szükségessé tette az automatikusabb megközelítéseket. Ahogy az adathalmazok mérete és összetettsége nőtt, a közvetlen kézi adatelemzést egyre inkább kibővítették közvetett, automatikus adatfeldolgozó eszközökkel, amelyek kifinomult módszereket, módszereket és algoritmusokat használnak. A nagy adathalmazok feldolgozásának automatizált és félig automatizált eszközeinek ilyen fejlődésének megnyilvánulását ma általában adatbányászatnak nevezik.
mint korábban említettük, általánosságban elmondható, hogy az adatbányászati feladatok és minták három fő kategóriába sorolhatók: előrejelzés, asszociáció és klaszterezés. A minták történeti adatokból történő kinyerésének módja alapján az adatbányászati módszerek tanulási algoritmusai felügyeltnek vagy felügyelet nélkülinek minősíthetők. A felügyelt tanulási algoritmusok, a képzés adatait tartalmazza mind a leíró attribútumok (azaz a független változók, vagy a határozat változók), a class attribútum (azaz a kimeneti változó vagy eredmény változó). Ezzel szemben a felügyelet nélküli tanulással a képzési adatok csak a leíró tulajdonságokat tartalmazzák. A 2.3. ábra az adatbányászati feladatok egyszerű taxonómiáját mutatja be, valamint az egyes adatbányászati feladatok tanulási módszereit és népszerű algoritmusait. A három fő Feladatkategória közül az előrejelzési minták/modellek egy felügyelt tanulási eljárás eredményeként, míg az asszociációs és csoportosítási minták / modellek a felügyelet nélküli tanulási eljárások eredményeként osztályozhatók.
az előrejelzést általában a jövőről való mesélés jelzésére használják. Ez különbözik az egyszerű találgatástól azáltal, hogy figyelembe veszi a tapasztalatokat, véleményeket és egyéb releváns információkat a jóslás feladatának elvégzésében. Az előrejelzéshez általában társított kifejezés az előrejelzés. Annak ellenére, hogy sokan szinonimaként használják ezt a két kifejezést, finom különbség van közöttük. Míg az előrejelzés nagyrészt tapasztalatokon és véleményeken alapul, az előrejelzés adatokon és modelleken alapul. Ez azt jelenti, hogy a növekvő megbízhatóság sorrendjében felsorolhatjuk a vonatkozó kifejezéseket, mint találgatás, előrejelzés, előrejelzés. Az adatbányászati terminológiában a predikciót és az előrejelzést szinonimaként használják, és a predikció kifejezést használják a törvény közös ábrázolásaként. Az előrejelzés jellegétől függően az előrejelzés pontosabban megnevezhető osztályozás (ahol az előre jelzett dolog, például a holnapi előrejelzés, olyan osztálycímke, mint “esős” vagy “napos”) vagy regresszió (ahol az előre jelzett dolog, például a holnapi hőmérséklet, valós szám, például “65 fok”).
osztályozás, vagy felügyelt indukció, talán a leggyakoribb az összes adatbányászati feladat közül. Az osztályozás célja az adatbázisban tárolt történeti adatok elemzése, és automatikusan létrehoz egy modellt, amely képes megjósolni a jövőbeli viselkedést. Ez az indukált modell általánosításokból áll egy képzési adatkészlet rekordjai felett, amelyek segítenek megkülönböztetni az előre meghatározott osztályokat. A remény az, hogy a modell felhasználható más osztályozatlan rekordok osztályainak előrejelzésére, és ami még fontosabb, a tényleges jövőbeli események pontos előrejelzésére.
a közös osztályozási eszközök közé tartoznak a neurális hálózatok és a döntési fák (a gépi tanulásból), a logisztikai regresszió és a diszkrimináns elemzés (a hagyományos statisztikákból), valamint az olyan feltörekvő eszközök, mint a durva készletek, a támogató vektorgépek és a genetikai algoritmusok. A statisztikai alapú osztályozási technikákat (pl. logisztikai regresszió, diszkrimináns elemzés) kritizálták, mivel irreális feltételezéseket tesznek az adatokkal kapcsolatban, mint például a függetlenség és a normalitás, amelyek korlátozzák azok használatát osztályozási típusú adatbányászati projektekben.
a neurális hálózatok olyan matematikai struktúrák kifejlesztését foglalják magukban (amelyek némileg hasonlítanak az emberi agy biológiai neurális hálózataira), amelyek képesek tanulni a múltbeli tapasztalatokból, jól strukturált adatkészletek formájában. Általában hatékonyabbak, ha az érintett változók száma meglehetősen nagy, és a köztük lévő kapcsolatok összetettek és pontatlanok. A neurális hálózatoknak vannak hátrányai és előnyei is. Például általában nagyon nehéz jó indoklást adni a neurális hálózat előrejelzéseihez. A neurális hálózatok általában jelentős képzésre szorulnak. Sajnos a képzéshez szükséges idő exponenciálisan növekszik az adatmennyiség növekedésével, és általában a neurális hálózatok nem képzhetők nagyon nagy adatbázisokon. Ezek és más tényezők korlátozták a neurális hálózatok alkalmazhatóságát az adatokban gazdag területeken. (Lásd az 5.fejezetet, “algoritmusok a prediktív elemzéshez”, a neurális hálózatok részletesebb lefedettségéről.)
a döntési fák az adatokat véges számú osztályba sorolják, a bemeneti változók értékei alapján. A döntési fák lényegében az IF–then állítások hierarchiája, így lényegesen gyorsabbak, mint a neurális hálózatok. Ezek a legmegfelelőbbek a kategorikus és intervallumadatokhoz. Ezért a folyamatos változók beépítése a döntési fa keretrendszerbe diszkretizálást igényel—vagyis a folyamatos értékű numerikus változók tartományokká és kategóriákká történő átalakítását.
az osztályozási eszközök kapcsolódó kategóriája a szabályindukció. Ellentétben a döntési fával, a szabály indukcióval, az if-then állítások közvetlenül a képzési adatokból származnak,és nem feltétlenül hierarchikusak. Más, újabb technikák, mint például az SVM, a durva halmazok és a genetikai algoritmusok fokozatosan megtalálják az utat az osztályozási algoritmusok arzenáljába, és részletesebben az 5.fejezetben tárgyalják az adatbányászati algoritmusokról szóló vita részeként.
asszociációk használata—amelyeket általában asszociációs szabályoknak neveznek az adatbányászatban—népszerű és jól kutatott technika a változók közötti érdekes kapcsolatok felfedezésére nagy adatbázisokban. Az automatizált adatgyűjtési technológiáknak, például a vonalkód-szkennerek használatának köszönhetően az egyesülési szabályok alkalmazása a termékek közötti szabályszerűségek felfedezésére a szupermarketek értékesítési pontrendszerei által rögzített nagyszabású tranzakciókban a kiskereskedelemben általános tudásfelfedezési feladatgá vált. A kiskereskedelem összefüggésében az asszociációs szabálybányászatot gyakran hívják piac-kosár elemzés.
az asszociációs szabálybányászat két általánosan használt származéka a link analízis és a szekvencia bányászat. A linkek elemzésével a sok érdekes objektum közötti linkek automatikusan felfedezésre kerülnek, például a weboldalak közötti link és a tudományos publikációk szerzői csoportjai közötti referenciális kapcsolatok. A szekvencia bányászattal a kapcsolatokat előfordulási sorrendjük alapján vizsgálják, hogy azonosítsák az asszociációkat az idő múlásával. Az asszociációs szabálybányászatban használt algoritmusok közé tartoznak a népszerű Apriori (ahol gyakori elemkészleteket azonosítanak), az FP-Growth, az OneR, a ZeroR és az Eclat algoritmusok. A 4.fejezet, “adatok és módszerek a prediktív elemzéshez”, magyarázatot ad az Apriori-ra.
a klaszterezés magában foglalja a dolgok (pl. tárgyak, események stb., strukturált adathalmazban mutatják be) szegmensekbe (vagy természetes csoportosulásokba), amelyek tagjai hasonló tulajdonságokkal rendelkeznek. Az osztályozással ellentétben a csoportosításban az osztálycímkék ismeretlenek. Amint a kiválasztott algoritmus átmegy az adathalmazon, azonosítva a dolgok közös vonásait jellemzőik alapján, létrejönnek a klaszterek. Mivel a klasztereket heurisztikus típusú algoritmus segítségével határozzuk meg, és mivel a különböző algoritmusok ugyanazon adathalmaz különböző klaszterkészleteit eredményezhetik, a klaszterezési technikák eredményeinek alkalmazása előtt szükség lehet egy szakértőre a javasolt klaszterek értelmezéséhez és potenciálisan módosításához. Az ésszerű klaszterek azonosítása után felhasználhatók új adatok osztályozására és értelmezésére.
nem meglepő, hogy a klaszterezési technikák magukban foglalják az optimalizálást. A csoportosítás célja olyan csoportok létrehozása, hogy az egyes csoportokon belüli tagok maximális hasonlósággal rendelkezzenek, a csoportok közötti tagok pedig minimális hasonlósággal rendelkezzenek. A leggyakrabban használt klaszterezési technikák közé tartozik a K-means (a statisztikákból) és az önszerveződő térképek (a gépi tanulásból), amely egy egyedülálló neurális hálózati architektúra, amelyet Kohonen (1982) fejlesztett ki.
a cégek gyakran hatékonyan használják adatbányászati rendszereiket a klaszterelemzéssel történő piaci szegmentálás elvégzésére. A klaszterelemzés az elemek osztályainak azonosítására szolgáló eszköz, hogy a fürt elemeinek több közös vonása legyen egymással, mint más klaszterek elemeivel. Ez a fajta elemzés felhasználható az ügyfelek szegmentálására és a megfelelő marketing termékek megfelelő időben, a megfelelő formátumban, a megfelelő áron történő irányítására. A klaszteranalízist az események vagy objektumok természetes csoportosulásainak azonosítására is használják, hogy ezeknek a csoportoknak a közös jellemzői azonosíthatók legyenek azok leírására.
az adatbányászathoz gyakran kapcsolódó két technika a vizualizáció és az idősoros előrejelzés. A vizualizáció más adatbányászati technikákkal együtt használható a mögöttes kapcsolatok világosabb megértése érdekében. Mivel a vizualizáció fontossága az utóbbi években nőtt, megjelent a vizuális elemzés kifejezés. Az ötlet az elemzés és a vizualizáció egyesítése egyetlen környezetben a könnyebb és gyorsabb tudásteremtés érdekében. A vizuális elemzést részletesen a 4. fejezet tárgyalja. Az idősoros előrejelzésben az adatok ugyanazon változó értékeiből állnak, amelyeket rendszeres időközönként rögzítenek és tárolnak. Ezeket az adatokat ezután előrejelzési modellek kidolgozására használják ugyanazon változó jövőbeli értékeinek extrapolálására.