jaké typy vzorů může dolování dat objevit?
pomocí nejrelevantnějších dat (která mohou pocházet z organizačních databází nebo mohou být získána z externích zdrojů) vytváří dolování dat modely pro identifikaci vzorů mezi atributy (tj. proměnnými nebo charakteristikami), které existují v datové sadě. Modely jsou obvykle matematické reprezentace (jednoduché lineární korelace a / nebo komplexní vysoce nelineární vztahy), které identifikují vztahy mezi atributy objektů (např. Některé z těchto vzorů jsou vysvětlující (vysvětlující vzájemné vztahy a afinity mezi atributy), zatímco jiné jsou prediktivní (promítání budoucích hodnot určitých atributů). Obecně se dolování dat snaží identifikovat tři hlavní typy vzorů:
-
asociace najdou běžně se vyskytující seskupení věcí, jako jsou „piva a plenky“ nebo „chléb a máslo“, které se běžně nakupují a pozorují společně v nákupním košíku (tj. analýza tržního koše). Jiný typ asociačního vzoru zachycuje sekvence věcí. Tyto sekvenční vztahy mohou objevit časově uspořádané události, jako je předpovídání, že stávající bankovní zákazník, který již má běžný účet, si do jednoho roku otevře spořicí účet následovaný investičním účtem.
-
předpovědi říkají povahu budoucích událostí určitých událostí na základě toho, co se stalo v minulosti, jako je předpovídání vítěze Super Bowl nebo předpovídání absolutní teploty v konkrétní den.
-
klastry identifikují přirozená seskupení věcí na základě jejich známých charakteristik, jako je přiřazení zákazníků v různých segmentech na základě jejich demografických údajů a chování při nákupu v minulosti.
tyto typy vzorů byly po staletí ručně extrahovány z dat lidmi, ale rostoucí objem dat v moderní době vytvořil potřebu automatičtějších přístupů. Vzhledem k tomu, že datové sady rostly co do velikosti a složitosti, přímá ruční analýza dat byla stále více rozšířena o nepřímé, automatické nástroje pro zpracování dat, které používají sofistikované metodiky, metody, a algoritmy. Projev takového vývoje automatizovaných a poloautomatických prostředků zpracování velkých datových souborů je nyní běžně označován jako dolování dat.
jak již bylo zmíněno dříve, obecně lze úkoly a vzory dolování dat rozdělit do tří hlavních kategorií: predikce, asociace a shlukování. Na základě způsobu, jakým jsou vzory extrahovány z historických dat, mohou být algoritmy učení metod dolování dat klasifikovány jako pod dohledem nebo bez dozoru. Nezávislé proměnné nebo rozhodovací proměnné) a atribut třídy (tj. výstupní proměnná nebo výsledná proměnná). Naproti tomu u učení bez dozoru obsahují údaje o školení pouze popisné atributy. Obrázek 2.3 ukazuje jednoduchou taxonomii pro úkoly dolování dat, spolu s metodami učení a populárními algoritmy pro každou z úkolů dolování dat. Ze tří hlavních kategorií úkolů lze Predikční vzorce/modely klasifikovat jako výsledek postupu učení pod dohledem, zatímco asociační a shlukovací vzory / modely lze klasifikovat jako výsledek postupů učení bez dozoru.
predikce se běžně používá k označení vyprávění o budoucnosti. To se liší od jednoduchého hádání tím, že bere v úvahu zkušenosti, názory a další relevantní informace při provádění úkolu předpovídání. Termín, který je běžně spojován s predikcí, je prognóza. I když mnoho lidí používá tyto dva termíny synonymně, mezi nimi je jemný rozdíl. Zatímco predikce je z velké části založena na zkušenostech a názorech, prognózování je založeno na datech a modelech. To znamená, že v pořadí zvyšující se spolehlivosti lze uvést příslušné pojmy jako hádat, předpovídat a předpovídat. V terminologii dolování dat se predikce a prognóza používají synonymně a termín predikce se používá jako společná reprezentace zákona. V závislosti na povaze toho, co se předpovídá, může být Předpověď konkrétněji pojmenována jako klasifikace (kde předpovězená věc, jako je zítřejší předpověď, je označení třídy jako „deštivé“ nebo „slunečné“) nebo regrese (kde předpovězená věc, jako je zítřejší teplota, je reálné číslo, například „65 stupňů“).
klasifikace nebo indukce pod dohledem je možná nejběžnější ze všech úkolů dolování dat. Cílem klasifikace je analyzovat historická data uložená v databázi a automaticky vygenerovat model, který dokáže předpovídat budoucí chování. Tento indukovaný model se skládá ze zobecnění nad záznamy tréninkové datové sady, které pomáhají rozlišit předdefinované třídy. Doufáme, že model pak může být použit k předpovědi tříd jiných neklasifikovaných záznamů a, co je důležitější, přesně předpovědět skutečné budoucí události.
mezi běžné klasifikační nástroje patří neuronové sítě a rozhodovací stromy (ze strojového učení), logistická regrese a diskriminační analýza (z tradičních statistik) a vznikající nástroje, jako jsou hrubé množiny, podpůrné vektorové stroje a genetické algoritmy. Statistické klasifikační techniky (např. logistická regrese, diskriminační analýza) byly kritizovány jako nerealistické předpoklady o datech, jako je nezávislost a normálnost, které omezují jejich použití v projektech dolování dat typu klasifikace.
neuronové sítě zahrnují vývoj matematických struktur (poněkud připomínajících biologické neuronové sítě v lidském mozku), které mají schopnost poučit se z minulých zkušeností, prezentovaných ve formě dobře strukturovaných datových sad. Mají tendenci být efektivnější, když je počet zapojených proměnných poměrně velký a vztahy mezi nimi jsou složité a nepřesné. Neuronové sítě mají nevýhody i výhody. Například je obvykle velmi obtížné poskytnout dobré zdůvodnění předpovědí neuronové sítě. Neuronové sítě také vyžadují značné školení. Bohužel čas potřebný pro školení má tendenci exponenciálně narůstat, jak se zvyšuje objem dat, a obecně neuronové sítě nelze trénovat na velmi velkých databázích. Tyto a další faktory omezily použitelnost neuronových sítí v doménách bohatých na data. (Viz kapitola 5, „algoritmy pro prediktivní analýzu“, pro podrobnější pokrytí neuronových sítí.)
rozhodovací stromy klasifikují data do konečného počtu tříd na základě hodnot vstupních proměnných. Rozhodovací stromy jsou v podstatě hierarchií příkazů if–then a jsou tedy výrazně rychlejší než neuronové sítě. Jsou nejvhodnější pro kategorické a intervalové údaje. Začlenění spojitých proměnných do rámce rozhodovacího stromu proto vyžaduje diskretizaci-tj.
související kategorií klasifikačních nástrojů je indukce pravidel. Na rozdíl od rozhodovacího stromu s indukcí pravidel jsou příkazy if-then indukovány přímo z tréninkových dat a nemusí mít hierarchickou povahu. Další, novější techniky, jako je SVM, hrubé sady, a genetické algoritmy se postupně dostávají do arzenálu klasifikačních algoritmů a jsou podrobněji popsány v kapitole 5 jako součást diskuse o algoritmech dolování dat.
použití asociací-které se běžně nazývají asociační pravidla v dolování dat – je populární a dobře prozkoumaná technika pro objevování zajímavých vztahů mezi proměnnými ve velkých databázích. Díky automatizovaným technologiím sběru dat, jako je použití skenerů čárových kódů, se používání asociačních pravidel pro objevování zákonitostí mezi produkty ve velkých transakcích zaznamenaných systémy prodeje v supermarketech stalo běžným úkolem zjišťování znalostí v maloobchodním průmyslu. V kontextu maloobchodního průmyslu se těžba asociačních pravidel často nazývá analýzou tržního koše.
dva běžně používané deriváty těžby asociačních pravidel jsou analýza odkazů a těžba sekvencí. Díky analýze odkazů jsou automaticky objeveny Odkazy mezi mnoha zajímavými objekty, jako je propojení mezi webovými stránkami a referenční vztahy mezi skupinami autorů akademických publikací. Při sekvenční těžbě jsou vztahy zkoumány z hlediska jejich pořadí výskytu, aby se v průběhu času identifikovaly asociace. Algoritmy používané při dolování asociačních pravidel zahrnují populární Apriori (kde jsou identifikovány časté sady položek), algoritmy FP-Growth, OneR, ZeroR a Eclat. Kapitola 4, „Data a metody pro prediktivní analytiku,“ poskytuje vysvětlení Apriori.
shlukování zahrnuje rozdělení sbírky věcí (např. objektů, událostí atd.)., prezentované ve strukturovaném souboru dat) do segmentů (nebo přirozených seskupení), jejichž členové mají podobné vlastnosti. Na rozdíl od klasifikace, v shlukování, štítky tříd nejsou známy. Jak vybraný algoritmus prochází datovou sadou a identifikuje společné rysy věcí na základě jejich charakteristik, jsou vytvořeny klastry. Protože klastry jsou určeny pomocí algoritmu heuristického typu, A protože různé algoritmy mohou skončit s různými sadami klastrů pro stejnou datovou sadu, před použitím výsledků technik shlukování může být nutné, aby odborník interpretoval a potenciálně modifikoval navrhované klastry. Poté, co byly identifikovány přiměřené klastry, mohou být použity ke klasifikaci a interpretaci nových dat.
není divu, že techniky shlukování zahrnují optimalizaci. Cílem shlukování je vytvořit skupiny tak, aby členové v každé skupině měli maximální podobnost a členové napříč skupinami měli minimální podobnost. Mezi nejčastěji používané techniky shlukování patří k-prostředky (ze statistiky) a samoorganizující se mapy (ze strojového učení), což je jedinečná architektura neuronových sítí vyvinutá Kohonenem (1982).
firmy často efektivně využívají své systémy dolování dat k provádění segmentace trhu pomocí klastrové analýzy. Shluková analýza je prostředek k identifikaci tříd položek tak, aby položky v klastru měly více společného než s položkami v jiných klastrech. Tento typ analýzy lze použít při segmentaci zákazníků a nasměrování vhodných marketingových produktů do segmentů ve správný čas ve správném formátu za správnou cenu. Shluková analýza se také používá k identifikaci přirozených seskupení událostí nebo objektů tak, aby bylo možné identifikovat společný soubor charakteristik těchto skupin a popsat je.
dvě techniky často spojené s dolováním dat jsou vizualizace a předpovědi časových řad. Vizualizace může být použita ve spojení s dalšími technikami dolování dat, aby bylo možné lépe porozumět základním vztahům. Vzhledem k tomu, že v posledních letech vzrostl význam vizualizace, objevil se termín vizuální analytika. Cílem je kombinovat analytiku a vizualizaci v jediném prostředí pro snadnější a rychlejší vytváření znalostí. Vizuální analytika je podrobně popsána v kapitole 4. Při prognózování časových řad se data skládají z hodnot stejné proměnné, která je zachycena a uložena v čase v pravidelných intervalech. Tato data se pak používají k vývoji prognostických modelů k extrapolování budoucích hodnot stejné proměnné.