jakie rodzaje wzorców można odkryć w eksploracji danych?
wykorzystując najbardziej istotne dane (które mogą pochodzić z organizacyjnych baz danych lub mogą być pozyskane ze źródeł zewnętrznych), eksploracja danych buduje modele w celu identyfikacji wzorców wśród atrybutów (tj. zmiennych lub cech) istniejących w zbiorze danych. Modele są zazwyczaj reprezentacje matematyczne (proste korelacje liniowe i / lub złożone relacje wysoce nieliniowe), które identyfikują relacje między atrybutami obiektów (np. klientów) opisanych w zbiorze danych. Niektóre z tych wzorców mają charakter wyjaśniający (wyjaśniający wzajemne powiązania i pokrewieństwa między atrybutami), podczas gdy inne mają charakter predykcyjny (przewidujący przyszłe wartości niektórych atrybutów). Ogólnie rzecz biorąc, eksploracja danych ma na celu zidentyfikowanie trzech głównych typów wzorców:
-
Stowarzyszenia znaleźć powszechnie współwystępujące grupowania rzeczy, takich jak” piwa i pieluchy „lub” chleb i masło ” powszechnie kupowane i obserwowane razem w Koszyku (to znaczy, analiza rynku koszyka). Inny rodzaj wzoru asocjacji rejestruje sekwencje rzeczy. Te sekwencyjne relacje mogą wykryć zdarzenia uporządkowane w czasie, takie jak przewidywanie, że istniejący klient bankowy, który ma już konto czekowe, otworzy rachunek oszczędnościowy, a następnie rachunek inwestycyjny w ciągu roku.
-
przewidywania mówią o charakterze przyszłych zdarzeń w oparciu o to, co wydarzyło się w przeszłości, takie jak przewidywanie zwycięzcy Super Bowl lub prognozowanie temperatury bezwzględnej w danym dniu.
-
klastry identyfikują naturalne Grupy rzeczy na podstawie ich znanych cech, takich jak przypisywanie klientów w różnych segmentach na podstawie ich danych demograficznych i wcześniejszych zachowań zakupowych.
tego typu wzorce zostały ręcznie wyodrębnione z danych przez ludzi od wieków, ale rosnąca ilość danych w czasach współczesnych stworzyła potrzebę bardziej automatycznego podejścia. Wraz ze wzrostem rozmiaru i złożoności zbiorów danych, bezpośrednia ręczna analiza danych jest coraz bardziej rozszerzana o pośrednie, Automatyczne Narzędzia do przetwarzania danych, które wykorzystują wyrafinowane metodologie, metody i algorytmy. Przejawem takiej ewolucji zautomatyzowanych i półautomatycznych sposobów przetwarzania dużych zbiorów danych jest obecnie powszechnie określane jako data mining.
jak wspomniano wcześniej, ogólnie rzecz biorąc, zadania i wzorce eksploracji danych można podzielić na trzy główne kategorie: przewidywanie, Asocjacja i klastrowanie. W oparciu o sposób, w jaki wzory są wydobywane z danych historycznych, algorytmy uczenia się metod eksploracji danych można sklasyfikować jako nadzorowane lub nienadzorowane. W przypadku nadzorowanych algorytmów uczenia się dane szkoleniowe obejmują zarówno atrybuty opisowe (np. zmienne niezależne lub zmienne decyzyjne), jak i atrybut klasy (np. zmienna wyjściowa lub zmienna wynikowa). W przeciwieństwie do uczenia się bez nadzoru, dane szkoleniowe zawierają tylko atrybuty opisowe. Rysunek 2.3 przedstawia prostą taksonomię zadań eksploracji danych, wraz z metodami uczenia się i popularnymi algorytmami dla każdego z zadań eksploracji danych. Spośród trzech głównych kategorii zadań, wzorce/modele predykcyjne można sklasyfikować jako wynik nadzorowanej procedury uczenia się, podczas gdy Schematy/modele asocjacji i grupowania można sklasyfikować jako wynik procedur uczenia się bez nadzoru.
przewidywanie jest powszechnie używane do wskazywania mówienia o przyszłości. Różni się od prostego zgadywania, biorąc pod uwagę doświadczenia, opinie i inne istotne informacje w prowadzeniu zadania przepowiadania. Termin, który jest powszechnie związany z przewidywania jest prognozowanie. Chociaż wiele osób używa tych dwóch terminów jako synonimów, istnieje między nimi subtelna różnica. Podczas gdy przewidywanie opiera się w dużej mierze na doświadczeniu i opinii, prognozowanie opiera się na danych i modelu. Oznacza to, że w kolejności zwiększania niezawodności można wymienić odpowiednie terminy, takie jak zgadywanie, przewidywanie i prognozowanie. W terminologii data mining PREDYKCJA i prognozowanie są używane synonimicznie, a termin PREDYKCJA jest używany jako wspólna reprezentacja aktu. W zależności od Natury tego, co jest przewidywane, przewidywanie może być nazwane bardziej szczegółowo jako klasyfikacja (gdzie przewidywana rzecz, taka jak prognoza jutra, jest etykietą klasy, taką jak „deszczowy” lub „Słoneczny”) lub regresja (gdzie przewidywana rzecz, taka jak temperatura jutra, jest liczbą rzeczywistą, taką jak „65 stopni”).
Klasyfikacja lub nadzorowana indukcja jest prawdopodobnie najczęstszym ze wszystkich zadań eksploracji danych. Celem klasyfikacji jest analiza danych historycznych przechowywanych w bazie danych i automatyczne generowanie modelu, który może przewidywać przyszłe zachowania. Ten indukowany model składa się z uogólnień nad zapisami zestawu danych treningowych, które pomagają odróżnić predefiniowane klasy. Mamy nadzieję, że model ten może być wykorzystany do przewidywania klas innych niesklasyfikowanych rekordów i, co ważniejsze, do dokładnego przewidywania rzeczywistych przyszłych zdarzeń.
wspólne narzędzia klasyfikacyjne obejmują sieci neuronowe i drzewa decyzyjne (z uczenia maszynowego), regresję logistyczną i analizę dyskryminacyjną (z tradycyjnych statystyk) oraz pojawiające się narzędzia, takie jak zestawy przybliżone, maszyny wektorowe i algorytmy genetyczne. Techniki klasyfikacji oparte na statystykach (np. regresja logistyczna, Analiza dyskryminacyjna) były krytykowane jako nierealistyczne założenia dotyczące danych, takie jak niezależność i normalność, które ograniczają ich wykorzystanie w projektach eksploracji danych typu klasyfikacyjnego.
Sieci neuronowe obejmują rozwój struktur matematycznych (nieco przypominających biologiczne sieci neuronowe w ludzkim mózgu), które mają zdolność uczenia się z przeszłych doświadczeń, przedstawionych w postaci dobrze zorganizowanych zbiorów danych. Wydają się być bardziej skuteczne, gdy liczba zaangażowanych zmiennych jest dość duża, a relacje między nimi są złożone i nieprecyzyjne. Sieci neuronowe mają zarówno wady,jak i zalety. Na przykład, zwykle bardzo trudno jest przedstawić dobre uzasadnienie dla prognoz dokonanych przez sieć neuronową. Ponadto sieci neuronowe wymagają znacznego przeszkolenia. Niestety, czas potrzebny na szkolenie zwiększa się wykładniczo wraz ze wzrostem ilości danych, a ogólnie sieci neuronowe nie mogą być szkolone na bardzo dużych bazach danych. Te i inne czynniki ograniczyły zastosowanie sieci neuronowych w domenach bogatych w dane. (Patrz rozdział 5, „algorytmy analizy predykcyjnej”, aby uzyskać bardziej szczegółowy zakres sieci neuronowych.)
drzewa decyzyjne klasyfikują dane do skończonej liczby klas, w oparciu o wartości zmiennych wejściowych. Drzewa decyzyjne są zasadniczo hierarchią stwierdzeń if-then I dlatego są znacznie szybsze niż sieci neuronowe. Są one najbardziej odpowiednie dla danych kategorycznych i interwałowych. Dlatego włączenie zmiennych ciągłych do struktury drzewa decyzyjnego wymaga dyskretyzacji-czyli konwersji zmiennych liczbowych o wartości ciągłej na zakresy i kategorie.
pokrewną kategorią narzędzi klasyfikacyjnych jest indukcja reguł. W przeciwieństwie do drzewa decyzyjnego, z indukcją reguł, instrukcje if–then są wywoływane bezpośrednio z danych treningowych i nie muszą mieć charakteru hierarchicznego. Inne, nowsze techniki, takie jak SVM, szorstkie zestawy i algorytmy genetyczne, stopniowo znajdują swoją drogę do arsenału algorytmów klasyfikacji i są omówione bardziej szczegółowo w rozdziale 5 w ramach dyskusji na temat algorytmów eksploracji danych.
Korzystanie z asocjacji—które są powszechnie nazywane regułami asocjacji w eksploracji danych—jest popularną i dobrze zbadaną techniką odkrywania interesujących relacji między zmiennymi w dużych bazach danych. Dzięki zautomatyzowanym technologiom gromadzenia danych, takim jak wykorzystanie skanerów kodów kreskowych, wykorzystanie reguł asocjacyjnych do wykrywania prawidłowości produktów w transakcjach na dużą skalę rejestrowanych przez systemy punktów sprzedaży w supermarketach stało się powszechnym zadaniem odkrywania wiedzy w branży detalicznej. W kontekście handlu detalicznego Górnictwo regułami Stowarzyszenia jest często nazywane analizą rynku-koszyka.
dwa powszechnie używane pochodne asocjacji reguły górnictwa są link analysis i sequence mining. Dzięki analizie linków, linki między wieloma interesującymi obiektami są automatycznie odkrywane, takie jak powiązania między stronami internetowymi i relacje referencyjne między grupami autorów publikacji naukowych. W przypadku wydobycia sekwencyjnego relacje są badane pod względem ich kolejności występowania w celu identyfikacji skojarzeń w czasie. Algorytmy używane w eksploracji reguł asocjacyjnych obejmują popularne algorytmy Apriori (gdzie często identyfikowane są zestawy elementów), FP-Growth, OneR, ZeroR i Eclat. Rozdział 4, „Data and Methods for Predictive Analytics”, zawiera wyjaśnienie Apriori.
grupowanie polega na partycjonowaniu zbioru rzeczy (np. obiektów, zdarzeń itp., przedstawione w ustrukturyzowanym zbiorze danych) na segmenty (lub grupy naturalne), których członkowie mają podobne cechy. W odróżnieniu od klasyfikacji, w klastrach nazwy klas są nieznane. W miarę jak wybrany algorytm przechodzi przez zbiór danych, identyfikując podobieństwa rzeczy na podstawie ich cech, tworzone są klastry. Ponieważ klastry są określane za pomocą algorytmu typu heurystycznego i Ponieważ różne algorytmy mogą skończyć się różnymi zestawami klastrów dla tego samego zestawu danych, zanim wyniki technik klastrowania zostaną wprowadzone do użytku, może być konieczne, aby ekspert zinterpretował i potencjalnie zmodyfikował sugerowane klastry. Po zidentyfikowaniu odpowiednich klastrów można je wykorzystać do klasyfikacji i interpretacji nowych danych.
nic dziwnego, techniki klastrowania obejmują optymalizację. Celem klastrowania jest tworzenie grup tak, aby członkowie w każdej grupie mieli maksymalne podobieństwo, a członkowie w różnych grupach mieli Minimalne podobieństwo. Najczęściej stosowane techniki klastrowania obejmują k-means (ze statystyk) i samoorganizujące się mapy (z uczenia maszynowego), która jest unikalną architekturą sieci neuronowych opracowaną przez Kohonena (1982).
firmy często skutecznie wykorzystują swoje systemy eksploracji danych do segmentacji rynku za pomocą analizy klastrów. Analiza klastra jest sposobem identyfikacji klas elementów tak, że elementy w klastrze mają więcej wspólnego ze sobą niż z elementami w innych klastrach. Tego typu analizy mogą być wykorzystywane w segmentacji klientów i kierowaniu odpowiednich produktów marketingowych do segmentów we właściwym czasie we właściwym formacie za odpowiednią cenę. Analiza klastrów jest również używany do identyfikacji naturalnych grup zdarzeń lub obiektów tak, że wspólny zestaw cech tych grup może być zidentyfikowany do ich opisania.
dwie techniki często związane z eksploracją danych to wizualizacja i prognozowanie szeregów czasowych. Wizualizacja może być używana w połączeniu z innymi technikami eksploracji danych, aby lepiej zrozumieć podstawowe relacje. Wraz ze wzrostem znaczenia wizualizacji w ostatnich latach pojawiło się pojęcie analizy wizualnej. Chodzi o to, aby połączyć analitykę i wizualizację w jednym środowisku, aby łatwiej i szybciej tworzyć wiedzę. Analiza wizualna jest szczegółowo opisana w rozdziale 4. W prognozowaniu szeregów czasowych dane składają się z wartości tej samej zmiennej, która jest rejestrowana i przechowywana w czasie, w regularnych odstępach czasu. Dane te są następnie wykorzystywane do opracowania modeli prognozowania w celu ekstrapolacji przyszłych wartości tej samej zmiennej.