většina podniků nyní chápe přitažlivost používání analýzy velkých dat. Díky velkým datům mohou společnosti zlepšit svou efektivitu, zvýšit produktivitu a získat cenné poznatky, které posouvají jejich práci vpřed. Málokdo popře důležitou roli, kterou big data nyní hraje v organizacích po celém světě, ale získání těchto jedinečných výhod vyžaduje vysoce kvalitní data, což je stále obtížnější. Až příliš často jsou data shromážděná podniky plná chyb, chyb a neúplných hodnot. Toto se označuje jako špinavá data a může představovat hroznou překážku pro společnosti, které doufají, že tato data využijí ke zlepšení. Špinavá data nejsou jen drobným problémem ve velkém schématu věcí, buď. Podle Institutu datového skladu (TDWI) špinavé údaje každoročně stojí americké firmy kolem 600 miliard dolarů. Aby se tento problém plně vyřešil, musí podniky pochopit, co způsobuje špinavá data a jak je nejlépe opravit.
uživatelské chyby
součástí klíče k nejúčinnějšímu využití analýzy velkých dat je mít přesná a úplná data. Nespolehlivé údaje častěji vedou k tomu, že podniky dospějí k nesprávným závěrům. Problém je, když se chyba uživatele vkrádá do datových sad. Jedním ze způsobů, jak organizace shromažďují údaje o svých zákaznících, je vyplnění online formulářů. Při úplném a správném vyplnění to dává společnostem spoustu informací k analýze a analýze. Když však zákazníci v těchto datech zanechají díry, nebo když je vyplní nepřesně omylem nebo úmyslně, podniky se ocitnou ve vážné nevýhodě. To se týká zejména prodejních a marketingových týmů, které jsou závislé na přesných informacích o zákaznících, aby zvýšily prodej. Nedávný průzkum obchodníků ve skutečnosti ukazuje, že více než polovina (60 procent) tvrdí, že zdraví jejich údajů je nespolehlivé.
propojení / kondenzace dat
další problémy se špinavými daty vznikají, když se organizace pokoušejí propojit data napříč různými sadami. Když sady dat nemají jedinečný identifikátor, jejich propojení může způsobit problémy, často se objevují ve formě opakovaných záznamů, které nebyly kombinovány kvůli drobným chybám. Nebo někdy jsou data kombinována, když by neměla být (jako když zákazníci se stejným jménem mají své informace smíchány dohromady). Tyto typy špinavých problémů s daty se nejčastěji objevují, když podniky zaměstnávají více databází najednou a snaží se je kombinovat, nebo když používají starší technologii, která nedokáže držet krok s aktuálními požadavky na data. Stejné problémy se mohou objevit při pokusu o kondenzaci složitějších datových sad do lépe zvládnutelné formy.
jak vyčistit špinavá Data
jakmile společnost zjistí, co způsobuje špinavá data, může se pokusit vyčistit tato data. Takový úkol není vždy snadné, ale po dokončení, to může být dobře stojí za podnikání čas, zdroje a úsilí. Čištění dat vyžaduje pečlivé procházení dat, všímat si, kde by nesprávné nebo chybějící hodnoty mohly poškodit přesnost dat. Je zřejmé, že pokud jsou datové sady obrovské, ruční práce je téměř nemožná, ale naštěstí mohou algoritmy velkých dat skutečně pomoci při čištění špinavých dat. Tyto algoritmy byly navrženy speciálně pro opravu nejčastějších případů chyb uživatelů a kolekce. I když nemusí opravit každou chybu nebo nepřesnost, výrazně omezují počet chyb, takže špinavá data jsou mnohem čistší než dříve.
prevence špinavých dat
organizace mohou také podniknout správné přípravy, aby zabránily tomu, aby se špinavé údaje vůbec staly velkým problémem. Navázáním důvěryhodného vztahu se zákazníky (například nevyplňováním e-mailů spamem) budou lidé méně ochotni poskytnout nepřesné nebo nepravdivé informace o všech formulářích, které vyplní. Společnosti mohou také vyčistit data aktualizací svých systémů, aby zajistily, že zvládnou velké množství sběru a analýzy dat. Podniky se správnou technologií se mohou dokonce dostat do čištění dat, což je jako čištění dat, ale důkladnější, zahrnující procesy, jako je filtrování, dekódování a překlad.
špinavá data mohou představovat významné problémy podnikům, které se snaží používat velká data. Většinu času, společnosti si neuvědomují, že mají problém, dokud se špinavá data nerozšíří. Podniknutí kroků k vyčištění dat a zabránění problému povede dlouhou cestu k tomu, aby organizace pomohly co nejlépe využít data, která shromažďují. Teprve pak uvidí skutečné výhody, které Big data analytics nabízí.