ověření vs. ověření: jaký je v tom rozdíl?

ověření údajů ověření údajů
účel zkontrolujte, zda data spadají do přijatelného rozsahu hodnot Zkontrolujte data, abyste se ujistili, že jsou přesná a konzistentní
obvykle se provádí při vytváření nebo aktualizaci dat při migraci nebo sloučení dat
příklad kontrola, zda lze nalézt PSČ zadané uživatelem kontrola, zda jsou všechny PSČ v datové sadě ve formátu ZIP + 4

Laicky řečeno, ověření dat a ověření dat může znít, jako by to bylo totéž. Když se však ponoříte do složitosti kvality dat, tyto dva důležité kousky skládačky se výrazně liší. Znalost rozdílu vám může pomoci lépe porozumět většímu obrazu kvality dat.

co je ověření dat?

stručně řečeno, validace dat je proces určení, zda určitá informace spadá do přijatelného rozsahu hodnot pro dané pole.

ve Spojených státech by například každá ulice měla obsahovat odlišné pole pro stát. Některé hodnoty, jako jsou NH, ND,AK a TX, odpovídají seznamu státních zkratek definovaných americkou poštovní službou. Jak víte, tyto zkratky označují konkrétní stavy.

existují také dvoumístné zkratky pro americká území, jako je Guam („GU“) a Severní Mariany („MP“). Pokud byste do pole stát zadali „ZP“ nebo „A7“, v podstatě byste zneplatnili celou adresu, protože žádný takový stát nebo území neexistuje. Ověření dat by provedlo kontrolu proti existujícím hodnotám v databázi, aby se zajistilo, že spadají do platných parametrů.

pro seznam adres, který zahrnuje země mimo USA, by pole Stát / provincie / území muselo být ověřeno proti výrazně delšímu seznamu možných hodnot, ale základní předpoklad je stejný; zadané hodnoty musí odpovídat seznamu nebo rozsahu přijatelných hodnot. (FYI, přesně nabízí řešení pro ověření adresy)

například v některých případech budete možná muset nastavit limity kolem možných číselných hodnot pro dané pole, i když s o něco menší přesností než v předchozím příkladu. Pokud zaznamenáváte výšku osoby, možná budete chtít zakázat hodnoty, které spadají mimo očekávaný rozsah. Pokud je osoba uvedena ve vaší databázi jako 12 stop vysoká (asi 3 metry), pak můžete pravděpodobně předpokládat, že data jsou nesprávná. Stejně tak byste nechtěli povolit záporná čísla pro toto pole.

naštěstí se tyto druhy validačních kontrol obvykle provádějí na úrovni aplikace nebo na úrovni databáze. Pokud například zadáváte poštovní adresu se sídlem v USA na web elektronického obchodování, je nepravděpodobné, že byste mohli zadat státní kód, který je pro Spojené státy neplatný.

Přečtěte si naši e-knihu

jak kvalita „dost dobrá“ narušuje důvěru ve vaše datové statistiky

Prozkoumejte klíčové informace o kvalitě dat od odborníků na data v průzkumu kvality dat

číst

co je ověření dat a jak se liší?

Ověření dat je naproti tomu ve skutečnosti zcela odlišné od Ověření dat. Ověření provádí kontrolu aktuálních údajů, aby se zajistilo, že jsou přesné, konzistentní a odrážejí zamýšlený účel.

ověření může také nastat kdykoli. Jinými slovy, ověření může probíhat jako součást opakujícího se procesu kvality dat, zatímco k ověření obvykle dochází, když je záznam původně vytvořen nebo aktualizován.

ověření hraje obzvláště důležitou roli, když jsou data migrována nebo sloučena z externích zdrojů dat. Zvažte případ společnosti, která právě získala malého konkurenta. Rozhodli se sloučit získaná zákaznická data konkurenta do vlastního fakturačního systému. V rámci procesu migrace je důležité ověřit, zda záznamy přicházely správně ze zdrojového systému.

malé chyby při přípravě dat pro migraci mohou někdy vést k velkým problémům. Pokud je klíčové pole v hlavním záznamu zákazníka přiřazeno nesprávně (například pokud byl rozsah buněk v tabulce neúmyslně posunut nahoru nebo dolů při přípravě dat), mohlo by to mít za následek přiřazení dodacích adres nebo neuhrazených faktur nesprávnému zákazníkovi.

proto je důležité ověřit, že informace v cílovém systému odpovídají informacím ze zdrojového systému. To lze provést vzorkováním dat ze zdrojového i cílového systému pro Ruční ověření přesnosti, nebo to může zahrnovat automatizované procesy, které provádějí úplné ověření importovaných dat, odpovídající všem záznamům a označování výjimek.

ověření jako probíhající proces

ověření není omezeno na migraci dat. Hraje také důležitou roli při zajišťování přesnosti a konzistence firemních údajů v průběhu času.

Představte si, že máte existující databázi spotřebitelů, kteří si zakoupili váš produkt, a chcete jim zaslat propagaci nového příslušenství k tomuto produktu. Některé z těchto informací o zákaznících mohou být zastaralé,proto je vhodné si je ověřit před odesláním.

kontrolou adres zákazníků proti změně databáze adres z poštovní služby můžete identifikovat záznamy zákazníků se zastaralými adresami. V mnoha případech můžete dokonce aktualizovat informace o zákaznících jako součást tohoto procesu.

identifikace duplicitních záznamů je další důležitou činností ověřování dat. Pokud vaše databáze zákazníků uvádí stejného zákazníka třikrát nebo čtyřikrát, je pravděpodobné, že jim pošlete duplicitní e-maily. To vás nejen stojí více peněz, ale také vede k negativní zkušenosti zákazníků.

aby byl proces deduplikace náročnější, mohlo být vytvořeno více záznamů pro stejného zákazníka pomocí mírně odlišných variací na jméno osoby. Nástroje, které používají fuzzy logiku k identifikaci možných a pravděpodobných shod, mohou tento proces zlepšit.

mandát kvality dat

stále více vedoucích podniků přichází k pochopení strategické hodnoty dat v poznatcích, které lze z nich získat pomocí umělé inteligence / strojového učení a moderních nástrojů business intelligence.

bohužel však staré rčení „garbage in, garbage out“ platí nyní více než kdy jindy. Jak se objem dat zvyšuje,je nezbytné, aby společnosti založené na datech zavedly proaktivní opatření k rutinnímu sledování a řízení kvality dat. V opačném případě riskují, že budou jednat na základě poznatků, které jsou založeny na chybných informacích.

Chcete-li se dozvědět více, přečtěte si naši e-knihu: Jak kvalita „dost dobrá“ narušuje důvěru ve Vaše údaje

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.