Walidacja a weryfikacja: jaka jest różnica?

walidacja danych weryfikacja danych
cel sprawdź, czy dane mieszczą się w dopuszczalnym zakresie wartości Sprawdź dane, aby upewnić się, że są dokładne i spójne
zwykle wykonywane podczas tworzenia lub aktualizacji danych podczas migracji lub scalania danych
przykład sprawdzanie, czy można znaleźć kod pocztowy wprowadzony przez użytkownika sprawdzanie, czy wszystkie kody pocztowe w zbiorze danych są w formacie ZIP+4

w kategoriach laików, weryfikacja danych i walidacja danych może brzmieć tak, jakby były tym samym. Jeśli jednak zagłębisz się w zawiłości jakości danych, te dwa ważne elementy układanki są wyraźnie różne. Znajomość rozróżnienia może pomóc w lepszym zrozumieniu szerszego obrazu jakości danych.

co to jest walidacja danych?

W skrócie walidacja danych to proces określania, czy dana informacja mieści się w dopuszczalnym zakresie wartości dla danego pola.

na przykład w Stanach Zjednoczonych każdy adres powinien zawierać odrębne pole dla danego stanu. Niektóre wartości, takie jak NH, ND, AK i TX, są zgodne z listą skrótów stanowych zdefiniowanych przez Us Postal Service. Jak wiecie, te skróty oznaczają określone stany.

istnieją również dwuznakowe skróty dla terytoriów USA, takich jak Guam („GU”) i Mariany Północne („MP”). Jeśli miałbyś wpisać „ZP” lub ” A7 ” w polu stan, w zasadzie unieważniłbyś cały adres, ponieważ taki stan lub terytorium nie istnieje. Walidacja danych przeprowadzi sprawdzenie istniejących wartości w bazie danych, aby upewnić się, że mieszczą się one w prawidłowych parametrach.

W przypadku listy adresów, która obejmuje kraje spoza USA, pole state/province/territory musi zostać zweryfikowane pod kątem znacznie dłuższej listy możliwych wartości, ale podstawowa przesłanka jest taka sama; wprowadzone wartości muszą pasować do listy lub zakresu dopuszczalnych wartości.

na przykład, w niektórych przypadkach może być konieczne ustawienie limitów wokół możliwych wartości liczbowych dla danego pola, choć z nieco mniejszą precyzją niż w poprzednim przykładzie. Jeśli rejestrujesz wzrost danej osoby, możesz zabronić wartości wykraczających poza oczekiwany zakres. Jeśli dana osoba jest wymieniona w Twojej bazie danych jako wysoka na 12 stóp (około 3 metrów), prawdopodobnie możesz założyć, że dane są nieprawidłowe. Podobnie, nie chcesz zezwalać na liczby ujemne dla tego pola.

na szczęście tego rodzaju kontrole walidacji są zazwyczaj wykonywane na poziomie aplikacji lub bazy danych. Na przykład, jeśli wprowadzasz adres wysyłki w USA w witrynie e-commerce, jest mało prawdopodobne, że będziesz w stanie wprowadzić kod stanu, który jest nieprawidłowy dla Stanów Zjednoczonych.

przeczytaj nasz eBook

jak” wystarczająco dobra ” jakość niszczy zaufanie do Twoich danych

poznaj kluczowe dane dotyczące jakości od specjalistów ds. danych w badaniu jakości danych

Czytaj

czym jest weryfikacja danych i czym się różni?

weryfikacja danych, z drugiej strony, jest w rzeczywistości zupełnie inna niż walidacja danych. Weryfikacja przeprowadza kontrolę aktualnych danych, aby upewnić się, że są one dokładne, spójne i odzwierciedlają zamierzone cele.

weryfikacja może również nastąpić w dowolnym momencie. Innymi słowy, weryfikacja może mieć miejsce w ramach powtarzającego się procesu jakości danych, podczas gdy Walidacja zwykle ma miejsce, gdy rekord jest początkowo tworzony lub aktualizowany.

weryfikacja odgrywa szczególnie kluczową rolę, gdy dane są migrowane lub scalane z zewnętrznych źródeł danych. Rozważ przypadek firmy, która właśnie nabyła małego konkurenta. Postanowili połączyć dane klientów nabytego konkurenta z ich własnym systemem rozliczeniowym. W ramach procesu migracji ważne jest sprawdzenie, czy rekordy pochodzą prawidłowo z systemu źródłowego.

drobne błędy w przygotowaniu danych do migracji mogą czasami powodować duże problemy. Jeśli pole klucza w rekordzie głównym klienta jest przypisane nieprawidłowo (na przykład, jeśli zakres komórek w arkuszu kalkulacyjnym został przypadkowo przesunięty w górę lub w dół podczas przygotowywania danych), może to spowodować przypisanie adresów wysyłki lub zaległych faktur niewłaściwemu klientowi.

dlatego ważne jest, aby sprawdzić, czy informacje w systemie docelowym są zgodne z informacjami z systemu źródłowego. Można to zrobić poprzez pobieranie próbek danych zarówno z systemów źródłowych, jak i docelowych, aby ręcznie zweryfikować dokładność, lub może to obejmować zautomatyzowane procesy, które przeprowadzają pełną weryfikację importowanych danych, dopasowując wszystkie rekordy i oznaczając wyjątki.

weryfikacja jako proces ciągły

weryfikacja nie ogranicza się do migracji danych. Odgrywa również ważną rolę w zapewnieniu dokładności i spójności danych korporacyjnych w czasie.

wyobraź sobie, że masz istniejącą bazę konsumentów, którzy zakupili twój produkt i chcesz wysłać im promocję nowego akcesorium do tego produktu. Niektóre z tych informacji o klientach mogą być nieaktualne, dlatego warto zweryfikować dane przed wysyłką.

sprawdzając adresy klientów przed zmianą bazy adresów z usługi pocztowej, możesz zidentyfikować rekordy klientów z nieaktualnymi adresami. W wielu przypadkach możesz nawet zaktualizować informacje o klientach w ramach tego procesu.

Identyfikacja zduplikowanych rekordów to kolejna ważna czynność weryfikacji danych. Jeśli twoja baza danych klientów wymienia tego samego klienta trzy lub cztery razy, prawdopodobnie wyślesz mu duplikaty wiadomości e-mail. To nie tylko kosztuje więcej pieniędzy, ale również skutkuje negatywnym doświadczeniem klienta.

aby proces deduplikacji był bardziej skomplikowany, mogło powstać wiele rekordów dla tego samego klienta przy użyciu nieco różnych odmian nazwiska danej osoby. Narzędzia wykorzystujące logikę rozmytą do identyfikacji możliwych i prawdopodobnych dopasowań mogą usprawnić działanie procesu.

mandat za jakość danych

coraz więcej liderów biznesu zaczyna rozumieć strategiczną wartość danych w spostrzeżeniach, które można wydobyć z nich za pomocą sztucznej inteligencji/uczenia maszynowego i nowoczesnych narzędzi Business intelligence.

niestety, stare powiedzenie „śmieci w, śmieci na zewnątrz” stosuje się teraz bardziej niż kiedykolwiek. Wraz ze wzrostem ilości danych ważne jest, aby firmy oparte na danych wdrażały proaktywne środki w celu rutynowego monitorowania i zarządzania jakością danych. W przeciwnym razie ryzykują działanie na podstawie spostrzeżeń opartych na błędnych informacjach.

aby dowiedzieć się więcej, przeczytaj nasz eBook: jak” wystarczająco dobra ” jakość niszczy zaufanie do Twoich danych

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.