validarea datelor | verificarea datelor | |
scop | verificați dacă datele se încadrează în intervalul acceptabil de valori | Verificați datele pentru a vă asigura că sunt corecte și consecvente |
de obicei efectuate | atunci când datele sunt create sau actualizate | atunci când datele sunt migrate sau fuzionate |
exemplu | verificarea dacă codul poștal introdus de utilizator poate fi găsit | verificarea faptului că toate codurile poștale din setul de date sunt în format ZIP + 4 |
în termeni laici, verificarea datelor și validarea datelor pot suna ca și cum ar fi același lucru. Cu toate acestea, atunci când vă adânciți în complexitatea calității datelor, aceste două piese importante ale puzzle-ului sunt distinct diferite. Cunoașterea distincției vă poate ajuta să înțelegeți mai bine imaginea de ansamblu a calității datelor.
ce este validarea datelor?
pe scurt, validarea datelor este procesul de a determina dacă o anumită informație se încadrează în intervalul acceptabil de valori pentru un câmp dat.
în Statele Unite, de exemplu, fiecare adresă stradală ar trebui să includă un câmp distinct pentru stat. Anumite valori precum NH, ND, AK și TX sunt conforme cu lista abrevierilor de stat definite de serviciul poștal al SUA. După cum știți, aceste abrevieri denotă stări specifice.
există, de asemenea, abrevieri cu două caractere pentru teritoriile SUA, cum ar fi Guam („GU”) și Insulele Mariane de Nord („MP”). Dacă ar fi să introduceți „ZP „sau” A7 ” în câmpul de stat, în esență, ați invalida întreaga adresă, deoarece nu există un astfel de stat sau teritoriu. Validarea datelor ar efectua o verificare a valorilor existente într-o bază de date pentru a se asigura că acestea se încadrează în parametri valizi.
pentru o listă de adrese care include țări din afara SUA, câmpul stat/provincie/teritoriu ar trebui să fie validat în raport cu o listă semnificativ mai lungă de valori posibile, dar premisa de bază este aceeași; valorile introduse trebuie să se încadreze într-o listă sau într-un interval de valori acceptabile. (FYI, oferă cu precizie soluții de validare a adreselor)
de exemplu, în unele cazuri poate fi necesar să setați limite în jurul valorilor numerice posibile pentru un anumit câmp, deși cu o precizie puțin mai mică decât în exemplul anterior. Dacă înregistrați înălțimea unei persoane, este posibil să doriți să interziceți valorile care nu se încadrează în intervalul așteptat. Dacă o persoană este listată în baza dvs. de date ca având o înălțime de 12 metri (aproximativ 3 metri), atunci puteți presupune probabil că datele sunt incorecte. De asemenea, nu doriți să permiteți numere negative pentru acel câmp.
din fericire, aceste tipuri de verificări de validare sunt de obicei efectuate la nivel de aplicație sau la nivel de bază de date. De exemplu, dacă introduceți o adresă de expediere bazată pe SUA într-un site web de comerț electronic, este puțin probabil să puteți introduce un cod de stat nevalid pentru Statele Unite.
citiți cartea noastră electronică
cum calitatea” suficient de bună ” erodează încrederea în informațiile dvs. de date
explorați informațiile cheie privind calitatea datelor de la profesioniștii din domeniul datelor din sondajul privind calitatea datelor
ce este verificarea datelor și cum este diferită?
verificarea datelor, pe de altă parte, este de fapt destul de diferită de validarea datelor. Verificarea efectuează o verificare a datelor curente pentru a se asigura că acestea sunt exacte, consecvente și reflectă scopul propus.
verificarea poate avea loc, de asemenea, în orice moment. Cu alte cuvinte, verificarea poate avea loc ca parte a unui proces recurent de calitate a datelor, în timp ce validarea are loc de obicei atunci când o înregistrare este inițial creată sau actualizată.
verificarea joacă un rol deosebit de critic atunci când datele sunt migrate sau fuzionate din surse de date externe. Luați în considerare cazul unei companii care tocmai a achiziționat un mic concurent. Au decis să îmbine datele clienților concurentului achiziționat în propriul sistem de facturare. Ca parte a procesului de migrare, este important să verificați dacă înregistrările au venit corect din sistemul sursă.
micile erori în pregătirea datelor pentru migrare pot duce uneori la mari probleme. Dacă un câmp cheie din înregistrarea master Client este atribuit incorect (de exemplu, dacă un interval de celule dintr-o foaie de calcul a fost deplasat din greșeală în sus sau în jos atunci când datele erau pregătite), ar putea duce la atribuirea adreselor de expediere sau a facturilor restante clientului greșit.
prin urmare, este important să verificați dacă informațiile din sistemul de destinație corespund informațiilor din sistemul sursă. Acest lucru se poate face prin eșantionarea datelor atât din sistemele sursă, cât și din cele de destinație pentru a verifica manual acuratețea sau poate implica procese automatizate care efectuează verificarea completă a datelor importate, potrivind toate înregistrările și marcând excepții.
verificarea ca proces continuu
verificarea nu se limitează la migrarea datelor. De asemenea, joacă un rol important în asigurarea acurateței și coerenței datelor corporative în timp.
Imaginați-vă că aveți o bază de date existentă a consumatorilor care au achiziționat produsul dvs. și doriți să le trimiteți prin poștă o promoție a unui nou accesoriu la acel produs. Unele dintre aceste informații despre clienți ar putea fi depășite, deci merită să verificați datele înainte de trimiterea prin poștă.
verificând adresele clienților în baza de date a schimbării adreselor din serviciul poștal, puteți identifica înregistrările clienților cu adrese învechite. În multe cazuri, puteți chiar să actualizați informațiile despre clienți ca parte a acestui proces.
identificarea înregistrărilor duplicate este o altă activitate importantă de verificare a datelor. Dacă baza de date a clienților listează același client de trei sau patru ori, atunci este posibil să le trimiteți e-mailuri duplicate. Acest lucru nu numai că vă costă mai mulți bani, ci duce și la o experiență negativă a clienților.
pentru a face procesul de deduplicare mai dificil, este posibil să fi fost create mai multe înregistrări pentru același client folosind variații ușor diferite ale numelui unei persoane. Instrumentele care utilizează logica fuzzy pentru a identifica potrivirile posibile și probabile pot face procesul să funcționeze mai bine.
Data Quality mandate
din ce în ce mai mulți lideri de afaceri vin să înțeleagă valoarea strategică a datelor în perspectivele care pot fi extrase din aceasta folosind inteligența artificială/învățarea automată și instrumentele moderne de informații de afaceri.
din păcate, totuși, vechea zicală „gunoi înăuntru, gunoi afară” se aplică acum mai mult ca niciodată. Pe măsură ce volumul de date crește, este esențial ca companiile bazate pe date să pună în aplicare măsuri proactive pentru a monitoriza și gestiona calitatea datelor în mod obișnuit. În caz contrar, riscă să acționeze pe baza unor informații eronate.
pentru a afla mai multe, citiți cartea noastră electronică: cum calitatea” suficient de bună ” erodează încrederea în informațiile dvs. de date