la convalida dei Dati | la verifica dei Dati | |
Scopo | Controllare se i dati cade all’interno della gamma accettabile di valori | Controllare i dati per assicurarsi che sia preciso e coerente |
Di solito eseguita | Quando i dati viene creato o aggiornato | Quando migrazione dei dati o fusa |
Esempio | Verifica se inserite dall’utente, codice postale può essere trovato | Verifica che tutti i codici postali in set di dati sono in formato ZIP+4 formato |
In termini profani, la verifica dei dati e la convalida dei dati possono sembrare la stessa cosa. Quando si approfondire la complessità della qualità dei dati, tuttavia, questi due pezzi importanti del puzzle sono nettamente diversi. Conoscere la distinzione può aiutare a capire meglio il quadro più ampio della qualità dei dati.
Che cos’è la convalida dei dati?
In poche parole, la convalida dei dati è il processo per determinare se una particolare informazione rientra nell’intervallo accettabile di valori per un determinato campo.
Negli Stati Uniti, ad esempio, ogni indirizzo dovrebbe includere un campo distinto per lo stato. Alcuni valori come NH, ND, AK e TX sono conformi all’elenco delle abbreviazioni di stato come definito dal Servizio postale degli Stati Uniti. Come sapete, queste abbreviazioni indicano stati specifici.
Esistono anche abbreviazioni a due caratteri per i territori degli Stati Uniti, come Guam (“GU”) e le Isole Marianne settentrionali (“MP”). Se dovessi inserire” ZP “o” A7 ” nel campo Stato, in sostanza invalideresti l’intero indirizzo, perché non esiste tale stato o territorio. La convalida dei dati eseguirebbe un controllo rispetto ai valori esistenti in un database per garantire che rientrino nei parametri validi.
Per un elenco di indirizzi che include paesi al di fuori degli Stati Uniti, il campo stato/provincia/territorio dovrebbe essere convalidato rispetto a un elenco significativamente più lungo di valori possibili, ma la premessa di base è la stessa; i valori inseriti devono rientrare in un elenco o in un intervallo di valori accettabili. (FYI, offre precisamente soluzioni di convalida degli indirizzi)
Ad esempio, in alcuni casi potrebbe essere necessario impostare limiti attorno a possibili valori numerici per un determinato campo, anche se con un po ‘ meno precisione rispetto all’esempio precedente. Se si registra l’altezza di una persona, è possibile vietare i valori che non rientrano nell’intervallo previsto. Se una persona è elencata nel tuo database come alta 12 piedi (circa 3 metri), probabilmente puoi presumere che i dati non siano corretti. Allo stesso modo, non si desidera consentire numeri negativi per quel campo.
Fortunatamente, questi tipi di controlli di convalida vengono in genere eseguiti a livello di applicazione o a livello di database. Ad esempio, se stai inserendo un indirizzo di spedizione con sede negli Stati Uniti in un sito di e-commerce, è improbabile che tu possa inserire un codice di stato non valido per gli Stati Uniti.
Leggi il nostro eBook
Come la qualità” abbastanza buona ” sta erodendo la fiducia nei tuoi dati Insights
Esplora le informazioni chiave sulla qualità dei dati dai professionisti dei dati nell’indagine sulla qualità dei dati
Cos’è la verifica dei dati e in che modo è diversa?
La verifica dei dati, d’altra parte, è in realtà molto diversa dalla convalida dei dati. Verifica esegue un controllo dei dati correnti per garantire che siano accurati, coerenti e riflettano lo scopo previsto.
La verifica può anche avvenire in qualsiasi momento. In altre parole, la verifica può avvenire come parte di un processo di qualità dei dati ricorrente, mentre la convalida si verifica in genere quando un record viene inizialmente creato o aggiornato.
La verifica svolge un ruolo particolarmente critico quando i dati vengono migrati o uniti da origini dati esterne. Considera il caso di un’azienda che ha appena acquisito un piccolo concorrente. Hanno deciso di unire i dati dei clienti del concorrente acquisito nel proprio sistema di fatturazione. Come parte del processo di migrazione, è importante verificare che i record provenissero correttamente dal sistema di origine.
Piccoli errori nella preparazione dei dati per la migrazione possono talvolta causare grossi problemi. Se un campo chiave nel record master del cliente viene assegnato in modo errato (ad esempio, se un intervallo di celle in un foglio di calcolo è stato spostato inavvertitamente verso l’alto o verso il basso durante la preparazione dei dati), gli indirizzi di spedizione o le fatture in sospeso potrebbero essere assegnati al cliente errato.
Pertanto, è importante verificare che le informazioni nel sistema di destinazione corrispondano alle informazioni del sistema di origine. Ciò può essere fatto campionando i dati dai sistemi di origine e di destinazione per verificare manualmente l’accuratezza, oppure può comportare processi automatizzati che eseguono la verifica completa dei dati importati, corrispondenti a tutti i record e contrassegnando le eccezioni.
Verifica come processo in corso
La verifica non si limita alla migrazione dei dati. Svolge anche un ruolo importante nel garantire l’accuratezza e la coerenza dei dati aziendali nel tempo.
Immaginate di avere un database esistente di consumatori che hanno acquistato il prodotto, e si desidera inviare loro una promozione di un nuovo accessorio per quel prodotto. Alcune di queste informazioni sui clienti potrebbero non essere aggiornate, quindi vale la pena verificare i dati in anticipo rispetto alla spedizione.
Controllando gli indirizzi dei clienti rispetto a una modifica del database degli indirizzi dal servizio postale, è possibile identificare i record dei clienti con indirizzi obsoleti. In molti casi, è anche possibile aggiornare le informazioni del cliente come parte di tale processo.
L’identificazione di record duplicati è un’altra importante attività di verifica dei dati. Se il tuo database clienti elenca lo stesso cliente tre o quattro volte, è probabile che tu invii loro messaggi duplicati. Questo non solo ti costa più soldi, ma si traduce anche in un’esperienza del cliente negativa.
Per rendere il processo di deduplicazione più impegnativo, è possibile che siano stati creati più record per lo stesso cliente utilizzando variazioni leggermente diverse sul nome di una persona. Gli strumenti che utilizzano la logica fuzzy per identificare possibili e probabili corrispondenze possono far funzionare meglio il processo.
The data quality mandate
Sempre più leader aziendali stanno arrivando a comprendere il valore strategico dei dati nelle intuizioni che possono essere estratte da esso utilizzando l’intelligenza artificiale/machine learning e moderni strumenti di business intelligence.
Sfortunatamente, tuttavia, il vecchio detto “garbage in, garbage out” si applica ora più che mai. Con l’aumentare del volume di dati, è essenziale che le aziende basate sui dati mettano in atto misure proattive per monitorare e gestire la qualità dei dati su base ordinaria. Altrimenti, rischiano di agire su intuizioni basate su informazioni errate.
Per saperne di più, leggi il nostro eBook: Come la qualità” abbastanza buona ” sta erodendo la fiducia nelle tue informazioni sui dati