datavalidering | datavalidering | |
formål | Kontroller, om data falder inden for det acceptable værdiområde | Kontroller data for at sikre, at de er nøjagtige og konsistente |
udføres normalt | når data oprettes eller opdateres | når data migreres eller flettes |
eksempel | kontrol af, om brugerindtastet Postnummer kan findes | kontrol af, at alle postnumre i datasættet er i lynlås + 4-format |
i lægmandens vilkår, data verifikation og datavalidering kan lyde som om de er de samme ting. Når du dykke ned i snørklede af datakvalitet, imidlertid, disse to vigtige brikker i puslespillet er tydeligt forskellige. At kende sondringen kan hjælpe dig med bedre at forstå det større billede af datakvaliteten.
hvad er datavalidering?
i en nøddeskal er datavalidering processen med at bestemme, om et bestemt stykke information falder inden for det acceptable værdiområde for et givet felt.
i USA skal for eksempel hver gadeadresse indeholde et særskilt felt for staten. Visse værdier som NH, nd, AK og TK er i overensstemmelse med listen over statslige forkortelser som defineret af US Postal Service. Som du ved, angiver disse forkortelser specifikke tilstande.
der er også forkortelser med to tegn for amerikanske territorier, såsom Guam (“GU”) og Nordmarianerne (“MP”). Hvis du skulle indtaste” RP “eller” A7 ” i statsfeltet, ville du i det væsentlige ugyldiggøre hele adressen, fordi der ikke findes en sådan stat eller territorium. Datavalidering ville udføre en kontrol mod eksisterende værdier i en database for at sikre, at de falder inden for gyldige parametre.
for en liste over adresser, der inkluderer lande uden for USA, skal feltet Stat/provins/territorium valideres mod en markant længere liste over mulige værdier, men den grundlæggende forudsætning er den samme; de indtastede værdier skal passe inden for en liste eller et interval af acceptable værdier. (FYI, tilbyder netop adressevalideringsløsninger)
for eksempel skal du i nogle tilfælde muligvis indstille grænser omkring mulige numeriske værdier for et givet felt, omend med lidt mindre præcision end i det foregående eksempel. Hvis du registrerer en persons højde, kan du forbyde værdier, der falder uden for det forventede interval. Hvis en person er opført i din database som værende 12 meter høj (ca.3 meter), kan du sandsynligvis antage, at dataene er forkerte. Ligeledes vil du ikke tillade negative tal for dette felt.
heldigvis udføres disse former for valideringskontrol typisk på applikationsniveau eller databaseniveau. For eksempel, hvis du indtaster en USA-baseret leveringsadresse i en e-handel hjemmeside, er det usandsynligt, at du ville være i stand til at indtaste en tilstand kode, der er ugyldig for USA.
læs vores e-bog
hvordan “god nok” kvalitet eroderer tillid til dine data indsigt
Udforsk vigtige data kvalitet indsigt fra data fagfolk i data kvalitet undersøgelse
hvad er data verifikation, og hvordan er det anderledes?
dataverifikation er på den anden side faktisk meget forskellig fra datavalidering. Verifikation udfører en kontrol af de aktuelle data for at sikre, at de er nøjagtige, konsistente og afspejler det tilsigtede formål.
verifikation kan også ske når som helst. Med andre ord kan verifikation finde sted som en del af en tilbagevendende datakvalitetsproces, mens Validering typisk opstår, når en post oprindeligt oprettes eller opdateres.
verifikation spiller en særlig kritisk rolle, når data migreres eller flettes fra eksterne datakilder. Overvej sagen om et firma, der netop har erhvervet en lille konkurrent. De har besluttet at fusionere den erhvervede konkurrents kundedata i deres eget faktureringssystem. Som en del af migreringsprocessen er det vigtigt at kontrollere, at poster kom korrekt fra kildesystemet.
små fejl i forberedelsen af data til migration kan undertiden resultere i store problemer. Hvis et nøglefelt i kundemasterposten er tildelt forkert (for eksempel hvis en række celler i et regneark utilsigtet blev flyttet op eller ned, da dataene blev forberedt), kan det resultere i, at forsendelsesadresser eller udestående fakturaer tildeles den forkerte kunde.
derfor er det vigtigt at kontrollere, at oplysningerne i destinationssystemet matcher oplysningerne fra kildesystemet. Dette kan gøres ved at prøve data fra både kilde-og destinationssystemerne for manuelt at verificere nøjagtigheden, eller det kan involvere automatiserede processer, der udfører fuld verifikation af de importerede data, der matcher alle poster og markerer undtagelser.
verifikation som en løbende proces
verifikation er ikke begrænset til Datamigrering. Det spiller også en vigtig rolle for at sikre nøjagtigheden og konsistensen af virksomhedsdata over tid.
Forestil dig, at du har en eksisterende database over forbrugere, der har købt dit produkt, og du vil sende dem en promovering af et nyt tilbehør til det produkt. Nogle af disse kundeoplysninger kan være forældede, så det er værd at verificere dataene inden din mailing.
ved at kontrollere kundeadresser mod en ændring af adressedatabasen fra posttjenesten kan du identificere kundeposter med forældede adresser. I mange tilfælde kan du endda opdatere kundeoplysningerne som en del af denne proces.
identificering af duplikatposter er en anden vigtig dataverificeringsaktivitet. Hvis din kundedatabase viser den samme kunde tre eller fire gange, vil du sandsynligvis sende dem duplikatforsendelser. Dette koster dig ikke kun flere penge, det resulterer også i en negativ kundeoplevelse.
for at gøre deduplikeringsprocessen mere udfordrende er der muligvis oprettet flere poster for den samme kunde ved hjælp af lidt forskellige variationer af en persons navn. Værktøjer, der bruger uklar logik til at identificere mulige og sandsynlige matches, kan få processen til at fungere bedre.
datakvalitetsmandatet
flere og flere virksomhedsledere kommer til at forstå den strategiske værdi af data i den indsigt, der kan udvindes fra it ved hjælp af kunstig intelligens/maskinindlæring og moderne business intelligence-værktøjer.
desværre gælder det gamle ordsprog “garbage in, garbage out” nu mere end nogensinde. Efterhånden som datamængden øges, er det vigtigt, at datadrevne virksomheder træffer proaktive foranstaltninger for at overvåge og styre datakvaliteten rutinemæssigt. Ellers risikerer de at handle på indsigt, der er baseret på mangelfulde oplysninger.
for at lære mere, læs vores e-bog: Hvordan “god nok” kvalitet eroderer tilliden til din dataindsigt