Validierung vs. Verifikation: Was ist der Unterschied?

Datenvalidierung Datenüberprüfung
Zweck Überprüfen Sie, ob die Daten in den zulässigen Wertebereich fallen Überprüfen Sie die Daten, um sicherzustellen, dass sie korrekt und konsistent sind
Normalerweise ausgeführt Wenn Daten erstellt oder aktualisiert werden Wenn Daten migriert oder zusammengeführt werden
Beispiel Überprüfen, ob die vom Benutzer eingegebene Postleitzahl gefunden werden kann Überprüfen, ob alle Postleitzahlen im Datensatz im ZIP + 4-Format vorliegen

In Laienbegriffen, datenüberprüfung und Datenvalidierung klingen möglicherweise so, als wären sie dasselbe. Wenn Sie sich jedoch mit den Feinheiten der Datenqualität befassen, unterscheiden sich diese beiden wichtigen Puzzleteile deutlich. Wenn Sie die Unterscheidung kennen, können Sie das Gesamtbild der Datenqualität besser verstehen.

Was ist Datenvalidierung?

Kurz gesagt, Datenvalidierung ist der Prozess der Bestimmung, ob eine bestimmte Information in den zulässigen Wertebereich für ein bestimmtes Feld fällt.

In den Vereinigten Staaten sollte beispielsweise jede Straßenadresse ein eigenes Feld für den Bundesstaat enthalten. Bestimmte Werte wie NH, ND, AK und TX entsprechen der Liste der staatlichen Abkürzungen, wie sie vom US Postal Service definiert werden. Wie Sie wissen, bezeichnen diese Abkürzungen bestimmte Zustände.

Es gibt auch zweistellige Abkürzungen für US-Territorien wie Guam („GU“) und die Nördlichen Marianen („MP“). Wenn Sie „ZP“ oder „A7“ in das Statusfeld eingeben würden, würden Sie im Wesentlichen die gesamte Adresse ungültig machen, da kein solcher Staat oder Territorium existiert. Die Datenvalidierung würde eine Überprüfung anhand vorhandener Werte in einer Datenbank durchführen, um sicherzustellen, dass sie innerhalb gültiger Parameter liegen.

Für eine Liste von Adressen, die Länder außerhalb der USA enthält, müsste das Feld state/province/territory anhand einer deutlich längeren Liste möglicher Werte validiert werden, aber die Grundvoraussetzung ist dieselbe; Die eingegebenen Werte müssen in eine Liste oder einen Bereich akzeptabler Werte passen. (Zu Ihrer Information, Es bietet Adressvalidierungslösungen an)

In einigen Fällen müssen Sie beispielsweise mögliche numerische Werte für ein bestimmtes Feld einschränken, wenn auch mit etwas geringerer Genauigkeit als im vorherigen Beispiel. Wenn Sie die Körpergröße einer Person aufzeichnen, möchten Sie möglicherweise Werte verbieten, die außerhalb des erwarteten Bereichs liegen. Wenn eine Person in Ihrer Datenbank als 12 Fuß groß (etwa 3 Meter) aufgeführt ist, können Sie wahrscheinlich davon ausgehen, dass die Daten falsch sind. Ebenso möchten Sie keine negativen Zahlen für dieses Feld zulassen.

Glücklicherweise werden diese Arten von Validierungsprüfungen normalerweise auf Anwendungsebene oder Datenbankebene durchgeführt. Wenn Sie beispielsweise eine in den USA ansässige Lieferadresse in eine E-Commerce-Website eingeben, ist es unwahrscheinlich, dass Sie einen für die USA ungültigen Landescode eingeben können.

Lesen Sie unser eBook

Wie „gut genug“ Qualität das Vertrauen in Ihre Daten untergräbt Insights

Entdecken Sie wichtige Erkenntnisse zur Datenqualität von Datenexperten in der Data Quality Survey

Lesen

Was ist Datenüberprüfung und wie unterscheidet sie sich?

Die Datenüberprüfung unterscheidet sich dagegen erheblich von der Datenvalidierung. Die Überprüfung führt eine Überprüfung der aktuellen Daten durch, um sicherzustellen, dass sie korrekt und konsistent sind und den beabsichtigten Zweck widerspiegeln.

Die Verifizierung kann auch jederzeit erfolgen. Mit anderen Worten, die Überprüfung kann als Teil eines wiederkehrenden Datenqualitätsprozesses erfolgen, während die Validierung normalerweise erfolgt, wenn ein Datensatz anfänglich erstellt oder aktualisiert wird.

Die Verifizierung spielt eine besonders kritische Rolle, wenn Daten aus externen Datenquellen migriert oder zusammengeführt werden. Betrachten Sie den Fall eines Unternehmens, das gerade einen kleinen Konkurrenten erworben hat. Sie haben beschlossen, die Kundendaten des erworbenen Wettbewerbers in ihrem eigenen Abrechnungssystem zusammenzuführen. Im Rahmen des Migrationsprozesses ist es wichtig zu überprüfen, ob Datensätze ordnungsgemäß vom Quellsystem übernommen wurden.

Kleine Fehler bei der Vorbereitung von Daten für die Migration können manchmal zu großen Problemen führen. Wenn ein Schlüsselfeld im Kundenstammsatz falsch zugewiesen wird (z. B. wenn ein Zellbereich in einer Tabelle bei der Vorbereitung der Daten versehentlich nach oben oder unten verschoben wurde), kann dies dazu führen, dass Lieferadressen oder ausstehende Rechnungen dem falschen Kunden zugewiesen werden.

Daher ist es wichtig zu überprüfen, ob die Informationen im Zielsystem mit den Informationen aus dem Quellsystem übereinstimmen. Dies kann durch Stichproben von Daten sowohl aus dem Quell- als auch aus dem Zielsystem erfolgen, um die Genauigkeit manuell zu überprüfen, oder es können automatisierte Prozesse verwendet werden, die eine vollständige Überprüfung der importierten Daten durchführen, alle Datensätze abgleichen und Ausnahmen markieren.

Verifizierung als fortlaufender Prozess

Verifizierung ist nicht auf die Datenmigration beschränkt. Es spielt auch eine wichtige Rolle bei der Gewährleistung der Genauigkeit und Konsistenz von Unternehmensdaten im Laufe der Zeit.

Stellen Sie sich vor, Sie haben eine bestehende Datenbank von Verbrauchern, die Ihr Produkt gekauft haben, und Sie möchten ihnen eine Werbung für ein neues Zubehör zu diesem Produkt zusenden. Einige dieser Kundeninformationen sind möglicherweise veraltet, daher lohnt es sich, die Daten vor Ihrem Mailing zu überprüfen.

Durch die Überprüfung von Kundenadressen gegen eine Adressänderungsdatenbank der Post können Sie Kundendatensätze mit veralteten Adressen identifizieren. In vielen Fällen können Sie sogar die Kundeninformationen als Teil dieses Prozesses aktualisieren.

Das Identifizieren doppelter Datensätze ist eine weitere wichtige Datenüberprüfungsaktivität. Wenn Ihre Kundendatenbank denselben Kunden drei- oder viermal auflistet, senden Sie ihm wahrscheinlich doppelte Mailings. Dies kostet Sie nicht nur mehr Geld, sondern führt auch zu einem negativen Kundenerlebnis.

Um den Deduplizierungsprozess schwieriger zu gestalten, wurden möglicherweise mehrere Datensätze für denselben Kunden mit leicht unterschiedlichen Variationen des Namens einer Person erstellt. Tools, die Fuzzy-Logik verwenden, um mögliche und wahrscheinliche Übereinstimmungen zu identifizieren, können den Prozess verbessern.

Das Datenqualitätsmandat

Immer mehr Führungskräfte verstehen den strategischen Wert von Daten in den Erkenntnissen, die mithilfe von künstlicher Intelligenz / maschinellem Lernen und modernen Business Intelligence-Tools daraus gewonnen werden können.

Leider gilt das alte Sprichwort „Müll rein, Müll raus“ heute mehr denn je. Da das Datenvolumen zunimmt, ist es wichtig, dass datengesteuerte Unternehmen proaktive Maßnahmen ergreifen, um die Datenqualität routinemäßig zu überwachen und zu verwalten. Andernfalls riskieren sie, auf Einsichten zu reagieren, die auf fehlerhaften Informationen basieren.

Um mehr zu erfahren, lesen Sie unser eBook: Wie „gut genug“ Qualität das Vertrauen in Ihre Daten untergräbt.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.