Eine Einführung in die Datenqualität

 Referenz: www.datapine.com/blog/data-quality-management-and-metrics/
Bild Referenz: www.datapine.com

Es gibt viele Definitionen von Datenqualität, im Allgemeinen ist Datenqualität die Beurteilung, wie viel die Daten nutzbar sind und in ihren jeweiligen Kontext passen.

Viele Faktoren helfen bei der Messung der Datenqualität wie:

  • Datenkonsistenz: Verletzung semantischer Regeln, die über den Datensatz definiert sind. .
  • Datengenauigkeit: Daten sind genau, wenn in der Datenbank gespeicherte Datenwerte realen Werten entsprechen.
  • Dateneinzigartigkeit: Ein Maß für unerwünschte Duplikate innerhalb oder zwischen Systemen für ein bestimmtes Feld, einen Datensatz oder einen Datensatz.
  • Vollständigkeit der Daten: Der Grad, in dem Werte in einer Datensammlung vorhanden sind.
  • Aktualität der Daten: Das Ausmaß, in dem das Alter der Daten für die jeweilige Aufgabe angemessen ist.

Andere Faktoren können berücksichtigt werden, wie Verfügbarkeit, einfache Manipulation, Glaubwürdigkeit und Währung.

Warum ist Datenqualität wichtig?

Die Verbesserung der Datenqualität ist ein kritisches Anliegen Da Daten als Kern aller Aktivitäten in Organisationen angesehen werden, führt eine schlechte Datenqualität zu ungenauen Berichten, die zu ungenauen Entscheidungen und sicherlich zu wirtschaftlichen Schäden führen.

Wie kann die Datenqualität verbessert werden?

Die Verbesserung der Datenqualität wird erreicht durch:

  1. Schulungspersonal
  2. Implementierung von Datenqualitätslösungen

3.1. Schulung des Personals

Bevor wir über die Implementierung von Datenqualitätslösungen nachdenken, müssen wir zunächst die Datenqualitätsprobleme minimieren, die durch menschliche Aktivitäten innerhalb der Organisation wie die Dateneingabe entstehen. Außerdem müssen alle Entwickler und Datenbankadministratoren über gute Kenntnisse des Geschäftsprozesses verfügen und sich beim Entwickeln und Entwerfen von Datenbanken und Anwendungen auf ein einheitliches Schema beziehen.

3.2. Implementieren von Datenqualitätslösungen

Die andere Möglichkeit, die Datenqualität zu verbessern, besteht darin, Datenqualitätslösungen zu implementieren. Datenqualitätslösungen sind eine Reihe von Tools oder Anwendungen, die Qualitätsaufgaben ausführen, z:

  • Erstellung einer Wissensdatenbank: Eine Wissensdatenbank ist eine maschinenlesbare Ressource zur Verbreitung von Informationen.
  • Datendeduplizierung: Entfernen Sie doppelte Informationen basierend auf einem Satz semantischer Regeln.
  • Datenbereinigung: Entfernen unerwünschter Zeichen und Symbole aus Werten.
  • Data Profiling: ist der Prozess der Untersuchung der Daten, die aus einer vorhandenen Informationsquelle (z. b. eine Datenbank oder eine Datei) und das Sammeln von Statistiken oder informativen Zusammenfassungen dieser Daten.
  • Datenabgleich: Datenabgleich beschreibt Bemühungen, zwei Sätze von gesammelten Daten unter Verwendung von Technologien wie Datensatzverknüpfung und Entitätsauflösung zu vergleichen.

Beliebte Datenqualitätslösungen

In diesem Abschnitt zeige ich einige der beliebtesten Datenqualitätslösungen auf dem Markt.

4.1. IBM Infosphere information server

IBM InfoSphere® Information Server ist eine marktführende Datenintegrationsplattform, die eine Produktfamilie umfasst, mit der Sie Daten verstehen, bereinigen, überwachen, transformieren und bereitstellen sowie zusammenarbeiten können, um die Lücke zwischen Geschäft und IT zu schließen. InfoSphere Information Server bietet MPP-Funktionen (Massively Parallel Processing), um eine hoch skalierbare und flexible Integrationsplattform bereitzustellen, die alle großen und kleinen Datenmengen verarbeitet.

InfoSphere Information Server bietet Ihnen die Möglichkeit, Ihre individuellen Anforderungen an die Informationsintegration flexibel zu erfüllen — von der Datenintegration über die Datenqualität bis hin zur Data Governance -, um vertrauenswürdige Informationen für Ihre geschäftskritischen Geschäftsinitiativen bereitzustellen (z. B. Big Data und Analysen, Data Warehouse-Modernisierung, Stammdatenmanagement und Point-of-Impact-Analysen).

  • Startseite: https://www.ibm.com/analytics/information-server

4.2. Informatica Data Quality

Informatica Data Quality liefert vertrauenswürdige Daten für alle Beteiligten, Projekte und Datendomänen für alle Geschäftsanwendungen vor Ort oder in der Cloud.

  • Startseite: https://www.informatica.com/products/data-quality/informatica-data-quality.html

4.3. Oracle Data Quality

Oracle Enterprise Data Quality bietet einen umfassenden Best-of-Breed-Ansatz für Parteien- und Produktdaten, der zu vertrauenswürdigen Stammdaten führt, die in Anwendungen integriert werden können, um die Geschäftseinblicke zu verbessern.

  • Startseite: http://www.oracle.com/us/products/middleware/data-integration/enterprise-data-quality/overview/index.html

4.4. Microsoft Data Quality Services

SQL Server Data Quality Services (DQS) ist ein wissensbasiertes Datenqualitätsprodukt. Mit DQS können Sie eine Wissensdatenbank erstellen und damit eine Vielzahl kritischer Datenqualitätsaufgaben ausführen, einschließlich Korrektur, Anreicherung, Standardisierung und Deduplizierung Ihrer Daten. Mit DQS können Sie Daten bereinigen, indem Sie Cloud-basierte Referenzdatendienste verwenden, die von Referenzdatenanbietern bereitgestellt werden. Die DQS stellt Ihnen auch ein Profiling zur Verfügung, das in ihre Datenqualitätsaufgaben integriert ist und es Ihnen ermöglicht, die Integrität Ihrer Daten zu analysieren.

  • Startseite: https://docs.microsoft.com/en-us/sql/data-quality-services/data-quality-services

4.5. Melissa Data Quality

Seit 1985 bietet Melissa Tools zur Datenqualität für Unternehmen mit umfangreichen Funktionen, einschließlich Datenprofilerstellung und -standardisierung, Bereinigung, Anreicherung, Verknüpfung und Deduplizierung. Unsere Mission ist es, Unternehmen Best-of-Breed-Lösungen zur Verfügung zu stellen, die vertrauenswürdige, zuverlässige und genaue Informationen für einen besseren Einblick liefern.

  • Startseite: https://www.melissa.com/uk/data/data-quality

4.6. Talend Data Quality

Das Enterprise Data Quality Tool von Talend profiliert, bereinigt und maskiert Daten und überwacht gleichzeitig die Datenqualität im Zeitverlauf in jedem Format und jeder Größe. Durch die Deduplizierung, Validierung und Standardisierung von Daten werden saubere Daten für Zugriff, Berichterstellung, Analyse und Betrieb erstellt. Bereichern Sie Daten mit externen Quellen für die postalische Validierung, Geschäftsidentifikation, Kredit-Score-Informationen und vieles mehr.

  • Startseite: https://www.talend.com/products/data-quality/

4.7. Syncsort Trillium Software Lead

Die Trillium Cloud von Syncsort bietet eine branchenführende Datenqualitätslösung für Unternehmen mit der einfachen Bereitstellung und betrieblichen Flexibilität einer von Syncsort verwalteten, gehärteten, sicheren Colud-Umgebung.

  • Startseite: http://www.syncsort.com/en/About/Trillium-Software

4.8. SAS Data Quality

Mit der SAS Data Quality Software können Sie die Konsistenz und Integrität Ihrer Daten verbessern. Wenn Sie die Qualität Ihrer Daten erhöhen, erhöhen Sie den Wert Ihrer Analyseergebnisse.

Die SAS Data Quality Software unterstützt eine Vielzahl von Datenqualitätsoperationen. Die Datenqualitätsoperationen verwenden vordefinierte Regeln, die für den spezifischen Kontext Ihrer Daten gelten (z. B. Namen oder Adressen). Beispiele für Datenqualitätsoperationen sind Casing, Parsing, Fuzzy Matching und Standardisierung.

  • Startseite: https://www.sas.com/en_us/software/data-quality.html
  • C. Batini, C. Cappiello, C. Francalanci, A. Maurino, „Methoden zur Bewertung und Verbesserung der Datenqualität,“ ACM Computing Surveys (CSUR), vol. 41, S. 16, 2009.
  • D. McGilvray, „Zehn Schritte zu Qualitätsdaten und vertrauenswürdigen Informationen“, MIT Information Quality Industry Symposium, 2008.
  • R. Y. W. a. D. M. Strong, „Jenseits der Genauigkeit: Was Datenqualität für Datenkonsumenten bedeutet“ Journal of Management Information systems, vol. 12, S. 5-33, 1996.
  • Sidi Fatimah,Shariat Panahy, Payam Hassany, Lilly Suriani Affendey, Marzanah A. Jabar, Hamidah Ibrahim, Aida Mustapha, „Datenqualität: Eine Übersicht über Datenqualitätsdimensionen“, in Proceedings — 2012 Internationale Konferenz über Information Retrieval und Wissensmanagement, CAMP’12, 2012.
  • Herzog, Thomas N.,scheuren, f.j., winkler, „Was ist Datenqualität und warum sollten wir uns darum kümmern?,“ Journal of Industrial Engineering and Management, vol. 4(2), Nr. 2. Auflage, S. 1-9, 2016.
  • M. Rouse, „Wissensdatenbank“, TechTarget, 3 2007. . Verfügbar: https://searchcrm.techtarget.com/definition/knowledge-base. .
  • „Datenprofilierung,“ Wikipedia, . Verfügbar: https://en.wikipedia.org/wiki/Data_profiling. .
  • „Was ist Datenabgleich?,“ Techopedia, . Verfügbar: https://www.techopedia.com/definition/28041/data-matching. .
  • „IBM Informationsserver,“ IBM, . Verfügbar: https://www.ibm.com/analytics/information-server. .
  • „Beste Datenqualitätssoftware,“ G2Crowd, . Verfügbar: https://www.g2crowd.com/categories/data-quality. .
  • „Oracle Unternehmensdatenqualität,“ Orakel, . Verfügbar: http://www.oracle.com/us/products/middleware/data-integration/enterprise-data-quality/overview/index.html. .
  • „Datenqualitätsdienste“, Microsoft, 10 12 2013. . Verfügbar: https://docs.microsoft.com/en-us/sql/data-quality-services/data-quality-services?ansicht = SQL-Server-2017. .
  • „Datenqualität,“ Talend, . Verfügbar: https://www.talend.com/products/data-quality/. .
  • „Trillium Software,“ Syncsort, . Verfügbar: http://www.syncsort.com/en/About/Trillium-Software. .
  • „SAS-Datenqualität und Datenqualitätsserver,“ SAS, . Verfügbar: http://support.sas.com/software/products/dataqual/index.html.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.