Une introduction à la qualité des données

 Référence : www.datapine.com/blog/data-quality-management-and-metrics/
Référence de l’image : www.datapine.com

Il existe de nombreuses définitions de la qualité des données, en général, la qualité des données est l’évaluation de la quantité de données utilisables et correspondant à son contexte de service.

De nombreux facteurs aident à mesurer la qualité des données, tels que:

  • Cohérence des données : Violation des règles sémantiques définies sur l’ensemble de données. .
  • Exactitude des données: Les données sont exactes lorsque les valeurs de données stockées dans la base de données correspondent à des valeurs réelles.
  • Unicité des données : Mesure de la duplication indésirable existant dans ou entre les systèmes pour un champ, un enregistrement ou un ensemble de données particulier.
  • Exhaustivité des données : Degré de présence de valeurs dans une collecte de données.
  • Actualité des données : Mesure dans laquelle l’âge des données est approprié pour la tâche à accomplir.

D’autres facteurs peuvent être pris en compte tels que la disponibilité, la Facilité de manipulation, la Crédibilité et la Monnaie.

Pourquoi la qualité des données est-elle importante?

L’amélioration de la qualité des données est une préoccupation critique étant donné que les données sont considérées comme le cœur de toutes les activités au sein des organisations, une mauvaise qualité des données entraîne des rapports inexacts qui entraîneront des décisions inexactes et certainement des dommages économiques.

Comment améliorer la qualité des données ?

L’amélioration de la qualité des données est réalisée par:

  1. Formation du personnel
  2. Mise en œuvre de solutions de qualité des données

3.1. Formation du personnel

Avant de penser à mettre en œuvre des solutions de qualité des données, nous devons d’abord minimiser les problèmes de qualité des données résultant des activités humaines internes à l’organisation telles que la saisie de données. De plus, tous les développeurs et administrateurs de bases de données doivent avoir une bonne connaissance du processus métier et doivent se référer à un schéma unifié lors du développement et de la conception de bases de données et d’applications.

3.2. Mise en œuvre de solutions de qualité des données

L’autre moyen d’améliorer la qualité des données consiste à mettre en œuvre des solutions de qualité des données. Les solutions de qualité des données sont un ensemble d’outils ou d’applications qui effectuent des tâches de qualité telles que:

  • Création d’une base de connaissances: une base de connaissances est une ressource lisible par machine pour la diffusion d’informations.
  • Déduplication des données : Supprime les informations dupliquées en fonction d’un ensemble de règles sémantiques.
  • Nettoyage des données: Suppression des caractères et symboles indésirables des valeurs.
  • Profilage des données : processus d’examen des données disponibles à partir d’une source d’information existante (p. ex. une base de données ou un fichier) et la collecte de statistiques ou de résumés informatifs sur ces données.
  • Appariement des données : L’appariement des données décrit les efforts déployés pour comparer deux ensembles de données collectées à l’aide de technologies telles que le couplage d’enregistrements et la résolution d’entités.

Solutions de qualité des données populaires

Dans cette section, je vais montrer certaines des solutions de qualité des données les plus populaires sur le marché.

4.1. IBM Infosphere information server

IBM InfoSphere® Information Server est une plate-forme d’intégration de données leader sur le marché, qui comprend une famille de produits qui vous permettent de comprendre, nettoyer, surveiller, transformer et fournir des données, et de collaborer pour combler le fossé entre l’entreprise et l’informatique. InfoSphere Information Server offre des capacités de traitement massivement parallèle (MPP) pour fournir une plate-forme d’intégration hautement évolutive et flexible qui gère tous les volumes de données, petits et grands.

InfoSphere Information Server vous offre la possibilité de répondre de manière flexible à vos exigences uniques en matière d’intégration des informations — de l’intégration des données à la qualité des données et à la gouvernance des données — pour fournir des informations fiables à vos initiatives commerciales critiques (telles que le Big Data et l’analyse, la modernisation de l’entrepôt de données, la gestion des données de référence et l’analyse des points d’impact).

  • Page d’accueil: https://www.ibm.com/analytics/information-server

4.2. Informatica Data Quality

Informatica Data Quality fournit des données fiables à toutes les parties prenantes, projets et domaines de données pour toutes les applications métier sur site ou dans le cloud.

  • Page d’accueil: https://www.informatica.com/products/data-quality/informatica-data-quality.html

4.3. Oracle Data Quality

Oracle Enterprise Data Quality offre une approche complète et de pointe des données sur les parties et les produits, ce qui permet d’obtenir des données de référence fiables qui s’intègrent aux applications pour améliorer les informations commerciales.

  • Page d’accueil: http://www.oracle.com/us/products/middleware/data-integration/enterprise-data-quality/overview/index.html

4.4. Microsoft Data Quality Services

SQL Server Data Quality Services (DQS) est un produit de qualité des données axé sur la connaissance. DQS vous permet de créer une base de connaissances et de l’utiliser pour effectuer diverses tâches critiques de qualité des données, notamment la correction, l’enrichissement, la normalisation et la déduplication de vos données. DQS vous permet d’effectuer un nettoyage des données en utilisant des services de données de référence basés sur le cloud fournis par des fournisseurs de données de référence. DQS vous fournit également un profilage intégré à ses tâches de qualité des données, vous permettant d’analyser l’intégrité de vos données.

  • Page d’accueil: https://docs.microsoft.com/en-us/sql/data-quality-services/data-quality-services

4.5. Melissa Data Quality

Depuis 1985, Melissa fournit des outils de qualité des données d’entreprise dotés de vastes capacités, notamment le profilage et la normalisation des données, le nettoyage, l’enrichissement, la liaison et la déduplication. Notre mission est de fournir aux organisations des solutions de pointe qui fournissent des informations fiables, fiables et précises pour une meilleure compréhension.

  • Page d’accueil: https://www.melissa.com/uk/data/data-quality

4.6. Talend Data Quality

L’outil de qualité des données d’entreprise de Talend profile, nettoie et masque les données, tout en surveillant la qualité des données dans le temps, quel que soit leur format ou leur taille. La déduplication, la validation et la standardisation des données créent des données propres pour l’accès, les rapports, les analyses et les opérations. Enrichissez les données avec des sources externes pour la validation postale, l’identification de l’entreprise, les informations de pointage de crédit, etc.

  • Page d’accueil: https://www.talend.com/products/data-quality/

4.7. Syncsort Trillium Software Lead

Le Cloud Trillium de Syncsort offre une solution de qualité des données d’entreprise de pointe avec la facilité de déploiement et la flexibilité opérationnelle d’un environnement colud durci et sécurisé administré par Syncsort.

  • Page d’accueil: http://www.syncsort.com/en/About/Trillium-Software

4.8. SAS Data Quality

Le logiciel SAS Data Quality vous permet d’améliorer la cohérence et l’intégrité de vos données. Lorsque vous augmentez la qualité de vos données, vous augmentez la valeur de vos résultats analytiques.

Le logiciel SAS de qualité des données prend en charge diverses opérations de qualité des données. Les opérations de qualité des données utilisent des règles prédéfinies qui s’appliquent au contexte spécifique de vos données (telles que les noms ou les adresses postales). Des exemples d’opérations de qualité des données incluent le casing, l’analyse syntaxique, la correspondance floue et la normalisation.

  • Page d’accueil: https://www.sas.com/en_us/software/data-quality.html
  • C. Batini, C. Cappiello, C. Francalanci, A. Maurino, « Methodologies for data quality assessment and improvement », ACM Computing Surveys (CSUR), vol. 41, p. 16, 2009.
  • D. McGilvray, « Ten Steps to Quality Data and Trusted Information », Symposium de l’industrie de la Qualité de l’information du MIT, 2008.
  • R. Y. W. A. D. M. Strong,  » Beyond accuracy: What data quality means to data consumers « , Journal of management information systems, vol. 12, p. 5 à 33, 1996.
  • Sidi Fatimah, Shariat Panahy, Payam Hassany, Lilly Suriani Affendey, Marzanah A. Jabar, Hamidah Ibrahim, Aida Mustapha, « La qualité des données: Une enquête sur les dimensions de la qualité des données », dans Actes – Conférence Internationale de 2012 sur la Récupération de l’Information et la Gestion des Connaissances, CAMP ’12, 2012.
  • Herzog, Thomas N., scheuren, f.j, winkler, « Qu’est-ce que la qualité des données et Pourquoi Devrions-Nous nous en soucier », Journal of Industrial Engineering and Management, vol. 4 (2), no. 2e édition, pp. 1-9, 2016.
  • M. Rouse, « Base de connaissances », TechTarget, 3 2007. . Disponible: https://searchcrm.techtarget.com/definition/knowledge-base. .
  • « Profilage de données », Wikipedia, . Disponible: https://en.wikipedia.org/wiki/Data_profiling. .
  •  » Qu’est-ce que la correspondance de données?,  » Techopédia, . Disponible: https://www.techopedia.com/definition/28041/data-matching. .
  • « Serveur d’information IBM, » IBM,. Disponible: https://www.ibm.com/analytics/information-server. .
  • « Meilleur logiciel de qualité des données », G2Crowd,. Disponible: https://www.g2crowd.com/categories/data-quality. .
  •  » Qualité des données d’entreprise Oracle « , Oracle, . Disponible: http://www.oracle.com/us/products/middleware/data-integration/enterprise-data-quality/overview/index.html. .
  • « Services de qualité des données », Microsoft, 10 12 2013. . Disponible: https://docs.microsoft.com/en-us/sql/data-quality-services/data-quality-services?voir = sql-server-2017. .
  • « Qualité des données », Talend, . Disponible: https://www.talend.com/products/data-quality/. .
  • « Logiciel Trillium », Syncsort, . Disponible: http://www.syncsort.com/en/About/Trillium-Software. .
  • « Qualité des données SAS et Serveur de Qualité des données, » SAS,. Disponible: http://support.sas.com/software/products/dataqual/index.html.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.