Ci sono molte definizioni di qualità dei dati, in generale, la qualità dei dati è la valutazione di quanto i dati sono utilizzabili e si adatta a servire contesto.
Molti fattori aiutano a misurare la qualità dei dati come:
- Coerenza dei dati: violazione delle regole semantiche definite sul set di dati. .
- Precisione dei dati: I dati sono accurati quando i valori dei dati memorizzati nel database corrispondono a valori reali.
- Unicità dei dati: misura della duplicazione indesiderata esistente all’interno o tra i sistemi per un particolare campo, record o set di dati.
- Completezza dei dati: il grado in cui i valori sono presenti in una raccolta di dati.
- Tempestività dei dati: la misura in cui l’età dei dati è appropriata per l’attività in questione.
Altri fattori possono essere presi in considerazione come Disponibilità, Facilità di manipolazione, Credibilità e Valuta.
Perché la qualità dei dati è importante?
Migliorare la qualità dei dati è una preoccupazione critica poiché i dati sono considerati il nucleo di tutte le attività all’interno delle organizzazioni, la scarsa qualità dei dati porta a rapporti imprecisi che si tradurranno in decisioni imprecise e sicuramente danni economici.
Come migliorare la qualità dei dati?
Il miglioramento della qualità dei dati si ottiene:
- Formazione del personale
- Implementazione di soluzioni per la qualità dei dati
3.1. Formazione del personale
Prima di pensare di implementare soluzioni di qualità dei dati, in primo luogo dobbiamo ridurre al minimo i problemi di qualità dei dati causati da attività umane in-organizzazione come l’inserimento dei dati. Inoltre, tutti gli sviluppatori e gli amministratori di database devono avere una buona conoscenza del processo aziendale e devono fare riferimento a uno schema unificato durante lo sviluppo e la progettazione di database e applicazioni.
3.2. Implementazione di soluzioni di data quality
L’altro modo per migliorare la qualità dei dati è implementare soluzioni di data quality. Data Quality Solutions è un insieme di strumenti o applicazioni che eseguono attività di qualità come:
- Creazione di knowledge base: una knowledge base è una risorsa leggibile da una macchina per la diffusione di informazioni.
- De-duplicazione dei dati: rimuove le informazioni duplicate in base a un insieme di regole semantiche.
- Pulizia dei dati: rimozione di caratteri e simboli indesiderati dai valori.
- Profilazione dei dati: è il processo di esame dei dati disponibili da una fonte di informazioni esistente (ad es. un database o un file) e la raccolta di statistiche o riepiloghi informativi su tali dati.
- Corrispondenza dei dati: la corrispondenza dei dati descrive gli sforzi per confrontare due serie di dati raccolti utilizzando tecnologie come il collegamento dei record e la risoluzione delle entità.
Soluzioni di qualità dei dati popolari
In questa sezione, mostrerò alcune delle soluzioni di qualità dei dati più popolari sul mercato.
4.1. IBM Infosphere information server
IBM InfoSphere® Information Server è una piattaforma di integrazione dei dati leader di mercato, che include una famiglia di prodotti che consentono di comprendere, pulire, monitorare, trasformare e fornire dati e di collaborare per colmare il divario tra business e IT. InfoSphere Information Server offre funzionalità MPP (Massively Parallel Processing) per fornire una piattaforma di integrazione altamente scalabile e flessibile che gestisce tutti i volumi di dati, grandi e piccoli.
InfoSphere Information Server ti offre la possibilità di soddisfare in modo flessibile i tuoi requisiti di integrazione delle informazioni, dall’integrazione dei dati alla qualità dei dati e alla governance dei dati, per fornire informazioni affidabili alle tue iniziative aziendali mission-critical (come big data e analytics, modernizzazione del data warehouse, gestione master data e analisi point-of-impact).
- Homepage: https://www.ibm.com/analytics/information-server
4.2. Informatica Data Quality
Informatica Data Quality fornisce dati affidabili a tutte le parti interessate, progetti e domini di dati per tutte le applicazioni aziendali on premise o nel cloud.
- Homepage: https://www.informatica.com/products/data-quality/informatica-data-quality.html
4.3. Oracle Data Quality
Oracle Enterprise Data Quality offre un approccio completo e best-of-breed ai dati di prodotto e di partito, con conseguente dati master affidabili che si integra con le applicazioni per migliorare le informazioni aziendali.
- Homepage: http://www.oracle.com/us/products/middleware/data-integration/enterprise-data-quality/overview/index.html
4.4. Microsoft Data Quality Services
SQL Server Data Quality Services (DQS) è un prodotto di qualità dei dati basato sulla conoscenza. DQS consente di creare una knowledge base e utilizzarla per eseguire una serie di attività critiche di qualità dei dati, tra cui correzione, arricchimento, standardizzazione e de-duplicazione dei dati. DQS consente di eseguire la pulizia dei dati utilizzando i servizi di dati di riferimento basati su cloud forniti dai provider di dati di riferimento. DQS fornisce anche la profilazione che è integrata nelle sue attività di qualità dei dati, consentendo di analizzare l’integrità dei dati.
- Homepage: https://docs.microsoft.com/en-us/sql/data-quality-services/data-quality-services
4.5. Melissa Data Quality
Dal 1985, Melissa fornisce strumenti di qualità dei dati aziendali con ampie funzionalità, tra cui profilazione e standardizzazione dei dati, pulizia, arricchimento, collegamento e deduping. La nostra missione è quella di fornire alle organizzazioni soluzioni best-of-breed che forniscono informazioni affidabili, affidabili e accurate per una maggiore comprensione.
- Homepage: https://www.melissa.com/uk/data/data-quality
4.6. Talend Data Quality
Lo strumento Enterprise Data Quality di Talend profila, pulisce e maschera i dati, monitorando nel tempo la qualità dei dati, in qualsiasi formato o dimensione. La de-duplicazione, la convalida e la standardizzazione dei dati creano dati puliti per l’accesso, la creazione di report, l’analisi e le operazioni. Arricchisci i dati con fonti esterne per la convalida postale, l’identificazione aziendale, le informazioni sul punteggio di credito e altro ancora.
- Homepage: https://www.talend.com/products/data-quality/
4.7. Syncsort Trillium Software Lead
Il Trillium Cloud di Syncsort offre una soluzione di qualità dei dati aziendale leader del settore con la facilità di implementazione e la flessibilità operativa di un ambiente colud sicuro e resistente gestito da Syncsort.
- Homepage: http://www.syncsort.com/en/About/Trillium-Software
4.8. SAS Data Quality
Il software SAS Data Quality consente di migliorare la coerenza e l’integrità dei dati. Quando si aumenta la qualità dei dati, si aumenta il valore dei risultati analitici.
Il software SAS Data Quality supporta una varietà di operazioni di qualità dei dati. Le operazioni di qualità dei dati utilizzano regole predefinite che si applicano al contesto specifico dei dati (ad esempio nomi o indirizzi). Esempi di operazioni di qualità dei dati includono l’involucro, l’analisi, la corrispondenza fuzzy e la standardizzazione.
- Homepage: https://www.sas.com/en_us/software/data-quality.html
- C. Batini, C. Cappiello, C. Francalanci, A. Maurino, “Methodologies for data quality assessment and improvement”, ACM Computing Surveys (CSUR), vol. 41, pag. 16, 2009.
- D. McGilvray, “Dieci passi per dati di qualità e informazioni attendibili,” MIT Information Quality Industry Symposium, 2008.
- R. Y. W. a. D. M. Strong, “Beyond accuracy: What data quality means to data consumer,” Journal of management information systems, vol. 12, pp. 5-33, 1996.
- Sidi Fatimah, Shariat Panahy, Payam Hassany, Lilly Suriani Affendey, Marzanah A. Jabar, Hamidah Ibrahim, Aida Mustapha, “Data quality: A survey of data quality dimensions,” in Proceedings — 2012 International Conference on Information Retrieval and Knowledge Management, CAMP’12, 2012.
- Herzog, Thomas N., scheuren, fj, winkler, “Cos’è la qualità dei dati e perché dovremmo preoccuparci”, Journal of Industrial Engineering and Management, vol. 4(2), n. 2a edizione, pp. 1-9, 2016.
- M. Rouse, “Knowledge Base”, TechTarget, 3 2007. . Disponibile: https://searchcrm.techtarget.com/definition/knowledge-base. .
- “Profilazione dei dati”, Wikipedia, . Disponibile: https://en.wikipedia.org/wiki/Data_profiling. .
- ” Qual è la corrispondenza dei dati?, “Techopedia,. Disponibile: https://www.techopedia.com/definition/28041/data-matching. .
- “IBM Information Server”, IBM,. Disponibile: https://www.ibm.com/analytics/information-server. .
- “Miglior software di qualità dei dati,” G2Crowd,. Disponibile: https://www.g2crowd.com/categories/data-quality. .
- “Oracle Enterprise Data Quality,” Oracle,. Disponibile: http://www.oracle.com/us/products/middleware/data-integration/enterprise-data-quality/overview/index.html. .
- “Servizi di qualità dei dati”, Microsoft, 10 12 2013. . Disponibile: https://docs.microsoft.com/en-us/sql/data-quality-services/data-quality-services?visualizza = sql-server-2017. .
- “Qualità dei dati”, Talend, . Disponibile: https://www.talend.com/products/data-quality/. .
- “Trillium Software,” Syncsort,. Disponibile: http://www.syncsort.com/en/About/Trillium-Software. .
- “SAS Data Quality e Data Quality Server,” SAS,. Disponibile: http://support.sas.com/software/products/dataqual/index.html.