există multe definiții ale calității datelor, în general, calitatea datelor este evaluarea cât de mult datele sunt utilizabile și se potrivesc contextului său de servire.
mulți factori ajută la măsurarea calității datelor, cum ar fi:
- coerența datelor: încălcarea regulilor semantice definite în setul de date. .
- Precizia Datelor: Datele sunt corecte atunci când valorile de date stocate în baza de date corespund valorilor din lumea reală.
- unicitatea datelor: o măsură a duplicării nedorite existente în sau între sisteme pentru un anumit câmp, înregistrare sau set de date.
- integralitatea datelor: gradul în care valorile sunt prezente într-o colecție de date.
- actualitatea datelor: măsura în care vârsta datelor este adecvată pentru sarcina la îndemână.
alți factori pot fi luați în considerare, cum ar fi disponibilitatea, ușurința manipulării, credibilitatea și moneda.
de ce este importantă calitatea datelor?
îmbunătățirea calității datelor este o preocupare critică, deoarece datele sunt considerate nucleul tuturor activităților din cadrul organizațiilor, calitatea slabă a datelor duce la raportarea inexactă, ceea ce va duce la decizii inexacte și cu siguranță la daune economice.
cum de a îmbunătăți calitatea datelor?
îmbunătățirea calității datelor se realizează prin:
- instruirea personalului
- implementarea soluțiilor privind calitatea datelor
3.1. Instruirea personalului
înainte de a ne gândi la implementarea soluțiilor de calitate a datelor, mai întâi trebuie să minimizăm problemele de calitate a datelor rezultate din activitățile umane în organizație, cum ar fi introducerea datelor. De asemenea, toți dezvoltatorii și administratorii de baze de date trebuie să aibă o bună cunoaștere a procesului de afaceri și trebuie să se refere la o schemă unificată atunci când dezvoltă și proiectează baze de date și aplicații.
3.2. Implementarea soluțiilor de calitate a datelor
o altă modalitate de îmbunătățire a calității datelor este implementarea soluțiilor de calitate a datelor. Data quality solutions este un set de instrumente sau aplicații care îndeplinesc sarcini de calitate, cum ar fi:
- Crearea bazei de cunoștințe: o bază de cunoștințe este o resursă care poate fi citită automat pentru diseminarea informațiilor.
- de-duplicarea datelor: eliminați informațiile duplicate pe baza unui set de reguli semantice.
- curățarea datelor: eliminarea caracterelor și simbolurilor nedorite din valori.
- profilarea datelor: este procesul de examinare a datelor disponibile dintr-o sursă de informații existentă (de ex. o bază de date sau un fișier) și colectarea de statistici sau rezumate informative despre aceste date.
- potrivirea datelor: potrivirea datelor descrie eforturile de a compara două seturi de date colectate folosind tehnologii precum legătura de înregistrare și rezoluția entității.
soluții populare de calitate a datelor
în această secțiune, voi arăta unele dintre cele mai populare soluții de calitate a datelor de pe piață.
4.1. IBM Infosphere information server
IBM InfoSphere Information Server este o platformă de integrare a datelor lider pe piață, care include o familie de produse care vă permit să înțelegeți, să curățați, să monitorizați, să transformați și să furnizați date și să colaborați pentru a reduce decalajul dintre afaceri și IT. InfoSphere Information Server oferă capabilități de procesare paralelă masivă (MPP) pentru a oferi o platformă de integrare extrem de scalabilă și flexibilă, care gestionează toate volumele de date, mari și mici.
InfoSphere Information Server vă oferă posibilitatea de a satisface în mod flexibil cerințele dvs. unice de integrare a informațiilor — de la integrarea datelor la calitatea datelor și guvernanța datelor — pentru a furniza informații de încredere inițiativelor dvs. de afaceri critice pentru misiune (cum ar fi date mari și analize, modernizarea depozitului de date, gestionarea datelor master și analiza punctului de impact).
- Pagina principala: https://www.ibm.com/analytics/information-server
4.2. Informatica Data Quality
Informatica Data Quality oferă date de încredere tuturor părților interesate, proiectelor și domeniilor de date pentru toate aplicațiile de afaceri, la fața locului sau în cloud.
- Pagina principala: https://www.informatica.com/products/data-quality/informatica-data-quality.html
4.3. Oracle Data Quality
Oracle Enterprise Data Quality oferă o abordare completă și de cea mai bună calitate a datelor despre părți și produse, rezultând date master de încredere care se integrează cu aplicațiile pentru a îmbunătăți informațiile despre afaceri.
- Pagina principala: http://www.oracle.com/us/products/middleware/data-integration/enterprise-data-quality/overview/index.html
4.4. Microsoft Data Quality Services
SQL Server Data Quality Services (DQS) este un produs de calitate a datelor bazat pe cunoștințe. DQS vă permite să construiți o bază de cunoștințe și să o utilizați pentru a efectua o varietate de sarcini critice de calitate a datelor, inclusiv corectarea, îmbogățirea, standardizarea și de-duplicarea datelor. DQS vă permite să efectuați curățarea datelor utilizând servicii de date de referință bazate pe cloud furnizate de furnizorii de date de referință. DQS vă oferă, de asemenea, profilarea care este integrată în sarcinile sale de calitate a datelor, permițându-vă să analizați integritatea datelor dvs.
- Pagina principala: https://docs.microsoft.com/en-us/sql/data-quality-services/data-quality-services
4.5. Melissa Data Quality
din 1985, Melissa oferă instrumente de calitate a datelor pentru întreprinderi cu capacități largi, inclusiv profilarea și standardizarea datelor, curățarea, îmbogățirea, conectarea și deduparea. Misiunea noastră este de a oferi organizațiilor cele mai bune soluții care oferă informații de încredere, fiabile și exacte pentru o mai bună înțelegere.
- Pagina principala: https://www.melissa.com/uk/data/data-quality
4.6. Talend Data Quality
instrumentul Talend enterprise data quality profilează, curăță și maschează datele, monitorizând în același timp calitatea datelor în timp, în orice format sau dimensiune. De-duplicarea datelor, validarea și standardizarea creează date curate pentru acces, raportare, analiză și operațiuni. Îmbogățiți datele cu surse externe pentru validarea poștală, identificarea afacerii, informații despre Scorul de credit și multe altele.
- Pagina principala: https://www.talend.com/products/data-quality/
4.7. Syncsort Trillium software Lead
Syncsort Trillium Cloud oferă o soluție de calitate a datelor de întreprindere lider în industrie, cu ușurința de implementare și flexibilitatea operațională a unui mediu colud întărit și sigur administrat de Syncsort.
- Pagina principala: http://www.syncsort.com/en/About/Trillium-Software
4.8. SAS Data Quality
software-ul SAS Data Quality vă permite să îmbunătățiți coerența și integritatea datelor. Când creșteți calitatea datelor dvs., creșteți valoarea rezultatelor analitice.
software-ul de calitate a datelor SAS acceptă o varietate de operațiuni de calitate a datelor. Operațiunile de calitate a datelor utilizează reguli predefinite care se aplică contextului specific al datelor dvs. (cum ar fi numele sau adresele stradale). Exemple de operațiuni de calitate a datelor includ carcasa, analiza, potrivirea fuzzy și standardizarea.
- Pagina principala: https://www.sas.com/en_us/software/data-quality.html
- C. Batini, C. Cappiello, C. Francalanci, A. Maurino, „metodologii pentru evaluarea și îmbunătățirea calității datelor”, ACM Computing Surveys (CSUR), vol. 41, p. 16, 2009.
- D. McGilvray, „zece pași către date de calitate și informații de încredere”, Simpozionul industriei calității informațiilor MIT, 2008.
- R. Y. W. A. D. M. Strong,” dincolo de precizie: ce înseamnă calitatea datelor pentru consumatorii de date”, Journal of Management information systems, vol. 12, PP. 5-33, 1996.
- Sidi Fatimah,Shariat Panahy, Payam Hassany, Lilly Suriani Affendey, Marzanah A. Jabar, Hamidah Ibrahim, Aida Mustapha, „Calitatea Datelor: un sondaj al dimensiunilor calității datelor”, în Proceedings — 2012 Conferința Internațională privind recuperarea informațiilor și gestionarea cunoștințelor, tabăra’12, 2012.
- Herzog, Thomas N., scheuren, f.J, winkler,” ce este calitatea datelor și de ce ar trebui să ne pese”, Journal of Industrial Engineering and Management, vol. 4(2), Ediția a 2-A, PP. 1-9, 2016.
- M. Rouse,” Baza De Cunoștințe”, TechTarget, 3 2007. . Disponibil: https://searchcrm.techtarget.com/definition/knowledge-base. .
- „Profilarea Datelor”, Wikipedia,. Disponibil: https://en.wikipedia.org/wiki/Data_profiling. .
- „ce este potrivirea datelor?, „Techopedia,. Disponibil: https://www.techopedia.com/definition/28041/data-matching. .
- „IBM Information Server,” IBM,. Disponibil: https://www.ibm.com/analytics/information-server. .
- „Cel Mai Bun Software De Calitate A Datelor,” G2Crowd,. Disponibil: https://www.g2crowd.com/categories/data-quality. .
- „Oracle Enterprise Data Quality,” Oracle,. Disponibil: http://www.oracle.com/us/products/middleware/data-integration/enterprise-data-quality/overview/index.html. .
- „Servicii De Calitate A Datelor”, Microsoft, 10 12 2013. . Disponibil: https://docs.microsoft.com/en-us/sql/data-quality-services/data-quality-services?vizualizare = sql-server-2017. .
- „Calitatea Datelor,” Talend,. Disponibil: https://www.talend.com/products/data-quality/. .
- „Software-Ul Trillium,” Syncsort, . Disponibil: http://www.syncsort.com/en/About/Trillium-Software. .
- „Calitatea Datelor SAS și serverul de calitate a datelor”, SAS, . Disponibil: http://support.sas.com/software/products/dataqual/index.html.