istnieje wiele definicji jakości danych, ogólnie jakość danych to ocena tego, ile danych jest użytecznych i pasuje do kontekstu serwowania.
wiele czynników pomaga w pomiarze jakości danych, takich jak:
- spójność danych: naruszenie reguł semantycznych zdefiniowanych w zbiorze danych. .
- Dokładność Danych: Dane są dokładne, gdy wartości danych przechowywane w bazie danych odpowiadają wartościom rzeczywistym.
- unikalność danych: miara niepożądanego powielania istniejącego w systemach lub między systemami dla określonego pola, rekordu lub zestawu danych.
- kompletność danych: stopień, w jakim wartości są obecne w zbiorze danych.
- aktualność danych: zakres, w jakim wiek danych jest odpowiedni do danego zadania.
można wziąć pod uwagę inne czynniki, takie jak dostępność, łatwość manipulacji, wiarygodność i waluta.
dlaczego jakość danych jest ważna?
poprawa jakości danych jest krytycznym problemem, ponieważ dane są uważane za rdzeń wszystkich działań w organizacjach, niska jakość danych prowadzi do niedokładnego raportowania, co spowoduje niedokładne decyzje i z pewnością szkody ekonomiczne.
jak poprawić jakość danych?
poprawa jakości danych jest osiągana przez:
- personel szkoleniowy
- wdrażanie rozwiązań jakości danych
3.1. Szkolenie personelu
zanim pomyślimy o wdrożeniu rozwiązań dotyczących jakości danych, najpierw musimy zminimalizować problemy z jakością danych wynikające z działań ludzkich w organizacji, takich jak wprowadzanie danych. Również wszyscy programiści i administratorzy baz danych muszą mieć dobrą znajomość procesu biznesowego i muszą odwoływać się do ujednoliconego schematu podczas opracowywania i projektowania baz danych i aplikacji.
3.2. Wdrażanie rozwiązań jakości danych
innym sposobem poprawy jakości danych jest wdrożenie rozwiązań jakości danych. Data quality solutions to zestaw narzędzi lub aplikacji, które wykonują zadania związane z jakością, takie jak:
- tworzenie bazy wiedzy: baza wiedzy jest czytelnym maszynowo zasobem służącym do rozpowszechniania informacji.
- duplikacja danych: Usuń zduplikowane informacje na podstawie zestawu reguł semantycznych.
- czyszczenie danych: usuwanie niechcianych znaków i symboli z wartości.
- profilowanie danych: jest to proces badania danych dostępnych z istniejącego źródła informacji (np. bazy danych lub pliku) i zbieranie statystyk lub podsumowań informacyjnych na temat tych danych.
- dopasowanie danych: dopasowanie danych opisuje wysiłki w celu porównania dwóch zestawów zebranych danych przy użyciu technologii, takich jak łączenie rekordów i rozwiązywanie jednostek.
popularne rozwiązania jakości danych
w tej sekcji pokażę niektóre z najpopularniejszych rozwiązań jakości danych na rynku.
4.1. IBM Infosphere information server
IBM InfoSphere® Information Server to wiodąca na rynku platforma integracji danych, która obejmuje rodzinę produktów, które umożliwiają zrozumienie, oczyszczenie, monitorowanie, przekształcanie i dostarczanie danych oraz współpracę w celu wypełnienia luki między biznesem a IT. InfoSphere Information Server oferuje możliwości przetwarzania massively parallel processing (MPP), aby zapewnić wysoce skalowalną i elastyczną platformę integracyjną, która obsługuje wszystkie wolumeny danych, duże i małe.
InfoSphere Information Server zapewnia możliwość elastycznego spełniania unikalnych wymagań dotyczących integracji informacji – od integracji danych po jakość danych i zarządzanie danymi — w celu dostarczania zaufanych informacji do kluczowych inicjatyw biznesowych (takich jak big data i analityka, modernizacja hurtowni danych, zarządzanie danymi podstawowymi i analiza punktowa).
- Strona główna: https://www.ibm.com/analytics/information-server
4.2. Informatica Data Quality
Informatica Data Quality dostarcza wiarygodne dane wszystkim interesariuszom, projektom i domenom danych dla wszystkich aplikacji biznesowych lokalnie lub w chmurze.
- Strona główna: https://www.informatica.com/products/data-quality/informatica-data-quality.html
4.3. Oracle Data Quality
Oracle Enterprise Data Quality zapewnia kompletne, najlepsze w swojej klasie podejście do danych firmowych i produktów, dzięki czemu można uzyskać wiarygodne dane podstawowe, które integrują się z aplikacjami w celu poprawy wglądu biznesowego.
- Strona główna: http://www.oracle.com/us/products/middleware/data-integration/enterprise-data-quality/overview/index.html
4.4. Microsoft Data Quality Services
SQL Server Data Quality Services (DQS) to produkt jakości danych oparty na wiedzy. DQS umożliwia zbudowanie bazy wiedzy i wykorzystanie jej do wykonywania wielu krytycznych zadań dotyczących jakości danych, w tym korekty, wzbogacania, standaryzacji i duplikacji danych. DQS umożliwia czyszczenie danych za pomocą bazujących na chmurze usług danych referencyjnych świadczonych przez dostawców danych referencyjnych. DQS zapewnia również profilowanie, które jest zintegrowane z zadaniami dotyczącymi jakości danych, umożliwiając analizę integralności danych.
- Strona główna: https://docs.microsoft.com/en-us/sql/data-quality-services/data-quality-services
4.5. Melissa Data Quality
od 1985 roku Melissa dostarcza korporacyjne narzędzia do jakości danych o szerokich możliwościach, w tym profilowaniu i standaryzacji danych, oczyszczaniu, wzbogacaniu, łączeniu i dedupowaniu. Naszą misją jest dostarczanie organizacjom najlepszych w swojej klasie rozwiązań, które dostarczają zaufanych, wiarygodnych i dokładnych informacji dla lepszego wglądu.
- Strona główna: https://www.melissa.com/uk/data/data-quality
4.6. Talend Data Quality
narzędzie Talend enterprise data quality profiluje, czyści i maskuje dane, jednocześnie monitorując jakość danych w dowolnym formacie i rozmiarze. Duplikacja danych, Walidacja i standaryzacja tworzą czyste dane na potrzeby dostępu, raportowania, analizy i operacji. Wzbogać dane o zewnętrzne źródła do walidacji pocztowej, identyfikacji firmy, informacji o wynikach kredytowych i innych.
- Strona główna: https://www.talend.com/products/data-quality/
4.7. Syncsort Trillium Software Lead
Trillium Cloud firmy Syncsort zapewnia wiodące w branży rozwiązanie do jakości danych w przedsiębiorstwie z łatwością wdrażania i elastycznością operacyjną administrowanego przez Syncsort utwardzonego, bezpiecznego środowiska colud.
- Strona główna: http://www.syncsort.com/en/About/Trillium-Software
4.8. SAS Data Quality
oprogramowanie SAS Data Quality umożliwia poprawę spójności i integralności danych. Podnosząc jakość danych, zwiększasz wartość wyników analitycznych.
oprogramowanie SAS Data Quality obsługuje różne operacje jakości danych. Operacje jakości danych wykorzystują predefiniowane reguły, które mają zastosowanie do określonego kontekstu danych (takich jak nazwiska lub adresy ulic). Przykłady operacji jakości danych obejmują obudowę, parsowanie, dopasowanie rozmyte i standaryzację.
- Strona główna: https://www.sas.com/en_us/software/data-quality.html
- C. Batini, C. Cappiello, C. Francalanci, A. Maurino, „Methodologies for data quality assessment and improvement,” ACM Computing Surveys (CSUR), vol. 41, s. 16, 2009.
- D. McGilvray, „Ten Steps to Quality Data and Trusted Information,” mit Information Quality Industry Symposium, 2008.
- R. Y. W. A. D. M. Strong, „Beyond accuracy: What data quality means to data consumers”, Journal of management information systems, vol. 12, s. 5-33, 1996.
- Sidi Fatimah, Shariat Panahy, Payam Hassany, Lilly Suriani Affendey, Marzanah A. Jabar, Hamidah Ibrahim, Aida Mustapha,” Data quality: a survey of data quality dimensions, „in Proceedings — 2012 International Conference on Information Retrieval and Knowledge Management, CAMP’12, 2012.
- Herzog, Thomas N., scheuren, f. j, winkler, „What Is Data Quality and Why Should We Care,” Journal of Industrial Engineering and Management, vol . 4(2), nr 2, s. 1-9, 2016.
- M. Rouse, „Baza Wiedzy”, TechTarget, 3 2007. . Dostępne: https://searchcrm.techtarget.com/definition/knowledge-base .
- „Profilowanie Danych”, Wikipedia, . Dostępne: https://en.wikipedia.org/wiki/Data_profiling .
- ” co to jest dopasowanie danych?”Techopedia, Dostępne: https://www.techopedia.com/definition/28041/data-matching .
- „IBM Information Server”, IBM,. Dostępne: https://www.ibm.com/analytics/information-server .
- „Najlepsze Oprogramowanie Do Jakości Danych”, G2Crowd,. Dostępne: https://www.g2crowd.com/categories/data-quality. .
- „Oracle Enterprise Data Quality”, Oracle,. Dostępne: http://www.oracle.com/us/products/middleware/data-integration/enterprise-data-quality/overview/index.html .
- „Usługi Jakości Danych”, Microsoft, 10 12 2013. . Dostępne: https://docs.microsoft.com/en-us/sql/data-quality-services/data-quality-servicesview=SQL-server-2017. .
- „Jakość Danych”, Talend, . Dostępne: https://www.talend.com/products/data-quality/ .
- „Trillium Software”, Syncsort,. Dostępne: http://www.syncsort.com/en/About/Trillium-Software .
- „SAS Data Quality and Data Quality Server”, SAS,. Dostępne: http://support.sas.com/software/products/dataqual/index.html