existuje mnoho definic kvality dat, obecně je kvalita dat hodnocením toho, do jaké míry jsou data použitelná a odpovídají jejich obslužnému kontextu.
mnoho faktorů pomáhá měřit kvalitu dat, jako například:
- konzistence dat: porušení sémantických pravidel definovaných v datovém souboru. .
- Přesnost Údajů: Data jsou přesná, pokud hodnoty dat uložené v databázi odpovídají hodnotám v reálném světě.
- jedinečnost dat: míra nežádoucí duplikace existující v rámci nebo napříč systémy pro konkrétní pole, záznam nebo datovou sadu.
- úplnost údajů: míra, do jaké jsou hodnoty přítomny ve sběru dat.
- včasnost údajů: rozsah, v jakém je věk údajů přidělen pro daný úkol.
lze vzít v úvahu další faktory, jako je Dostupnost, snadná manipulace, věrohodnost a měna.
proč je důležitá kvalita dat?
zvyšování kvality dat je kritickým problémem, protože data jsou považována za jádro všech činností v organizacích, špatná kvalita dat vede k nepřesnému vykazování, což povede k nepřesným rozhodnutím a jistě ekonomickým škodám.
jak zlepšit kvalitu dat?
zlepšení kvality dat je dosaženo:
- školení pracovníků
- implementace řešení kvality dat
3.1. Školení zaměstnanců
než se zamyslíme nad implementací řešení kvality dat, musíme nejprve minimalizovat problémy s kvalitou dat způsobené lidskými aktivitami v organizaci, jako je zadávání dat. Také všichni vývojáři a správci databází musí mít dobrou znalost obchodního procesu a při vývoji a navrhování databází a aplikací musí odkazovat na jednotné schéma.
3.2. Implementace řešení kvality dat
dalším způsobem, jak zlepšit kvalitu dat, je implementace řešení kvality dat. Řešení kvality dat je sada nástrojů nebo aplikací, které provádějí kvalitní úkoly, jako jsou:
- tvorba znalostní báze: znalostní báze je strojově čitelný zdroj pro šíření informací.
- de-duplikace dat: odstranění duplikovaných informací na základě sady sémantických pravidel.
- čištění dat: odstranění nežádoucích znaků a symbolů z hodnot.
- profilování údajů: je proces zkoumání údajů dostupných z existujícího zdroje informací (např. databáze nebo soubor) a shromažďování statistik nebo informativních shrnutí o těchto údajích.
- data matching: data matching popisuje úsilí o porovnání dvou sad shromážděných dat pomocí technologií, jako je propojení záznamů a rozlišení entit.
populární řešení kvality dat
v této části ukážu některá z nejpopulárnějších řešení kvality dat na trhu.
4.1. IBM Infosphere information server
IBM InfoSphere® Information Server je přední platforma pro integraci dat na trhu, která zahrnuje rodinu produktů, které vám umožňují porozumět, vyčistit, monitorovat, transformovat a doručovat data a spolupracovat na překlenutí propasti mezi obchodem a IT. Informační server InfoSphere poskytuje možnosti masivně paralelního zpracování (MPP), které poskytují vysoce škálovatelnou a flexibilní integrační platformu, která zpracovává všechny objemy dat, velké i malé.
informační server InfoSphere vám poskytuje možnost flexibilně splnit vaše jedinečné požadavky na integraci informací – od integrace dat po kvalitu dat a správu dat — poskytovat důvěryhodné informace vašim kritickým podnikatelským iniciativám (jako jsou velká data a analytika, modernizace datového skladu,správa kmenových dat a analytika point-of-impact).
- Úvodní stránka: https://www.ibm.com/analytics/information-server
4.2. Informatica Data Quality
Informatica Data Quality poskytuje důvěryhodná data všem zúčastněným stranám, projektům a datovým doménám pro všechny obchodní aplikace na premise nebo v cloudu.
- Úvodní stránka: https://www.informatica.com/products/data-quality/informatica-data-quality.html
4.3. Oracle Data Quality
Oracle Enterprise Data Quality poskytuje kompletní, nejlepší přístup k datům stran a produktů, což vede k důvěryhodným kmenovým datům, která se integrují s aplikacemi pro zlepšení obchodního vhledu.
- Úvodní stránka: http://www.oracle.com/us/products/middleware/data-integration/enterprise-data-quality/overview/index.html
4.4. Microsoft Data Quality Services
SQL Server Data Quality Services (DQS)je produkt založený na znalostech. DQS vám umožňuje vytvořit znalostní základnu a použít ji k provádění různých kritických úkolů v oblasti kvality dat, včetně opravy, obohacení,standardizace a de-duplikace vašich dat. DQS umožňuje provádět čištění dat pomocí cloudových referenčních datových služeb poskytovaných poskytovateli referenčních dat. DQS vám také poskytuje profilování, které je integrováno do jeho úkolů v oblasti kvality dat, což vám umožní analyzovat integritu vašich dat.
- Úvodní stránka: https://docs.microsoft.com/en-us/sql/data-quality-services/data-quality-services
4.5. Melissa Data Quality
od roku 1985 poskytuje Melissa nástroje pro kvalitu podnikových dat se širokými možnostmi, včetně profilování a standardizace dat, čištění, obohacování, propojení a deduping. Naším posláním je poskytovat organizacím nejlepší řešení, která poskytují důvěryhodné, spolehlivé a přesné informace pro lepší přehled.
- Úvodní stránka: https://www.melissa.com/uk/data/data-quality
4.6. Talend Data Quality
profily nástrojů pro kvalitu podnikových dat Talend, čistí a maskují data a zároveň monitorují kvalitu dat v průběhu času v jakémkoli formátu nebo velikosti. De-duplikace dat, validace, a standardizace vytváří čistá data pro přístup, podávání zpráv, analytika, a operace. Obohaťte data o externí zdroje pro ověření pošty, identifikaci Firmy, informace o kreditním skóre a další.
- Úvodní stránka: https://www.talend.com/products/data-quality/
4.7. Syncsort Trillium software Lead
Trillium Cloud společnosti Syncsort přináší špičkové řešení kvality podnikových dat s lehkostí nasazení a provozní flexibilitou tvrzeného a bezpečného prostředí colud spravovaného společností Syncsort.
- Úvodní stránka: http://www.syncsort.com/en/About/Trillium-Software
4.8. Kvalita dat Sas
software pro kvalitu dat SAS vám umožňuje zlepšit konzistenci a integritu vašich dat. Když zvýšíte kvalitu svých dat, zvýšíte hodnotu svých analytických výsledků.
software pro kvalitu dat SAS podporuje řadu operací kvality dat. Operace kvality dat používají předdefinovaná pravidla, která se vztahují na konkrétní kontext vašich dat(například jména nebo adresy ulic). Příklady operací kvality dat zahrnují obal, analýzu, fuzzy shodu a standardizaci.
- Úvodní stránka: https://www.sas.com/en_us/software/data-quality.html
- C. Batini, C. Cappiello, C. Francalanci, a. Maurino, „metodologie pro hodnocení a zlepšování kvality dat,“ ACM Computing Surveys (CSUR), vol. 41, s. 16, 2009.
- D. McGilvray, „deset kroků ke kvalitním datům a důvěryhodným informacím“, mit Information Quality Industry Symposium, 2008.
- R. Y. W. A. D. M. Strong, „Beyond accuracy: What data quality means to data consumers,“ Journal of management information systems, vol. 12, s. 5-33, 1996.
- Sidi Fatimah, Shariat Panahy, Payam Hassany, Lilly Suriani Affendey, Marzanah a. Jabar, Hamidah Ibrahim, Aida Mustapha, „kvalita dat: průzkum rozměrů kvality dat“, v Proceedings-2012 Mezinárodní konference o získávání informací a řízení znalostí, CAMP ‚ 12, 2012.
- Herzog, Thomas N., scheuren, f. j, winkler, „co je kvalita dat a proč bychom se měli starat,“ Journal of Industrial Engineering and Management, vol. 2.vydání, s. 1-9, 2016.
- M. Rouse, „Knowledge Base,“ TechTarget, 3 2007. . Dostupné: https://searchcrm.techtarget.com/definition/knowledge-base. .
- „Profilování Dat,“ Wikipedia,. K dispozici: https://en.wikipedia.org/wiki/Data_profiling. .
- “ co je to shoda dat?, „Techopedia,. Dostupné: https://www.techopedia.com/definition/28041/data-matching. .
- „IBM Information Server,“ IBM,. Dostupné: https://www.ibm.com/analytics/information-server. .
- „Nejlepší Software Pro Kvalitu Dat,“ G2Crowd,. Dostupné: https://www.g2crowd.com/categories/data-quality. .
- „Oracle Enterprise Data Quality,“ Oracle, . Dostupné: http://www.oracle.com/us/products/middleware/data-integration/enterprise-data-quality/overview/index.html. .
- „Data Quality Services,“ Microsoft, 10 12 2013. . Dostupné: https://docs.microsoft.com/en-us/sql/data-quality-services/data-quality-services?Zobrazit = sql-server-2017. .
- „Kvalita Dat,“ Talend,. Dostupné: https://www.talend.com/products/data-quality/. .
- „Trillium Software,“ Syncsort,. Dostupné: http://www.syncsort.com/en/About/Trillium-Software. .
- „Sas Data Quality and Data Quality Server,“ SAS,. Dostupné: http://support.sas.com/software/products/dataqual/index.html.