en introduktion till datakvalitet

referens: www.datapine.com/blog/data-quality-management-and-metrics/
Bildreferens: www.datapine.com

Det finns många definitioner av datakvalitet, i allmänhet är datakvalitet bedömningen av hur mycket data är användbar och passar dess serveringskontext.

många faktorer hjälper till att mäta datakvalitet som:

  • datakonsistens: brott mot semantiska regler definierade över datauppsättningen. .
  • Data Noggrannhet: Data är korrekta när datavärden som lagras i databasen motsvarar verkliga värden.
  • data unikhet: ett mått på oönskad duplicering som finns inom eller över system för ett visst fält, post eller datamängd.
  • data fullständighet: i vilken grad värden finns i en datainsamling.
  • Data aktualitet: i vilken utsträckning dataåldern är avsedd för den aktuella uppgiften.

andra faktorer kan beaktas såsom tillgänglighet, enkel Manipulation, trovärdighet och valuta.

varför datakvalitet är viktigt?

att förbättra datakvaliteten är ett kritiskt problem eftersom data betraktas som kärnan i alla aktiviteter inom organisationer, leder dålig datakvalitet till felaktig rapportering som kommer att leda till felaktiga beslut och säkert ekonomiska skador.

hur kan man förbättra datakvaliteten?

datakvalitetsförbättring uppnås genom:

  1. utbildningspersonal
  2. implementera datakvalitetslösningar

3.1. Utbildningspersonal

innan vi funderar på att implementera datakvalitetslösningar måste vi först minimera datakvalitetsproblemen som orsakats av mänskliga aktiviteter i organisationen, såsom datainmatning. Även alla utvecklare och databasadministratörer måste ha god kunskap om affärsprocessen och måste hänvisa till ett enhetligt schema när de utvecklar och utformar databaser och applikationer.

3.2. Implementera datakvalitetslösningar

det andra sättet att förbättra datakvaliteten är genom att implementera datakvalitetslösningar. Data quality solutions är en uppsättning verktyg eller applikationer som utför kvalitetsuppgifter som:

  • kunskapsbas skapande: en kunskapsbas är en maskinläsbar resurs för spridning av information.
  • dataduplikering: ta bort duplicerad information baserad på en uppsättning semantiska regler.
  • data cleansing: ta bort oönskade tecken och symboler från värden.
  • dataprofilering: är processen att undersöka tillgängliga data från en befintlig informationskälla (t. ex. en databas eller en fil) och samla in statistik eller informativa sammanfattningar om dessa data.
  • datamatchning: datamatchning beskriver ansträngningar för att jämföra två uppsättningar insamlade data med hjälp av tekniker som postlänk och entitetsupplösning.

populära datakvalitetslösningar

i det här avsnittet kommer jag att visa några av de mest populära datakvalitetslösningarna på marknaden.

4.1. IBM Infosphere information server

IBM InfoSphere Australia Information Server är en marknadsledande dataintegrationsplattform, som inkluderar en familj av produkter som gör att du kan förstå, rengöra, övervaka, omvandla och leverera data och samarbeta för att överbrygga klyftan mellan företag och IT. InfoSphere Information Server tillhandahåller MPP-funktioner (massively parallel processing) för att leverera en mycket skalbar och flexibel integrationsplattform som hanterar alla datavolymer, stora som små.

InfoSphere Information Server ger dig möjligheten att flexibelt uppfylla dina unika informationsintegrationskrav — från dataintegration till datakvalitet och datastyrning — för att leverera pålitlig information till dina affärskritiska affärsinitiativ (som big data och analytics, modernisering av datalager, master datahantering och point-of-impact-analys).

  • hemsida: https://www.ibm.com/analytics/information-server

4.2. Informatica Data Quality

Informatica Data Quality levererar pålitlig data till alla intressenter, projekt och datadomäner för alla affärsapplikationer på plats eller i molnet.

  • hemsida: https://www.informatica.com/products/data-quality/informatica-data-quality.html

4.3. Oracle Data Quality

Oracle Enterprise Data Quality levererar en komplett, best-of-breed-strategi för parti-och produktdata vilket resulterar i pålitliga huvuddata som integreras med applikationer för att förbättra affärsinsikt.

  • hemsida: http://www.oracle.com/us/products/middleware/data-integration/enterprise-data-quality/overview/index.html

4.4. Microsoft Data Quality Services

SQL Server Data Quality Services (DQS) är en kunskapsbaserad datakvalitetsprodukt. Med DQS kan du bygga en kunskapsbas och använda den för att utföra en mängd kritiska datakvalitetsuppgifter, inklusive korrigering, berikning, standardisering och deduplicering av dina data. Med DQS kan du utföra datarensning genom att använda molnbaserade referensdatatjänster som tillhandahålls av referensdataleverantörer. DQS ger dig också profilering som är integrerad i dess datakvalitetsuppgifter, så att du kan analysera integriteten hos dina data.

  • hemsida: https://docs.microsoft.com/en-us/sql/data-quality-services/data-quality-services

4.5. Melissa Data Quality

sedan 1985 har Melissa tillhandahållit företagsdatakvalitetsverktyg med breda funktioner inklusive dataprofilering och standardisering, rengöring, berikande, länkning och deduping. Vårt uppdrag är att ge organisationer de bästa lösningarna som levererar pålitlig, pålitlig och korrekt information för större insikt.

  • hemsida: https://www.melissa.com/uk/data/data-quality

4.6. Talend Data Quality

Talends enterprise data quality tool profilerar, rensar och maskerar data, samtidigt som datakvaliteten övervakas över tid, i alla format eller storlekar. Dataduplikering, validering och standardisering skapar rena data för åtkomst, rapportering, analys och operationer. Berika data med externa källor för postvalidering, affärsidentifiering, kreditpoänginformation och mer.

  • hemsida: https://www.talend.com/products/data-quality/

4.7. Syncsort Trillium Software Lead

Syncsorts Trillium Cloud levererar en branschledande datakvalitetslösning för företag med enkel driftsättning och operativ flexibilitet i en Syncsort-administrerad härdad, säker colud-miljö.

  • hemsida: http://www.syncsort.com/en/About/Trillium-Software

4.8. SAS Data Quality

SAS Data Quality software gör att du kan förbättra konsistensen och integriteten för dina data. När du ökar kvaliteten på dina data ökar du värdet på dina analysresultat.

SAS Data Quality-programvaran stöder en mängd olika datakvalitetsoperationer. Datakvalitetsoperationerna använder fördefinierade regler som gäller för det specifika sammanhanget för dina data (t.ex. namn eller gatuadresser). Exempel på datakvalitetsoperationer inkluderar hölje, parsning, fuzzy matchning och standardisering.

  • hemsida: https://www.sas.com/en_us/software/data-quality.html
  • C. Batini, C. Cappiello, C. Francalanci, A. Maurino, ” metoder för bedömning och förbättring av datakvalitet,” ACM Computing Surveys (CSUR), vol. 41, S. 16, 2009.
  • D. McGilvray, ”tio steg till kvalitetsdata och betrodd Information”, MIT Information Quality Industry Symposium, 2008.
  • R. Y. W. A. D. M. Strong, ”utöver noggrannhet: vilken datakvalitet betyder för datakonsumenter,” Journal of management information systems, vol. 12, s. 5-33, 1996.
  • Sidi Fatimah, Shariat Panahy, Payam Hassany, Lilly Suriani Affendey, Marzanah A. Jabar, Hamidah Ibrahim, Aida Mustapha,” datakvalitet: en undersökning av datakvalitetsdimensioner”, i Proceedings — 2012 International Conference on Information Retrieval and Knowledge Management, CAMP’12, 2012.
  • Herzog, Thomas N., scheuren, fj, winkler, ”Vad är datakvalitet och varför ska vi bry oss,” Journal of Industrial Engineering and Management, vol. 4 (2), nr 2: a upplagan, s. 1-9, 2016.
  • M. Rouse, ”Kunskapsbas,” TechTarget, 3 2007. . Tillgänglig: https://searchcrm.techtarget.com/definition/knowledge-base. .
  • ”Data Profilering,” Wikipedia,. Tillgänglig: https://en.wikipedia.org/wiki/Data_profiling. .
  • ” Vad är datamatchning?, ”Techopedia,. Tillgänglig: https://www.techopedia.com/definition/28041/data-matching. .
  • ”IBM Information Server,” IBM,. Tillgänglig: https://www.ibm.com/analytics/information-server. .
  • ”Bästa Datakvalitet Programvara,” G2Crowd,. Tillgänglig: https://www.g2crowd.com/categories/data-quality. .
  • ”Oracle Enterprise Data Quality,” Oracle,. Tillgänglig: http://www.oracle.com/us/products/middleware/data-integration/enterprise-data-quality/overview/index.html. .
  • ”Datakvalitetstjänster,” Microsoft, 10 12 2013. . Tillgänglig: https://docs.microsoft.com/en-us/sql/data-quality-services/data-quality-services?visa=sql-server-2017. .
  • ”Datakvalitet,” Talend,. Tillgänglig: https://www.talend.com/products/data-quality/. .
  • ”Trillium Programvara,” Syncsort,. Tillgänglig: http://www.syncsort.com/en/About/Trillium-Software. .
  • ”SAS datakvalitet och datakvalitet Server,” SAS,. Tillgänglig: http://support.sas.com/software/products/dataqual/index.html.

Lämna ett svar

Din e-postadress kommer inte publiceras.