en introduktion til datakvalitet

Reference: www.datapine.com/blog/data-quality-management-and-metrics/
billedreference: www.datapine.com

der er mange definitioner af datakvalitet, generelt er datakvalitet vurderingen af, hvor meget dataene kan bruges og passer til dens serveringskontekst.

Mange faktorer hjælper med at måle datakvalitet såsom:

  • datakonsistens: overtrædelse af semantiske regler defineret over datasættet. .
  • Datanøjagtighed: Data er nøjagtige, når dataværdier, der er gemt i databasen, svarer til virkelige værdier.
  • data entydighed: et mål for uønsket duplikering eksisterende inden for eller på tværs af systemer for et bestemt felt, post eller datasæt.
  • data fuldstændighed: i hvilken grad værdier er til stede i en dataindsamling.
  • data aktualitet: i hvilket omfang dataenes alder er afsat til den aktuelle opgave.

andre faktorer kan tages i betragtning som tilgængelighed, nem Manipulation, troværdighed og valuta.

hvorfor datakvalitet er vigtig?

forbedring af datakvaliteten er et kritisk problem, da data betragtes som kernen i alle aktiviteter inden for organisationer, dårlig datakvalitet fører til unøjagtig rapportering, hvilket vil resultere i unøjagtige beslutninger og helt sikkert økonomiske skader.

hvordan forbedres datakvaliteten?

forbedring af datakvaliteten opnås ved:

  1. uddannelsespersonale
  2. implementering af datakvalitetsløsninger

3.1. Uddannelsespersonale

før vi overvejer at implementere datakvalitetsløsninger, skal vi først minimere de datakvalitetsproblemer, der er resultatet af menneskelige aktiviteter i organisationen, såsom dataindtastning. Også alle udviklere og databaseadministratorer skal have et godt kendskab til forretningsprocessen og skal henvise til et samlet skema, når de udvikler og designer databaser og applikationer.

3.2. Implementering af datakvalitetsløsninger

den anden måde at forbedre datakvaliteten på er ved at implementere datakvalitetsløsninger. Datakvalitetsløsninger er et sæt værktøjer eller applikationer, der udfører kvalitetsopgaver såsom:

  • oprettelse af videnbase: en videnbase er en maskinlæsbar ressource til formidling af information.
  • data de-duplication: Fjern duplikerede oplysninger baseret på et sæt semantiske regler.
  • data cleansing: fjernelse af uønskede tegn og symboler fra værdier.
  • dataprofilering: er processen med at undersøge de data, der er tilgængelige fra en eksisterende informationskilde (f. eks. en database eller en fil) og indsamling af statistik eller informative oversigter om disse data.
  • datamatchning: datamatchning beskriver bestræbelserne på at sammenligne to sæt indsamlede data ved hjælp af teknologier som f.eks.

populære datakvalitetsløsninger

i dette afsnit vil jeg vise nogle af de mest populære datakvalitetsløsninger på markedet.

4.1. IBM Infosphere information server

IBM InfoSphere Information Server er en markedsledende dataintegrationsplatform, der inkluderer en familie af produkter, der gør det muligt for dig at forstå, rense, overvåge, transformere og levere data og samarbejde om at bygge bro mellem forretning og IT. InfoSphere Information Server giver massivt parallel processing (MPP) kapaciteter til at levere en meget skalerbar og fleksibel integration platform, der håndterer alle datamængder, store og små.

InfoSphere Information Server giver dig mulighed for fleksibelt at opfylde dine unikke krav til informationsintegration — fra dataintegration til datakvalitet og datastyring — for at levere pålidelige oplysninger til dine missionskritiske forretningsinitiativer (såsom big data og analyser, modernisering af datalager, masterdatastyring og analyse af point-of-impact).

  • hjemmeside: https://www.ibm.com/analytics/information-server

4.2. Informatica datakvalitet

Informatica datakvalitet leverer pålidelige data til alle interessenter, projekter og datadomæner til alle forretningsapplikationer på stedet eller i skyen.

  • hjemmeside: https://www.informatica.com/products/data-quality/informatica-data-quality.html

4.3. Oracle datakvalitet

Oracle Enterprise datakvalitet leverer en komplet, best-of-breed tilgang til fest-og produktdata, hvilket resulterer i pålidelige stamdata, der integreres med applikationer for at forbedre forretningsindsigt.

  • hjemmeside: http://www.oracle.com/us/products/middleware/data-integration/enterprise-data-quality/overview/index.html

4.4. Microsoft Datakvalitetstjenester

er et vidensdrevet datakvalitetsprodukt. Du kan opbygge en vidensbase og bruge den til at udføre en række kritiske datakvalitetsopgaver, herunder korrektion, berigelse, standardisering og de-duplikering af dine data. Vi gør det muligt for dig at udføre datarensning ved hjælp af cloud-baserede referencedatatjenester leveret af referencedataudbydere. Vi giver dig også profilering, der er integreret i vores datakvalitetsopgaver, så du kan analysere integriteten af dine data.

  • hjemmeside: https://docs.microsoft.com/en-us/sql/data-quality-services/data-quality-services

4.5. Melissa datakvalitet

siden 1985 har Melissa leveret værktøjer til virksomhedskvalitet med brede muligheder, herunder dataprofilering og standardisering, rensning, berigelse, sammenkædning og deduping. Vores mission er at give organisationer de bedste løsninger, der leverer pålidelige, pålidelige og nøjagtige oplysninger for større indsigt.

  • hjemmeside: https://www.melissa.com/uk/data/data-quality

4.6. Talend datakvalitet

Talend ‘ s værktøj til datakvalitet i virksomheden profilerer, renser og maskerer data, mens datakvaliteten overvåges over tid, i ethvert format eller størrelse. Data de-duplikering, validering og standardisering skaber rene data til adgang, rapportering, analyse og operationer. Berig data med eksterne kilder til postvalidering, forretningsidentifikation, kredit score information, og mere.

  • hjemmeside: https://www.talend.com/products/data-quality/

4.7. Syncsort Trillium Lead

Syncsorts Trillium Cloud leverer en brancheførende datakvalitetsløsning til virksomheder med nem implementering og operationel fleksibilitet i et Syncsort-administreret hærdet, sikkert colud-miljø.

  • hjemmeside: http://www.syncsort.com/en/About/Trillium-Software

4.8. SAS datakvalitet

SAS Datakvalitetsprogrammet giver dig mulighed for at forbedre konsistensen og integriteten af dine data. Når du øger kvaliteten af dine data, øger du værdien af dine analytiske resultater.

SAS Datakvalitetsprogrammet understøtter en række forskellige datakvalitetsoperationer. Datakvalitetshandlingerne anvender foruddefinerede regler, der gælder for den specifikke kontekst af dine data (såsom navne eller gadeadresser). Eksempler på datakvalitet operationer omfatter casing, parsing, uklar matching og standardisering.

  • hjemmeside: https://www.sas.com/en_us/software/data-quality.html
  • C. Batini, C. Cappiello, C. Francalanci, A. Maurino, “metoder til vurdering og forbedring af datakvalitet,” ACM Computing Surveys (CSUR), vol. 41, s. 16, 2009.
  • D. McGilvray, ” ti trin til kvalitetsdata og pålidelige oplysninger,” mit Informationskvalitetsindustriens Symposium, 2008.
  • R. Y. V. A. D. M. Strong, “ud over nøjagtighed: hvad datakvalitet betyder for dataforbrugere,” Journal of management information systems, vol. 12, s.5-33, 1996.
  • Sidi Fatimah,Shariat Panahy, Payam Hassany, Lilly Suriani Affendey, Marsanah A. Jabar, Hamidah Ibrahim, Aida Mustapha, “datakvalitet: en undersøgelse af datakvalitetsdimensioner” i Proceedings — 2012 International Conference on Information Retrieval and vidensstyring, CAMP’12, 2012.
  • Hercog, Thomas N.,scheuren, f.j, vinkler, “Hvad er datakvalitet og hvorfor skal vi pleje,” Journal of Industrial Engineering and Management, vol. 4 (2), nr. 2.udgave, s. 1-9, 2016.
  • M. Rouse, “Vidensbase,” TechTarget, 3 2007. . Tilgængelig: https://searchcrm.techtarget.com/definition/knowledge-base. .
  • “Profilering Af Data”,. Tilgængelig: https://en.wikipedia.org/wiki/Data_profiling. .
  • “hvad er data Matching?, “Techopedia,. Tilgængelig: https://www.techopedia.com/definition/28041/data-matching. .
  • “IBM Information Server,” IBM,. Tilgængelig: https://www.ibm.com/analytics/information-server. .
  • “Bedste Datakvalitetsprogram,” G2cold, . Tilgængelig: https://www.g2crowd.com/categories/data-quality. .
  • “Oracle Virksomhed Datakvalitet,” Oracle, . Tilgængelig: http://www.oracle.com/us/products/middleware/data-integration/enterprise-data-quality/overview/index.html. .
  • “Datakvalitetstjenester,” Microsoft, 10 12 2013. . Tilgængelig: https://docs.microsoft.com/en-us/sql/data-quality-services/data-quality-services?Vis=Server-2017. .
  • “Datakvalitet,” Talend,. Tilgængelig: https://www.talend.com/products/data-quality/. .
  • “Trillium,” Syncsort, . Tilgængelig: http://www.syncsort.com/en/About/Trillium-Software. .
  • “SAS datakvalitet og Datakvalitetsserver,” SAS,. Tilgængelig: http://support.sas.com/software/products/dataqual/index.html.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.