er zijn veel definities van gegevenskwaliteit, in het algemeen is de gegevenskwaliteit de beoordeling van de mate waarin de gegevens bruikbaar zijn en passen in de serving context.
veel factoren helpen de gegevenskwaliteit te meten, zoals:
- consistentie van gegevens: schending van semantische regels die over de dataset zijn gedefinieerd. .
- Nauwkeurigheid Van Gegevens: Gegevens zijn accuraat wanneer gegevenswaarden die in de database zijn opgeslagen overeenkomen met echte waarden.
- uniciteit van gegevens: een maatstaf voor ongewenste duplicatie binnen of tussen systemen voor een bepaald veld, record of gegevensverzameling.
- volledigheid van de gegevens: de mate waarin waarden aanwezig zijn in een gegevensverzameling.
- tijdigheid van de gegevens: de mate waarin de leeftijd van de gegevens voor de betrokken taak is toegerekend.
andere factoren kunnen in aanmerking worden genomen, zoals beschikbaarheid, gemak van manipulatie, geloofwaardigheid en valuta.
Waarom is de kwaliteit van de gegevens belangrijk?
het verbeteren van de kwaliteit van de gegevens is een kritische zorg, aangezien gegevens worden beschouwd als de kern van alle activiteiten binnen organisaties, slechte kwaliteit van de gegevens leidt tot onjuiste rapportage, wat zal leiden tot onjuiste beslissingen en zeker economische schade.
Hoe kan de kwaliteit van de gegevens worden verbeterd?
verbetering van de gegevenskwaliteit wordt bereikt door:
- opleiding van personeel
- implementatie van oplossingen voor gegevenskwaliteit
3.1. Training personeel
alvorens na te denken over het implementeren van oplossingen voor gegevenskwaliteit, moeten we eerst de problemen met de gegevenskwaliteit als gevolg van menselijke activiteiten in de organisatie, zoals het invoeren van gegevens, tot een minimum beperken. Ook moeten alle ontwikkelaars en databasebeheerders een goede kennis hebben van het bedrijfsproces en moeten verwijzen naar een uniform schema bij het ontwikkelen en ontwerpen van databases en applicaties.
3.2. Implementing data quality solutions
de andere manier om data quality te verbeteren is door het implementeren van data quality solutions. Data quality solutions is een set van tools of applicatie die kwaliteit taken uit te voeren, zoals:
- Kennisbasis creëren: een kennisbasis is een machineleesbare bron voor de verspreiding van informatie.
- duplicatie van gegevens: Verwijder dubbele informatie op basis van een reeks semantische regels.
- gegevensreiniging: ongewenste tekens en symbolen uit waarden verwijderen.
- gegevensprofilering: is het proces van het onderzoeken van de beschikbare gegevens uit een bestaande informatiebron (bv. een database of een bestand) en het verzamelen van statistieken of informatieve samenvattingen over die gegevens.
- gegevensvergelijking: gegevensvergelijking beschrijft inspanningen om twee reeksen verzamelde gegevens te vergelijken met behulp van technologieën zoals Recordkoppeling en Entity resolution.
populaire oplossingen voor gegevenskwaliteit
In deze sectie zal ik enkele van de meest populaire oplossingen voor gegevenskwaliteit op de markt tonen.
4.1. IBM Infosphere information server
IBM InfoSphere ® Information Server is een marktleider data-integratieplatform, dat een reeks producten omvat die u in staat stellen om gegevens te begrijpen, te reinigen, te monitoren, te transformeren en te leveren, en om samen te werken om de kloof tussen business en IT te overbruggen. InfoSphere Information Server biedt massively parallel processing (MPP) mogelijkheden om een zeer schaalbaar en flexibel integratieplatform te leveren dat alle gegevensvolumes, groot en klein, verwerkt.
InfoSphere Information Server biedt u de mogelijkheid om flexibel te voldoen aan uw unieke vereisten voor informatie — integratie — van data-integratie tot data-kwaliteit en data-governance-om betrouwbare informatie te leveren aan uw bedrijfskritische initiatieven (zoals big data en analytics, modernisering van datawarehouse, master data management en point-of-impact analytics).
- Homepage: https://www.ibm.com/analytics/information-server
4.2. Informatica Data Quality
Informatica Data Quality levert betrouwbare data aan alle stakeholders, projecten en data domeinen voor alle zakelijke applicaties op locatie of in de cloud.
- Homepage: https://www.informatica.com/products/data-quality/informatica-data-quality.html
4.3. Oracle Data Quality
Oracle Enterprise Data Quality levert een complete, best-of-breed benadering van partij-en productgegevens, wat resulteert in betrouwbare stamgegevens die worden geïntegreerd met applicaties om het bedrijfsinzicht te verbeteren.
- Homepage: http://www.oracle.com/us/products/middleware/data-integration/enterprise-data-quality/overview/index.html
4.4. Microsoft Data Quality Services
SQL Server Data Quality Services (DQS) is een op kennis gebaseerd product voor gegevenskwaliteit. DQS stelt u in staat om een kennisbank op te bouwen en deze te gebruiken om een verscheidenheid aan kritieke gegevenskwaliteitstaken uit te voeren, waaronder correctie, verrijking, standaardisatie en de-duplicatie van uw gegevens. DQS stelt u in staat om gegevens te reinigen met behulp van cloud-gebaseerde referentiegegevens services die worden geleverd door referentiegegevens providers. DQS biedt u ook profilering die is geïntegreerd in de taken voor gegevenskwaliteit, zodat u de integriteit van uw gegevens kunt analyseren.
- Homepage: https://docs.microsoft.com/en-us/sql/data-quality-services/data-quality-services
4.5. Melissa Data Quality
sinds 1985 biedt Melissa tools voor de kwaliteit van bedrijfsgegevens met brede mogelijkheden, waaronder dataprofilering en standaardisatie, reiniging, verrijken, koppelen en dedupen. Onze missie is om organisaties te voorzien van de beste oplossingen die betrouwbare, betrouwbare, nauwkeurige informatie leveren voor meer inzicht.
- Homepage: https://www.melissa.com/uk/data/data-quality
4.6. Talend Data Quality
Talend ‘ s enterprise data quality tool profielen, reinigt en maskeert gegevens, terwijl het bewaken van de kwaliteit van de gegevens in de loop van de tijd, in elk formaat of grootte. Data de-duplicatie, validatie en standaardisatie creëert schone gegevens voor toegang, rapportage, analyse en operaties. Verrijk gegevens met externe bronnen voor postvalidatie, Bedrijfsidentificatie, credit score-informatie en meer.
- Homepage: https://www.talend.com/products/data-quality/
4.7. Syncsort Trillium Software Lead
Syncsort ‘ s Trillium Cloud levert een toonaangevende oplossing voor bedrijfsdatakwaliteit met het implementatiegemak en operationele flexibiliteit van een door Syncsort beheerde geharde, veilige colud-omgeving.
- Homepage: http://www.syncsort.com/en/About/Trillium-Software
4.8. SAS Data Quality
met de SAS Data Quality software kunt u de consistentie en integriteit van uw gegevens verbeteren. Wanneer u de kwaliteit van uw gegevens verhoogt, verhoogt u de waarde van uw analyseresultaten.
de SAS-software voor gegevenskwaliteit ondersteunt een verscheidenheid aan bewerkingen voor gegevenskwaliteit. De bewerkingen voor gegevenskwaliteit maken gebruik van vooraf gedefinieerde regels die van toepassing zijn op de specifieke context van uw gegevens (zoals namen of straatadressen). Voorbeelden van data kwaliteit operaties zijn behuizing, parsing, fuzzy matching, en standaardisatie.
- Homepage: https://www.sas.com/en_us/software/data-quality.html
- C. Batini, C. Cappiello, C. Francalanci, A. Maurino,” Methodologies for data quality assessment and improvement, ” ACM Computing Surveys (CSUR), vol. 41, blz. 16, 2009.
- D. McGilvray,” Ten Steps to Quality Data and Trusted Information, ” mit Information Quality Industry Symposium, 2008.R. Y. W. a. D. M. Strong, “Beyond accuracy: What data quality means to data consumers,” Journal of management information systems, vol. 12, pp. 5-33, 1996.Sidi Fatimah, Shariat Panahy, Payam Hassany, Lilly Suriani Affendey, Marzanah A. Jabar, Hamidah Ibrahim, Aida Mustapha,” Data quality: a survey of data quality dimensions, “in Proceedings-2012 International Conference on Information Retrieval and Knowledge Management, CAMP’ 12, 2012.Herzog, Thomas N., scheuren, f. j, winkler, “What Is Data Quality and Why Should We Care,” Journal of Industrial Engineering and Management, vol. 4 (2), nr. 2nd edition, PP. 1-9, 2016.
- M. Rouse, “Knowledge Base,” TechTarget, 3 2007. . Beschikbaar: https://searchcrm.techtarget.com/definition/knowledge-base. .
- “Data Profiling,” Wikipedia,. Beschikbaar: https://en.wikipedia.org/wiki/Data_profiling. .
- ” Wat is Datavergelijking?”Techopedia,. Beschikbaar: https://www.techopedia.com/definition/28041/data-matching. .
- “IBM Information Server,” IBM,. Beschikbaar: https://www.ibm.com/analytics/information-server. .
- ” Best Data Quality Software, ” G2Crowd, . Beschikbaar: https://www.g2crowd.com/categories/data-quality. .
- ” Oracle Enterprise Data Quality, ” Oracle, . Beschikbaar: http://www.oracle.com/us/products/middleware/data-integration/enterprise-data-quality/overview/index.html. .
- “Data Quality Services,” Microsoft, 10 12 2013. . Beschikbaar: https://docs.microsoft.com/en-us/sql/data-quality-services/data-quality-services?view = sql-server-2017. .
- “Data Quality,” Talend,. Beschikbaar: https://www.talend.com/products/data-quality/. .
- “Trillium Software,” Syncsort,. Beschikbaar: http://www.syncsort.com/en/About/Trillium-Software. .
- “SAS Data Quality and Data Quality Server,” SAS, . Beschikbaar: http://support.sas.com/software/products/dataqual/index.html.