introdução à Qualidade dos Dados

Referência: www.datapine.com/blog/data-quality-management-and-metrics/
Referência da Imagem: www.datapine.com

Existem muitas definições de qualidade de dados, em geral, a qualidade de dados é a avaliação de quanto o de dados é utilizável e se encaixa a sua servindo de contexto.

muitos fatores ajudam a medir a qualidade dos dados, como:

  • consistência dos dados: violação de regras semânticas definidas sobre o conjunto de dados. .
  • Precisão Dos Dados: Os dados são precisos quando os valores de dados armazenados no banco de dados correspondem a valores do mundo real.
  • singularidade de dados: uma medida de duplicação indesejada existente dentro ou entre sistemas para um determinado campo, registro ou conjunto de dados.
  • completude dos dados: o grau em que os valores estão presentes em uma coleta de dados.
  • Data Timeliness: até que ponto a idade dos dados é apropriada para a tarefa em questão.

outros fatores podem ser levados em consideração, como disponibilidade, facilidade de manipulação, credibilidade e moeda.

Por Que a qualidade dos dados é importante?Melhorar a qualidade dos dados é uma preocupação crítica, pois os dados são considerados como o núcleo de todas as atividades dentro das organizações, a má qualidade dos dados leva a relatórios imprecisos que resultarão em decisões imprecisas e certamente danos econômicos.

como melhorar a qualidade dos dados?

a melhoria da qualidade dos dados é alcançada por:

  1. Equipe de treinamento
  2. implementando soluções de qualidade de dados

3.1. Antes de pensar em implementar soluções de qualidade de dados, primeiro devemos minimizar os problemas de qualidade de dados resultantes de atividades humanas na organização, como a entrada de dados. Além disso, todos os desenvolvedores e administradores de banco de dados devem ter um bom conhecimento do processo de negócios e devem se referir a um esquema unificado ao desenvolver e projetar bancos de dados e aplicativos.

3.2. Implementando soluções de qualidade de dados

a outra maneira de melhorar a qualidade dos dados é implementando soluções de qualidade de dados. Soluções de qualidade de dados é um conjunto de ferramentas ou aplicativos que executam tarefas de qualidade, como:

  • criação de Base de conhecimento: uma base de conhecimento é um recurso legível por máquina para a disseminação de informações.
  • de-duplicação de dados: remova informações duplicadas com base em um conjunto de regras semânticas.
  • limpeza de dados: Remoção de caracteres e símbolos indesejados de valores.
  • perfil de dados: é o processo de examinar os dados disponíveis a partir de uma fonte de informação existente (por exemplo, um banco de dados ou um arquivo) e coleta de estatísticas ou resumos informativos sobre esses dados.
  • correspondência de dados: a correspondência de dados descreve os esforços para comparar dois conjuntos de dados coletados usando tecnologias como ligação de registro e resolução de entidade.

soluções populares de qualidade de dados

nesta seção, mostrarei algumas das soluções de qualidade de dados mais populares do mercado.

4.1. O IBM Infosphere information server

IBM InfoSphere® Information Server é um líder de mercado, a plataforma de integração de dados, que inclui uma família de produtos que permitem compreender, limpar, monitor, transformar e fornecer dados e colaborar para preencher a lacuna entre negócio e TI. O InfoSphere Information Server fornece recursos de processamento massivamente paralelo (MPP) para fornecer uma plataforma de integração altamente escalável e flexível que lida com todos os volumes de dados, grandes e pequenos.

o InfoSphere Information Server oferece a você a capacidade de atender com flexibilidade aos seus requisitos exclusivos de integração de informações — desde a integração de dados até a qualidade de dados e a governança de dados — para fornecer informações confiáveis às suas iniciativas de negócios de missão crítica (como big data e analytics, modernização do data warehouse, gerenciamento de dados mestre e análise de ponto de impacto).

  • página inicial: https://www.ibm.com/analytics/information-server

4.2. Informatica Data Quality

a Informatica Data Quality fornece dados confiáveis para todas as partes interessadas, projetos e domínios de dados para todos os aplicativos de negócios no local ou na nuvem.

  • página inicial: https://www.informatica.com/products/data-quality/informatica-data-quality.html

4.3. Oracle Data Quality

A Oracle Enterprise Data Quality oferece uma abordagem completa e inovadora para dados de Partes e produtos, resultando em dados mestres confiáveis que se integram a aplicativos para melhorar a visão de negócios.

  • página inicial: http://www.oracle.com/us/products/middleware/data-integration/enterprise-data-quality/overview/index.html

4.4. Microsoft Data Quality Services

SQL Server Data Quality Services (DQS) é um produto de qualidade de dados orientado pelo conhecimento. O DQS permite que você crie uma base de conhecimento e a use para executar uma variedade de tarefas críticas de qualidade de dados, incluindo correção, enriquecimento, padronização e desduplicação de seus dados. O DQS permite que você execute a limpeza de dados usando serviços de dados de referência baseados em nuvem fornecidos por provedores de dados de referência. O DQS também fornece perfis integrados às suas tarefas de qualidade de dados, permitindo que você analise a integridade de seus dados.

  • página inicial: https://docs.microsoft.com/en-us/sql/data-quality-services/data-quality-services

4.5. Melissa Data Quality

desde 1985, a Melissa fornece ferramentas de qualidade de dados corporativos com amplos recursos, incluindo perfil e padronização de dados, Limpeza, enriquecimento, vinculação e desdupção. Nossa missão é fornecer às organizações as melhores soluções que fornecem informações confiáveis, confiáveis e precisas para uma maior percepção.

  • página inicial: https://www.melissa.com/uk/data/data-quality

4.6. Talend Data Quality

a Ferramenta de qualidade de Dados Corporativos da Talend perfila, limpa e mascara dados, enquanto monitora a qualidade dos dados ao longo do tempo, em qualquer formato ou tamanho. A desduplicação, validação e padronização de dados cria dados limpos para acesso, relatórios, análises e operações. Enriquecer dados com fontes externas para validação postal, identificação de negócios, informações de pontuação de crédito e muito mais.

  • página inicial: https://www.talend.com/products/data-quality/

4.7. Syncsort Trillium software Lead

a Trillium Cloud da Syncsort oferece uma solução de qualidade de dados corporativos líder do setor com a facilidade de implantação e flexibilidade operacional de um ambiente de colud seguro e endurecido administrado pela Syncsort.

  • página inicial: http://www.syncsort.com/en/About/Trillium-Software

4.8. SAS Data Quality

o software SAS Data Quality permite melhorar a consistência e a integridade dos seus dados. Quando você aumenta a qualidade de seus dados, você aumenta o valor de seus resultados analíticos.

o software SAS Data Quality suporta uma variedade de operações de qualidade de dados. As operações de qualidade de dados empregam regras predefinidas que se aplicam ao contexto específico de seus dados (como nomes ou endereços). Exemplos de operações de qualidade de dados incluem embalagem, análise, correspondência difusa e padronização.

  • página inicial: https://www.sas.com/en_us/software/data-quality.html
  • C. Batini, C. Cappiello, C. Francalanci, A. Maurino, “Metodologias para a avaliação da qualidade dos dados e a melhoria,” ACM Computing Surveys (CSUR), vol. 41, p. 16, 2009.
  • D. McGilvray, “Dez Passos para dados de qualidade e informações confiáveis”, mit information Quality Industry Symposium, 2008.
  • R. Y. W. A. D. M. Strong, “Beyond accuracy: what data quality means to data consumers”, Journal of management information systems, vol. 12, pp. 5-33, 1996.Sidi Fatimah, Shariat Panahy, Payam Hassany, Lilly Suriani Affendey, Marzanah A. Jabar, Hamidah Ibrahim, Aida Mustapha,” Data quality: A survey of data quality dimensions, “in Proceedings-2012 International Conference on Information Retrieval and Knowledge Management, CAMP’12, 2012.Herzog, Thomas N., scheuren, F. j, winkler, “o que é a qualidade dos dados e por que devemos nos importar”, Journal of Industrial Engineering and Management, vol. 4 (2), no.2nd edition, pp. 1-9, 2016.
  • M. Rouse, “Base De Conhecimento”, TechTarget, 3 2007. . Disponível: https://searchcrm.techtarget.com/definition/knowledge-base. .
  • “Perfil De Dados”, Wikipedia, . Disponível: https://en.wikipedia.org/wiki/Data_profiling. .
  • “o que corresponde aos dados?, “Techopedia, . Disponível: https://www.techopedia.com/definition/28041/data-matching. .
  • “IBM Information Server”, IBM, . Disponível: https://www.ibm.com/analytics/information-server. .
  • “Melhor Software De Qualidade De Dados”, G2Crowd, . Disponível: https://www.g2crowd.com/categories/data-quality. .
  • “Oracle Enterprise Data Quality,” Oracle, . Disponível: http://www.oracle.com/us/products/middleware/data-integration/enterprise-data-quality/overview/index.html. .
  • “Serviços De Qualidade De Dados”, Microsoft, 10 12 2013. . Disponível: https://docs.microsoft.com/en-us/sql/data-quality-services/data-quality-services?ver = sql-server-2017. .
  • “Qualidade Dos Dados”, Talend,. Disponível: https://www.talend.com/products/data-quality/. .
  • “Trillium Software”, Syncsort, . Disponível: http://www.syncsort.com/en/About/Trillium-Software. .
  • “SAS Data Quality and Data Quality Server,” SAS, . Disponível: http://support.sas.com/software/products/dataqual/index.html.

Deixe uma resposta

O seu endereço de email não será publicado.