Hay muchas definiciones de calidad de datos, en general, la calidad de datos es la evaluación de cuánto se pueden usar los datos y se ajusta a su contexto de servicio.
Muchos factores ayudan a medir la calidad de los datos, como:
- Consistencia de datos: Violación de las reglas semánticas definidas sobre el conjunto de datos. .
- Precisión de los datos: Los datos son precisos cuando los valores de datos almacenados en la base de datos corresponden a valores del mundo real.
- Unicidad de datos: Una medida de duplicación no deseada existente dentro o entre sistemas para un campo, registro o conjunto de datos en particular.
- Exhaustividad de los datos: El grado en que los valores están presentes en una recopilación de datos.
- Actualidad de los datos: La medida en que la edad de los datos se adapta a la tarea en cuestión.
Se pueden tener en cuenta otros factores, como la Disponibilidad, la Facilidad de manipulación, la Credibilidad y la Moneda.
¿Por qué es importante la Calidad de los Datos?
Mejorar la calidad de los datos es una preocupación crítica, ya que los datos se consideran el núcleo de todas las actividades dentro de las organizaciones, la mala calidad de los datos conduce a informes inexactos que resultarán en decisiones inexactas y seguramente daños económicos.
¿Cómo mejorar la Calidad de los Datos?
La mejora de la calidad de los datos se logra mediante:
- Personal de formación
- Implementación de soluciones de calidad de datos
3.1. Formación del personal
Antes de pensar en implementar soluciones de calidad de datos, primero debemos minimizar los problemas de calidad de datos resultantes de actividades humanas en la organización, como la entrada de datos. Además, todos los desarrolladores y administradores de bases de datos deben tener un buen conocimiento del proceso de negocio y deben consultar un esquema unificado al desarrollar y diseñar bases de datos y aplicaciones.
3.2. Implementación de soluciones de calidad de datos
La otra forma de mejorar la calidad de los datos es implementando soluciones de calidad de datos. Data quality solutions es un conjunto de herramientas o aplicaciones que realizan tareas de calidad como:
- Creación de una base de conocimientos: una base de conocimientos es un recurso legible por máquina para la difusión de información.
- Desduplicación de datos: Elimina la información duplicada basada en un conjunto de reglas semánticas.
- Limpieza de datos: Eliminación de caracteres y símbolos no deseados de los valores.
- Perfil de datos: es el proceso de examinar los datos disponibles de una fuente de información existente (p. ej. una base de datos o un archivo) y recopilar estadísticas o resúmenes informativos sobre esos datos.
- Coincidencia de datos: La coincidencia de datos describe los esfuerzos para comparar dos conjuntos de datos recopilados utilizando tecnologías como la vinculación de registros y la resolución de entidades.
Soluciones de calidad de datos populares
En esta sección, mostraré algunas de las soluciones de calidad de datos más populares del mercado.
4.1. IBM Infosphere information server
IBM InfoSphere ® Information Server es una plataforma de integración de datos líder en el mercado, que incluye una familia de productos que le permiten comprender, limpiar, supervisar, transformar y entregar datos, y colaborar para cerrar la brecha entre la empresa y la TI. InfoSphere Information Server proporciona capacidades de procesamiento en paralelo masivo (MPP) para ofrecer una plataforma de integración altamente escalable y flexible que maneja todos los volúmenes de datos, grandes y pequeños.
InfoSphere Information Server le ofrece la capacidad de satisfacer de manera flexible sus requisitos únicos de integración de información, desde la integración de datos hasta la calidad de los datos y la gobernanza de los datos, para entregar información confiable a sus iniciativas empresariales de misión crítica (como big data y análisis, modernización del almacén de datos, gestión de datos maestros y análisis de puntos de impacto).
- Página de inicio: https://www.ibm.com/analytics/information-server
4.2. Informatica Data Quality
Informatica Data Quality ofrece datos fiables a todas las partes interesadas, proyectos y dominios de datos para todas las aplicaciones empresariales locales o en la nube.
- Página de inicio: https://www.informatica.com/products/data-quality/informatica-data-quality.html
4.3. Oracle Data Quality
Oracle Enterprise Data Quality ofrece un enfoque completo y óptimo para los datos de productos y de las partes, lo que da como resultado datos maestros confiables que se integran con las aplicaciones para mejorar la información empresarial.
- Página de inicio: http://www.oracle.com/us/products/middleware/data-integration/enterprise-data-quality/overview/index.html
4.4. Microsoft Data Quality Services
SQL Server Data Quality Services (DQS) es un producto de calidad de datos basado en el conocimiento. DQS le permite crear una base de conocimientos y utilizarla para realizar una variedad de tareas críticas de calidad de datos, incluidas la corrección, el enriquecimiento, la estandarización y la deduplicación de sus datos. DQS le permite realizar una limpieza de datos mediante el uso de servicios de datos de referencia basados en la nube proporcionados por proveedores de datos de referencia. DQS también le proporciona perfiles integrados en sus tareas de calidad de datos, lo que le permite analizar la integridad de sus datos.
- Página de inicio: https://docs.microsoft.com/en-us/sql/data-quality-services/data-quality-services
4.5. Melissa Data Quality
Desde 1985, Melissa ha proporcionado herramientas de calidad de datos empresariales con amplias capacidades que incluyen perfiles y estandarización de datos, limpieza, enriquecimiento, vinculación y deduplicación. Nuestra misión es proporcionar a las organizaciones las mejores soluciones de su clase que proporcionen información confiable, confiable y precisa para una mayor comprensión.
- Página de inicio: https://www.melissa.com/uk/data/data-quality
4.6. Calidad de datos de Talend
La herramienta de calidad de datos empresariales de Talend perfila, limpia y enmascara los datos, a la vez que supervisa la calidad de los datos a lo largo del tiempo, en cualquier formato o tamaño. La duplicación, validación y estandarización de datos crea datos limpios para acceso, informes, análisis y operaciones. Enriquezca los datos con fuentes externas para validación postal, identificación de negocios, información de puntaje de crédito y más.
- Página de inicio: https://www.talend.com/products/data-quality/
4.7. Líder de software Syncsort Trillium
Trillium Cloud de Syncsort ofrece una solución de calidad de datos empresarial líder del sector con la facilidad de implementación y la flexibilidad operativa de un entorno colud seguro y reforzado administrado por Syncsort.
- Página de inicio: http://www.syncsort.com/en/About/Trillium-Software
4.8. Calidad de datos SAS
El software de calidad de datos SAS le permite mejorar la coherencia y la integridad de sus datos. Cuando aumenta la calidad de sus datos, aumenta el valor de sus resultados analíticos.
El software de calidad de datos SAS admite una variedad de operaciones de calidad de datos. Las operaciones de calidad de datos emplean reglas predefinidas que se aplican al contexto específico de sus datos (como nombres o direcciones). Ejemplos de operaciones de calidad de datos incluyen encapsulado, análisis, emparejamiento difuso y estandarización.
- Página de inicio: https://www.sas.com/en_us/software/data-quality.html
- C. Batini, C. Cappiello, C. Francalanci, A. Maurino, «Methodologies for data quality assessment and improvement,» ACM Computing Surveys (CSUR), vol. 41, p. 16, 2009.
- D. McGilvray, «Diez Pasos para Datos de Calidad e Información Confiable», Simposio de la Industria de Calidad de la Información del MIT, 2008.
- R. Y. W. a. D. M. Strong, «Beyond accuracy: What data quality means to data consumers,» Journal of management information systems, vol. 12, pp 5-33, 1996.
- Sidi Fatimah, Shariat Panahy, Payam Hassany, Lilly Suriani Affendey, Marzanah A. Jabar, Hamidah Ibrahim, Aida Mustapha,» Data quality: A survey of data quality dimensions, «in Proceedings-2012 International Conference on Information Retrieval and Knowledge Management, CAMP’ 12, 2012.
- Herzog, Thomas N.,scheuren, f.j, winkler, «What Is Data Quality and Why Should We Care,» Journal of Industrial Engineering and Management, vol. 4(2), no. 2ª edición, pp 1-9 de 2016.
- M. Rouse, «Knowledge Base», TechTarget, 3 2007. . Disponible: https://searchcrm.techtarget.com/definition/knowledge-base. .
- «Perfiles de datos», Wikipedia, . Disponible: https://en.wikipedia.org/wiki/Data_profiling. .
- » ¿Qué es la coincidencia de datos?, «Techopedia,. Disponible: https://www.techopedia.com/definition/28041/data-matching. .
- «Servidor de información de IBM», IBM,. Disponible: https://www.ibm.com/analytics/information-server. .
- «El mejor Software de Calidad de Datos», G2Crowd,. Disponible: https://www.g2crowd.com/categories/data-quality. .
- «Oracle Enterprise Data Quality», Oracle,. Disponible: http://www.oracle.com/us/products/middleware/data-integration/enterprise-data-quality/overview/index.html. .
- «Servicios de calidad de datos», Microsoft, 10 12 2013. . Disponible: https://docs.microsoft.com/en-us/sql/data-quality-services/data-quality-services?view = sql-server-2017. .
- «Calidad de datos», Talend,. Disponible: https://www.talend.com/products/data-quality/. .
- «Software Trillium,» Syncsort,. Disponible: http://www.syncsort.com/en/About/Trillium-Software. .
- «Calidad de Datos SAS y Servidor de Calidad de Datos», SAS,. Disponible: http://support.sas.com/software/products/dataqual/index.html.