Definición de arquitectura de datos
La arquitectura de datos describe la estructura de los activos de datos lógicos y físicos y los recursos de administración de datos de una organización, de acuerdo con
. Es una rama de la arquitectura empresarial que comprende los modelos, las políticas, las reglas y los estándares que rigen la recopilación, el almacenamiento, la organización, la integración y el uso de datos en las organizaciones. La arquitectura de datos de una organización es competencia de
.
Objetivos de la arquitectura de datos
El objetivo de la arquitectura de datos es traducir las necesidades del negocio en requisitos de datos y del sistema y gestionar los datos y su flujo a través de la empresa.
Principios de arquitectura de datos
, vicepresidente de gestión de productos, productos básicos, en Splunk, y anteriormente vicepresidente de gestión de productos en AtScale, seis principios forman la base de los datos modernos arquitectura:
- Los datos son un activo compartido. Una arquitectura de datos moderna necesita eliminar los silos de datos departamentales y ofrecer a todas las partes interesadas una visión completa de la empresa.
- Los usuarios requieren un acceso adecuado a los datos. Además de descomponer los silos, las arquitecturas de datos modernas deben proporcionar interfaces que faciliten a los usuarios el consumo de datos utilizando herramientas adecuadas para sus trabajos.
- La seguridad es esencial. Las arquitecturas de datos modernas deben diseñarse para la seguridad y deben admitir políticas de datos y controles de acceso directamente en los datos sin procesar.
- Los vocabularios comunes garantizan una comprensión común. Los activos de datos compartidos, como catálogos de productos, dimensiones de calendario fiscal y definiciones de KPI, requieren un vocabulario común para ayudar a evitar disputas durante el análisis.
- Los datos deben curarse. Invierta en funciones básicas que realizan la curación de datos (modelado de relaciones importantes, limpieza de datos en bruto y curación de dimensiones y medidas clave).
- Los flujos de datos deben optimizarse para mayor agilidad. Reduzca el número de veces que se deben mover los datos para reducir costos, aumentar la frescura de los datos y optimizar la agilidad empresarial.
Componentes de arquitectura de datos
dice que la arquitectura de datos se puede sintetizar en tres componentes generales:
- Resultados de arquitectura de datos. Estos son los modelos, definiciones y flujos de datos a menudo se conoce como arquitectura de datos artefactos.
- Actividades de arquitectura de datos. Estos son los formularios, despliegues y cumplimientos de las intenciones de la arquitectura de datos.
- Comportamientos de arquitectura de datos. Estas son las colaboraciones, las mentalidades y las habilidades de los diversos roles que afectan a la arquitectura de datos de una empresa.
arquitectura de Datos vs modelado de datos
De acuerdo con
, la arquitectura de datos define el plan para administrar activos de datos alineándose con la estrategia organizacional para establecer requisitos de datos estratégicos y diseños para cumplir con esos requisitos. Por otro lado, DMBOK 2 define el modelado de datos como «el proceso de descubrir, analizar, representar y comunicar los requisitos de datos en una forma precisa llamada modelo de datos.»
Mientras que tanto la arquitectura de datos como el modelado de datos buscan cerrar la brecha entre los objetivos de negocio y la tecnología, la arquitectura de datos se trata de la visión macro que busca comprender y respaldar las relaciones entre las funciones, la tecnología y los tipos de datos de una organización. El modelado de datos tiene una visión más enfocada de sistemas específicos o casos de negocio.
Marcos de arquitectura de datos
Hay varios marcos de arquitectura empresarial que comúnmente sirven como la base para crear el marco de arquitectura de datos de una organización.
-
{{#url}}DAMA-DMBOK 2 {{url}}{{^url}}DAMA-DMBOK 2 {{url}}
. El Cuerpo de Conocimiento de Gestión de Datos de DAMA International es un marco específico para la gestión de datos. Proporciona definiciones estándar para funciones de gestión de datos, entregables, roles y otra terminología, y presenta principios rectores para la gestión de datos.
-
{{#url}} Zachman Framework for Enterprise Architecture {{/url}} {{^url}} Zachman Framework for Enterprise Architecture {{/url}}
. El
{{#url}} Zachman Framework {{/url}} {{^url}} Zachman Framework {{/url}}es una ontología empresarial creada por John Zachman en IBM en la década de 1980.La columna «datos» del marco Zachman comprende múltiples capas, incluidos estándares arquitectónicos importantes para el negocio, un modelo semántico o modelo de datos conceptual/empresarial, un modelo de datos empresarial/lógico, un modelo de datos físicos y bases de datos reales.
-
{{#url}}The Open Group Architecture Framework (TOGAF) {{url}}{{^url}}The Open Group Architecture Framework (TOGAF) {{url}}
. TOGAF es una metodología de arquitectura empresarial que ofrece un marco de alto nivel
{{#url}} {{/url}}{{^url}} marco de alto nivel{{/url}}para el desarrollo de software empresarial. La fase C de TOGAF cubre el desarrollo de una arquitectura de datos y la construcción de una hoja de ruta de arquitectura de datos.
Características de la arquitectura de datos moderna
Las arquitecturas de datos modernas deben diseñarse para aprovechar las tecnologías emergentes, como la inteligencia artificial (IA), la automatización, el Internet de las cosas (IoT) y la cadena de bloques. Dan Sutherland, ingeniero distinguido y CTO, plataformas de datos, en IBM, dice que
común:
- Nativo de la nube. Las arquitecturas de datos modernas están diseñadas para admitir escalado elástico, alta disponibilidad, seguridad de extremo a extremo para datos en movimiento y datos en reposo, y escalabilidad de costos y rendimiento.
- Canalizaciones de datos escalables. Para aprovechar las tecnologías emergentes, las arquitecturas de datos admiten streaming de datos en tiempo real y ráfagas de datos de micro lotes.
- Integración de datos sin fisuras. Las arquitecturas de datos se integran con aplicaciones heredadas mediante interfaces API estándar. Están optimizados para compartir datos entre sistemas, geografías y organizaciones.
- Habilitación de datos en tiempo real. Las arquitecturas de datos modernas admiten la capacidad de implementar validación, clasificación, gestión y gobernanza de datos automatizados y activos.
- Desacoplado y extensible. Las arquitecturas de datos modernas están diseñadas para acoplarse libremente, lo que permite a los servicios realizar tareas mínimas independientes de otros servicios.
arquitectura de Datos funciones
Aquí están algunos de los más populares títulos de trabajo relacionados con la arquitectura de datos y el salario promedio para cada posición, de acuerdo a datos de
:
-
{{#url}}Datos de arquitecto {{url}}{{^url}}Datos de arquitecto {{url}}
: $76K-$155 MIL
- administrador de Proyecto: $56K-$128 K
- arquitecto de Soluciones: $74K-$159K
-
{{#url}}Data engineer{{/url}}{{^url}}Data engineer{{/url}}
: $65K-$132K
-
{{#url}}Data analyst{{/url}}{{^url}}Data analyst{{/url}}
: $43K-$85K
-
{{#url}}Data scientist{{/url}}{{^url}}Data scientist{{/url}}
: $67K-$134K