Data Fabric: qué es y por qué te importa

TL;DR

Data Fabric conecta datos donde están en vez de moverlos a un data warehouse central
Ofrece: catálogo unificado, metadatos compartidos, políticas centralizadas, acceso uniforme
En Azure: Purview + Synapse + Power BI Dataflows + Data Factory
Útil si tienes decenas de fuentes y problemas de consistencia; overkill si tienes 3 fuentes

Data Fabric es una de esas buzzwords que aparecen en todos los informes de tendencias. Pero debajo del marketing hay algo real que merece la pena entender.

El problema que resuelve

Tienes datos en Excel, en SQL Server, en SharePoint, en un ERP, en APIs externas, en archivos CSV que alguien te manda por email. Cada fuente tiene su formato, su frecuencia de actualización, su lógica de negocio.

Tu trabajo es hacer que todo eso tenga sentido junto.

Tradicionalmente, la solución era ETL: extraer, transformar, cargar. Mover todo a un sitio central (data warehouse) y trabajar desde ahí. Funciona, pero tiene problemas: duplicación de datos, pipelines frágiles, y cada nueva fuente es un proyecto.

Qué propone Data Fabric

En vez de mover los datos a un sitio central, creas una capa de abstracción que los conecta donde están.

Piensa en ello como una red que une todas tus fuentes. Los datos no se mueven (o se mueven menos). Lo que tienes es:

Catálogo unificado: sabes qué datos existen y dónde
Metadatos compartidos: definiciones consistentes entre sistemas
Políticas centralizadas: seguridad y gobernanza en un sitio
Acceso uniforme: misma interfaz para consultar cualquier fuente

Cómo se relaciona con lo que ya usas

Si trabajas con Azure, ya tienes piezas de esto:

Azure Purview (ahora Microsoft Purview): catálogo y gobernanza
Synapse Analytics: conecta fuentes sin moverlas con vistas federadas
Power BI Dataflows: transformaciones reutilizables entre informes
Azure Data Factory: orquestación de pipelines

El concepto de Data Fabric es juntar todo esto con intención, no como piezas sueltas.

Ejemplo práctico

Imagina que tienes:

Ventas en SQL Server
Inventario en SAP
Previsiones en Excel
Datos de mercado en una API

Enfoque tradicional: ETL de todo a un data warehouse, pipelines de carga, transformaciones, mantenimiento constante.

Enfoque Data Fabric: Cada fuente se registra en el catálogo. Defines las relaciones semánticas (qué es un “producto” en cada sistema). Consultas federadas cuando necesitas combinar. Solo materializas lo que tiene sentido por rendimiento.

No es magia

Data Fabric no elimina la complejidad, la reorganiza. Sigues necesitando:

Entender tus datos
Definir modelos semánticos
Gestionar calidad
Optimizar rendimiento

Pero en vez de hacerlo pipeline por pipeline, lo haces una vez a nivel de arquitectura.

¿Merece la pena?

Depende de tu escala. Si tienes 3 fuentes de datos y un equipo pequeño, probablemente no. El overhead de montar la infraestructura no compensa.

Si tienes decenas de fuentes, múltiples equipos consumiendo datos, y problemas de consistencia entre informes… entonces sí empieza a tener sentido.

El mercado de Data Fabric se proyecta a $11,900 millones para 2034. No es humo. Pero tampoco es algo que necesites implementar mañana.

Resumen

Data Fabric es una arquitectura que conecta datos donde están en vez de moverlos a un sitio central. Usa catálogos, metadatos y políticas unificadas para que puedas trabajar con fuentes diversas como si fueran una sola.

No es una herramienta que compras. Es una forma de organizar las herramientas que ya tienes.

Si cada vez que alguien pide un dato nuevo tardas semanas en integrarlo, puede que sea el momento de pensar en esto.

¿Trabajas con Power BI? Lee qué es Power Query para entender cómo funciona la capa de transformación de datos.

El problema no siempre es la arquitectura. A veces es que el 90% de tus datos son basura.

Data Fabric: qué es y por qué te importa

TL;DR

El problema que resuelve

Qué propone Data Fabric

Cómo se relaciona con lo que ya usas

Ejemplo práctico

No es magia

¿Merece la pena?

Resumen

También te puede interesar

Guía de Data Engineering: De Excel a Pipelines Profesionales

El 90% de tus datos son basura que nadie sabe procesar

Por qué dejé de ser 'el de los dashboards' y aprendí Data Engineering