Data Fabric: qué es y por qué te importa
TL;DR
- Data Fabric conecta datos donde están en vez de moverlos a un data warehouse central
- Ofrece: catálogo unificado, metadatos compartidos, políticas centralizadas, acceso uniforme
- En Azure: Purview + Synapse + Power BI Dataflows + Data Factory
- Útil si tienes decenas de fuentes y problemas de consistencia; overkill si tienes 3 fuentes
Data Fabric es una de esas buzzwords que aparecen en todos los informes de tendencias. Pero debajo del marketing hay algo real que merece la pena entender.
El problema que resuelve
Tienes datos en Excel, en SQL Server, en SharePoint, en un ERP, en APIs externas, en archivos CSV que alguien te manda por email. Cada fuente tiene su formato, su frecuencia de actualización, su lógica de negocio.
Tu trabajo es hacer que todo eso tenga sentido junto.
Tradicionalmente, la solución era ETL: extraer, transformar, cargar. Mover todo a un sitio central (data warehouse) y trabajar desde ahí. Funciona, pero tiene problemas: duplicación de datos, pipelines frágiles, y cada nueva fuente es un proyecto.
Qué propone Data Fabric
En vez de mover los datos a un sitio central, creas una capa de abstracción que los conecta donde están.
Piensa en ello como una red que une todas tus fuentes. Los datos no se mueven (o se mueven menos). Lo que tienes es:
- Catálogo unificado: sabes qué datos existen y dónde
- Metadatos compartidos: definiciones consistentes entre sistemas
- Políticas centralizadas: seguridad y gobernanza en un sitio
- Acceso uniforme: misma interfaz para consultar cualquier fuente
Cómo se relaciona con lo que ya usas
Si trabajas con Azure, ya tienes piezas de esto:
- Azure Purview (ahora Microsoft Purview): catálogo y gobernanza
- Synapse Analytics: conecta fuentes sin moverlas con vistas federadas
- Power BI Dataflows: transformaciones reutilizables entre informes
- Azure Data Factory: orquestación de pipelines
El concepto de Data Fabric es juntar todo esto con intención, no como piezas sueltas.
Ejemplo práctico
Imagina que tienes:
- Ventas en SQL Server
- Inventario en SAP
- Previsiones en Excel
- Datos de mercado en una API
Enfoque tradicional: ETL de todo a un data warehouse, pipelines de carga, transformaciones, mantenimiento constante.
Enfoque Data Fabric: Cada fuente se registra en el catálogo. Defines las relaciones semánticas (qué es un “producto” en cada sistema). Consultas federadas cuando necesitas combinar. Solo materializas lo que tiene sentido por rendimiento.
No es magia
Data Fabric no elimina la complejidad, la reorganiza. Sigues necesitando:
- Entender tus datos
- Definir modelos semánticos
- Gestionar calidad
- Optimizar rendimiento
Pero en vez de hacerlo pipeline por pipeline, lo haces una vez a nivel de arquitectura.
¿Merece la pena?
Depende de tu escala. Si tienes 3 fuentes de datos y un equipo pequeño, probablemente no. El overhead de montar la infraestructura no compensa.
Si tienes decenas de fuentes, múltiples equipos consumiendo datos, y problemas de consistencia entre informes… entonces sí empieza a tener sentido.
El mercado de Data Fabric se proyecta a $11,900 millones para 2034. No es humo. Pero tampoco es algo que necesites implementar mañana.
Resumen
Data Fabric es una arquitectura que conecta datos donde están en vez de moverlos a un sitio central. Usa catálogos, metadatos y políticas unificadas para que puedas trabajar con fuentes diversas como si fueran una sola.
No es una herramienta que compras. Es una forma de organizar las herramientas que ya tienes.
Si cada vez que alguien pide un dato nuevo tardas semanas en integrarlo, puede que sea el momento de pensar en esto.
¿Trabajas con Power BI? Lee qué es Power Query para entender cómo funciona la capa de transformación de datos.
El problema no siempre es la arquitectura. A veces es que el 90% de tus datos son basura.
También te puede interesar
Guía de Data Engineering: De Excel a Pipelines Profesionales
Qué es un Data Engineer, qué herramientas usa, cómo es el día a día real, y cómo empezar si vienes del mundo Excel/Power BI.
El 90% de tus datos son basura que nadie sabe procesar
Por qué las empresas compran IA sin tener los datos listos. El problema de la fontanería de datos.
Por qué dejé de ser 'el de los dashboards' y aprendí Data Engineering
La historia de cómo pasé de analista atascado haciendo informes a entender de verdad cómo funcionan los datos. Y por qué tú deberías planteártelo.