Data-Centric AI: por qué más datos no significa mejores modelos

TL;DR

Data-Centric AI: mejorar datos > mejorar modelos (Andrew Ng)
Más datos puede ser peor: ruido acumulado, sesgos amplificados, coste innecesario
Las 3 C: Curación, Consistencia, Contextualización
Herramientas clave: Great Expectations, Evidently AI, DVC, Cleanlab
Un modelo simple con datos excelentes supera a un modelo complejo con datos mediocres

Durante años, la receta del éxito en machine learning parecía simple: consigue más datos, entrena modelos más grandes, obtén mejores resultados. Era la era del “big data lo soluciona todo”.

Esa era ha terminado.

El nuevo paradigma: Data-Centric AI

Andrew Ng, cofundador de Google Brain y Coursera, lleva años evangelizando este concepto. La idea central es provocadora: en lugar de obsesionarnos con arquitecturas de modelos cada vez más complejas, deberíamos invertir esa energía en mejorar la calidad de nuestros datos.

No es que los modelos no importen. Es que hemos llegado a un punto de rendimientos decrecientes. La diferencia entre un modelo bueno y uno excelente ya no está en añadir más capas o parámetros. Está en los datos que le damos.

Esto conecta directamente con algo que escribí sobre el problema de los datos basura en las empresas: el 90% de los datos son no estructurados y casi nadie sabe procesarlos.

Por qué más datos puede ser peor

Suena contraintuitivo, pero tiene sentido cuando lo piensas:

Ruido acumulado. Más datos implica más posibilidades de incluir ejemplos incorrectos, etiquetas erróneas, o casos edge que confunden al modelo. Un dataset de 1 millón de registros con 5% de errores tiene 50.000 problemas. Uno de 10 millones con el mismo porcentaje tiene 500.000.

Sesgos amplificados. Si tu fuente de datos tiene sesgos, escalar solo amplifica esos sesgos. No los diluye.

Coste computacional. Entrenar con datos innecesarios o redundantes es tirar dinero y energía. Literalmente.

Overfitting a patrones espurios. Con suficientes datos ruidosos, el modelo puede encontrar correlaciones que no existen en el mundo real.

Las tres C del Data-Centric AI

1. Curación

No todos los datos merecen entrar en tu dataset de entrenamiento. La curación implica seleccionar activamente qué incluir y qué descartar.

Esto requiere entender tu dominio. Un data scientist que no conoce el negocio no puede curar efectivamente. Es imposible distinguir señal de ruido sin contexto.

2. Consistencia

Las etiquetas inconsistentes son el asesino silencioso de los modelos de ML. Si dos anotadores etiquetan el mismo caso de forma diferente, estás introduciendo ruido que ningún modelo puede resolver.

La solución no es más datos. Es mejorar las guías de anotación, medir el acuerdo inter-anotador, y resolver ambigüedades antes de que lleguen al modelo.

3. Contextualización

Los datos sin contexto son peligrosos. ¿Ese pico en las ventas es real o es un error de sistema? ¿Esa anomalía en el sensor indica un problema o es un valor atípico legítimo?

Documentar el contexto de tus datos—cómo se recogieron, qué significan los campos, qué limitaciones tienen—es tan importante como los datos mismos.

Herramientas para implementar Data-Centric AI

Great Expectations: Framework open-source para validación de datos. Define “expectativas” sobre tus datos (esta columna nunca debe ser nula, este valor debe estar entre X e Y) y el sistema las verifica automáticamente.

Evidently AI: Monitorización de data drift y calidad de modelos en producción. Detecta cuando tus datos empiezan a divergir de lo esperado antes de que el modelo falle.

Label Studio: Plataforma de anotación que facilita la consistencia entre anotadores y permite iterar sobre guías de etiquetado.

DVC (Data Version Control): Git para datos. Versiona tus datasets igual que versionas código. Fundamental para reproducibilidad.

Cleanlab: Detecta automáticamente errores de etiquetado en tus datasets. Magia negra que funciona sorprendentemente bien.

Caso práctico: el 80/20 invertido

En proyectos tradicionales de ML, se asumía que el 80% del tiempo iba a preparación de datos y 20% a modelado. La realidad en muchos equipos era que ese 80% se dedicaba a limpiar datos “suficientemente bien” para pasar al modelado lo antes posible.

El enfoque Data-Centric invierte la prioridad: ese 80% debe dedicarse a mejorar genuinamente los datos, no a parcharlos. Un modelo simple con datos excelentes supera consistentemente a un modelo complejo con datos mediocres.

Implicaciones para data engineers

Si tu rol es construir pipelines de datos, esto te afecta directamente:

Los pipelines no son solo ETL. Deben incluir validación continua de calidad.
La observabilidad de datos es tan crítica como la observabilidad de aplicaciones.
Necesitas colaborar más estrechamente con científicos de datos y expertos de dominio.
El versionado de datos no es opcional.

Si quieres profundizar en estas prácticas, mi guía de data engineering cubre los fundamentos del rol.

El futuro es híbrido

Data-Centric AI no significa ignorar los avances en arquitecturas de modelos. Los LLMs, los transformers, las técnicas de fine-tuning… todo eso sigue siendo importante.

Pero el diferenciador competitivo real está cada vez más en quién tiene mejores datos, no en quién tiene el modelo más grande. Y mejorar datos es un problema de ingeniería, procesos y conocimiento de dominio. Exactamente donde los data engineers podemos aportar más valor.

¿Has implementado prácticas de Data-Centric AI en tu equipo? ¿Qué herramientas usas para validación de datos?