El 90% de tus datos son basura que nadie sabe procesar

· 4 min de lectura
Compartir:

TL;DR

  • 90% de tus datos son no estructurados (emails, PDFs, fotos, notas)
  • El 97% de empresas invierte en Big Data, solo el 40% lo usa bien
  • La IA necesita datos limpios; si no los tienes, te da basura con más confianza
  • Antes de comprar herramientas: inventario, pipelines básicos, una sola fuente de verdad

Los números

  • 181 zettabytes de datos generados en 2025
  • 90% son no estructurados
  • 97% de las empresas han invertido en Big Data
  • Solo 40% usa analytics efectivamente

Traduzco: casi todas las empresas tienen datos. Casi ninguna sabe qué hacer con ellos.

Qué significa “no estructurado”

Datos estructurados:

SELECT nombre, fecha, importe FROM ventas

Fácil. Una tabla. Columnas claras. SQL y listo.

Datos no estructurados:

  • Emails de clientes quejándose
  • PDFs de contratos escaneados
  • Mensajes de Slack del equipo
  • Grabaciones de llamadas
  • Fotos de productos en WhatsApp
  • Notas en post-its fotografiados

El 90% de los datos de tu empresa son esto. Y no caben en una tabla.

El problema real

Las empresas compran:

  • Licencias de Power BI
  • Subscripciones a Snowflake
  • Plataformas de “IA empresarial”

Y luego descubren que sus datos están en:

  • 47 Excel compartidos por email
  • Un Access de 2008 que “solo Juan sabe usar”
  • Carpetas de red con nombres como “FINAL_v3_BUENO_ESTE_SÍ”
  • El correo del CEO que nunca reenvía nada

No es un problema de herramientas. Es un problema de fontanería. Y este problema de fontanería explica en parte por qué hay 7 billones buscando retorno en IA sin encontrarlo.

Lo que veo como data engineer

El 80% de mi trabajo no es análisis. Es:

1. Encontrar dónde están los datos

  • “¿Quién tiene el histórico de ventas de 2019?”
  • “En un Excel que tenía María antes de irse”

2. Limpiar basura

  • Fechas en 15 formatos diferentes
  • “NULL”, “N/A”, ”-”, ” ”, “no aplica” → todo es lo mismo
  • Duplicados que nadie sabe si son duplicados o registros diferentes

3. Conectar sistemas que no hablan

  • El CRM no habla con el ERP
  • El ERP exporta CSV con encoding roto
  • Alguien tiene un script de Python que “lo arregla” pero nadie sabe dónde está

4. Convencer a la gente de que use el sistema

  • “Ya, pero yo lo tengo en mi Excel y me va bien”

Por qué la IA no te va a salvar

La fantasía:

“Metemos IA y analiza todos nuestros datos automáticamente”

La realidad:

La IA necesita datos limpios, estructurados y accesibles. Si no los tienes, la IA te va a dar basura con más confianza.

Garbage in, garbage out. Pero ahora con un chatbot que te dice que la basura es oro. Esto explica en parte por qué el 95% de empresas no ve resultados con IA: no es la herramienta, es la fontanería.

Qué hacer antes de comprar IA

1. Inventario de datos

¿Qué datos tienes? ¿Dónde están? ¿Quién los mantiene?

Si no puedes responder esto, no estás listo para IA.

2. Un solo origen de verdad

Por proceso. Por métrica. Un sitio donde está el dato bueno.

No “el Excel de Juan” vs “el reporte de María”.

3. Pipelines básicos

Extracción → Transformación → Carga. Lo básico. Sin glamour.

Si tus datos no fluyen, ninguna herramienta te va a ayudar.

4. Gobierno de datos

¿Quién decide qué es un “cliente activo”? ¿Quién aprueba cambios en las definiciones?

Sin esto, cada departamento tiene su propia verdad.

Conclusión

El 90% de tus datos son no estructurados.

El 97% de las empresas han invertido en Big Data.

Solo el 40% lo usa efectivamente.

La diferencia no es la herramienta. Es la fontanería.

Antes de comprar IA, asegúrate de que puedes responder: “¿Cuánto vendimos el mes pasado?” sin que tres personas te den tres números diferentes.

¿Te ha sido útil? Compártelo

Compartir:

También te puede interesar