World Models: la IA que predice el mundo físico
TL;DR
- World Models predicen estados físicos del mundo, no palabras (como los LLMs)
- V-JEPA aprende de video: oculta partes y predice representaciones abstractas, no píxeles
- Resultados: state of the art en anticipación de acciones, desplegado en robots reales
- La apuesta de LeCun: combinar LLMs (lenguaje) con World Models (física) para AGI
El problema de los LLMs
Los modelos de lenguaje actuales (GPT, Claude, Llama) hacen una cosa muy bien: predecir la siguiente palabra.
Input: "El cielo es..."
Output: "azul" (probabilidad alta)
Funcionan. Impresionan. Pero tienen un problema fundamental: no entienden el mundo físico.
Si le preguntas a un LLM “¿qué pasa si suelto una pelota?”, sabe que “cae” porque ha leído millones de textos que lo dicen. No porque entienda la gravedad.
Yann LeCun lo resume así:
“Un gato doméstico tiene más sentido común que GPT-4.”
Un gato sabe que si empuja un vaso, cae. No porque haya leído sobre física. Porque ha visto cosas caer.
Qué es un World Model
Un World Model es un sistema de IA que construye una representación interna de cómo funciona el mundo físico.
En vez de predecir palabras, predice estados del mundo:
| LLM | World Model |
|---|---|
| ”¿Qué palabra viene después?" | "¿Qué pasa después en este video?” |
| Aprende de texto | Aprende de video/imágenes |
| Predice tokens | Predice estados físicos |
| Entiende lenguaje | Entiende causalidad |
La idea no es nueva. En 2018, Ha y Schmidhuber publicaron “World Models”, donde una IA aprendía a jugar videojuegos construyendo un modelo interno del juego.
Lo nuevo es aplicarlo a escala con video real del mundo.
V-JEPA: el World Model de Meta
V-JEPA (Video Joint Embedding Predictive Architecture) es el World Model que LeCun desarrolló en Meta antes de irse.
Cómo funciona
1. Toma video como input
No texto. Video real del mundo físico: gente caminando, objetos cayendo, manos manipulando cosas.
2. Divide el video en “parches”
Como un transformer divide texto en tokens, V-JEPA divide frames en parches espaciotemporales llamados “tubelets”.
3. Oculta partes del video
Literalmente tapa regiones del video. “No puedes ver qué pasa aquí.”
4. Predice las partes ocultas
Pero NO predice los píxeles exactos. Predice una representación abstracta de lo que debería haber.
Video: [persona levanta brazo] [███████] [brazo arriba]
↑
¿Qué debería haber aquí?
V-JEPA predice: "movimiento de brazo hacia arriba"
(no los píxeles exactos, sino el concepto)
Por qué representaciones y no píxeles
Aquí está el truco clave.
Predecir píxeles es inútil:
- El mundo tiene detalles impredecibles (hojas moviéndose, reflejos, ruido)
- Forzar al modelo a predecir esos detalles desperdicia capacidad
- Resultados borrosos que no sirven para nada
Predecir representaciones abstractas:
- El modelo aprende estructura y causalidad
- Ignora detalles irrelevantes
- Captura “qué está pasando”, no “cómo se ve exactamente”
Es como la diferencia entre:
- “La pelota bajó 2.3 metros en 0.7 segundos” (píxeles)
- “La pelota cayó” (representación abstracta)
La arquitectura JEPA
JEPA = Joint Embedding Predictive Architecture
┌─────────────────────────────────────────────┐
│ │
│ Video Input │
│ │ │
│ ▼ │
│ ┌───────┐ ┌───────┐ │
│ │Encoder│ │Encoder│ (mismo encoder) │
│ └───┬───┘ └───┬───┘ │
│ │ │ │
│ ▼ ▼ │
│ ┌───────┐ ┌───────┐ │
│ │Context│ │ Target│ (partes ocultas)│
│ │Embeddings│ │Embeddings│ │
│ └───┬───┘ └───────┘ │
│ │ ▲ │
│ ▼ │ │
│ ┌───────┐ │ │
│ │Predictor│───────┘ │
│ └───────┘ │
│ │
│ Objetivo: que la predicción │
│ coincida con el target │
└─────────────────────────────────────────────┘
Encoder: Convierte video en representaciones abstractas Predictor: Dado el contexto, predice las representaciones de las partes ocultas Objetivo: Que la predicción coincida con la representación real
V-JEPA 2: resultados
Meta publicó V-JEPA 2 en 2025. Los resultados:
Entrenamiento:
- 1 millón de horas de video de internet
- 1 millón de imágenes
- Sin etiquetas humanas (self-supervised)
Benchmarks:
- 77.3% en Something-Something v2 (entender acciones)
- 39.7% en Epic-Kitchens-100 (anticipar acciones) - state of the art
- 84.0% en PerceptionTest (video QA) - state of the art a 8B
Robótica:
- Entrenado con solo 62 horas de video de robots
- Desplegado en brazos robóticos reales
- Capaz de pick-and-place sin entrenamiento específico
El modelo nunca vio esos robots ni esos objetos. Pero entiende física lo suficiente para planificar acciones.
Por qué importa para robótica
Los robots actuales se programan con reglas explícitas:
if objeto_detectado:
mover_brazo(x, y, z)
cerrar_pinza()
levantar()
Esto es frágil. Cualquier variación rompe el sistema.
Con World Models, el robot puede:
- Ver la situación
- Imaginar qué pasa si hace diferentes acciones
- Elegir la acción que lleva al estado deseado
No necesita reglas explícitas. Entiende causa y efecto.
Las limitaciones (todavía)
V-JEPA 2 funciona bien para:
- Videos cortos (hasta ~10 segundos)
- Acciones simples (pick and place)
- Entornos controlados
Todavía no puede:
- Planificar a largo plazo (minutos, horas)
- Razonar sobre situaciones completamente nuevas
- Combinar lenguaje y video de forma fluida
LeCun estima que faltan “unos pocos años” para versiones completas.
AMI Labs: el siguiente paso
La startup de LeCun, AMI Labs, continuará este trabajo fuera de Meta.
Objetivos:
- Sistemas que entienden el mundo físico
- Memoria persistente (recordar contexto largo)
- Planificación de acciones complejas
- Razonamiento causal
“El objetivo es traer la próxima gran revolución en IA: sistemas que entiendan el mundo físico, tengan memoria persistente, puedan razonar y planificar secuencias de acciones complejas.”
Mi opinión
Los World Models son una apuesta arriesgada contra el consenso actual.
El consenso dice: “escala LLMs, añade más datos, añade más compute, eventualmente emergerá inteligencia”. Este es el enfoque que ha llevado a la burbuja de 7 billones en IA.
LeCun dice: “no, necesitas una arquitectura diferente que entienda el mundo físico”.
¿Quién tiene razón? Probablemente ambos tienen parte de razón:
- Los LLMs son brutales para lenguaje y conocimiento
- Los World Models podrían ser brutales para física y planificación
- El futuro probablemente combine ambos
Lo interesante es que ahora hay una alternativa seria, bien financiada, liderada por alguien con track record probado.
Y eso es bueno para todos. Competencia de ideas es lo que hace avanzar la ciencia.
Referencias
También te puede interesar
Yann LeCun abandona Meta: Los LLMs no van a llegar a inteligencia humana
El padrino de la IA deja Meta para apostar 3.500 millones a una arquitectura diferente: los World Models.
La burbuja de IA: 7 billones buscando retorno
Quién gana, quién pierde, y por qué debería importarte. Análisis de la inversión masiva en IA y sus señales de burbuja.
La IA se está quedando sin internet que comerse
Los modelos de IA consumen datos más rápido de lo que generamos. El internet de calidad ya se ha usado casi todo. ¿Qué viene ahora?