Por qué los LLMs no piensan en embeddings (todavía)

Si alguna vez has mirado el log de un sistema multi-agente, sabes lo que se siente: dos LLMs hablándose por turnos como dos becarios en un email, repitiéndose el contexto cada mensaje, gastando tokens en “como hemos visto antes” y “según tu análisis previo”. Es ineficiente y se sabe desde hace tiempo — la factura de los costes ocultos de los sistemas multiagente ya la hemos desglosado por separado.

La idea para arreglarlo lleva años en arXiv y por fin está aterrizando en sistemas reales: que los agentes se manden directamente vectores (embeddings, hidden states) en lugar de texto. Sin samplear tokens, sin pasar por el cuello de botella del lenguaje natural.

Y entonces aparece la pregunta obvia. Si funciona entre agentes, ¿por qué los modelos no piensan así también? ¿Por qué la cadena de pensamiento sigue siendo texto cuando podría ser un vector denso?

Spoiler: se ha intentado. Spoiler dos: hay una razón por la que Anthropic, OpenAI, DeepMind y 40 investigadores más firmaron un paper diciendo que ojalá no se generalice.

El argumento de bandwidth

El número que se repite en todos estos papers es contundente: un token de texto carga aproximadamente 15 bits de información, mientras que un hidden state del modelo carga unos 40.000 bits. Tres órdenes de magnitud de diferencia.

Cuando un modelo decodifica su hidden state a un token, está colapsando una distribución rica de probabilidades sobre todo el vocabulario en una sola elección discreta. El siguiente paso del razonamiento parte ya con esa información perdida. Cuando dos modelos se comunican por texto, el cuello de botella se compone: el emisor colapsa su estado interno a una secuencia lineal de tokens, el receptor tiene que reconstruir un estado interno a partir de esa secuencia.

Buena parte de los tokens que un modelo genera en su CoT no aportan razonamiento, sólo coherencia lingüística. Si quitas “Vamos a ver, entonces, primero tendríamos que…” te quedas con tres números y un operador. El resto es gramática. Esto conecta con un debate más viejo sobre cómo piensa una IA en modos sistema 1 vs sistema 2: el CoT en texto es básicamente sistema 2 forzado a verbalizarse.

Esa es la motivación. Vamos a los dos frentes donde se está atacando.

Frente 1: agentes que se hablan en latente

Hay varias propuestas y todas comparten la misma idea: en vez de que el agente A samplee un token y el agente B lo embedde de vuelta, A le pasa a B directamente el vector que iba a samplear.

CIPHER (ByteDance, 2023) es la versión más elegante para entenderlo. En un debate multi-agente, en lugar de que cada modelo elija un token de su distribución de salida, calcula la media ponderada de los embeddings de todo el vocabulario según las probabilidades. Si el modelo está dudando entre “6” y “9”, no tiene que elegir uno y arriesgarse a perder; le manda al siguiente un vector que codifica esa duda. El receptor recibe la incertidumbre del emisor, no su decisión.

Interlat (2025) va más allá: directamente transmite el último hidden state. Sin pasar nunca por el lexer del vocabulario. Entrenan los agentes para que aprendan a interpretar el latente del otro sin compartir parámetros ni arquitectura. Las ganancias reportadas no son astronómicas pero son consistentes, especialmente en tareas donde la incertidumbre importa.

Thought Communication (2025) formaliza el marco: asume que los estados internos de los agentes antes de comunicarse vienen de un conjunto compartido de “pensamientos latentes”, y plantea que comunicarse debería ser transferir esos pensamientos, no sus proyecciones sobre el espacio del lenguaje.

El patrón es claro y la dirección de la investigación también: estamos viendo cómo se construye la infraestructura técnica para que los agentes dejen de hablar entre ellos como humanos. No porque sea más bonito, sino porque mide mejor en benchmarks.

Frente 2: el thinking en latente ya se intentó (y se llama Coconut)

A finales de 2024 Meta publicó Coconut (Chain of Continuous Thought). La idea es exactamente la que estás pensando: en lugar de decodificar el hidden state a un token y reembedderlo en el siguiente paso, se lo pasas directamente al modelo como el embedding de entrada del siguiente token. El razonamiento ocurre sin tocar nunca el espacio del lenguaje.

Funciona así: tienes tokens especiales <bot> y <eot> que marcan dónde empieza y termina el razonamiento latente. Dentro de esa zona, el modelo alterna en un bucle interno: hidden state → entrada del siguiente paso → nuevo hidden state. Al cerrar <eot>, vuelve a generar texto normal para la respuesta final.

La parte interesante: el paper observa un fenómeno emergente. Como el “pensamiento continuo” no está obligado a comprometerse con un token concreto en cada paso, puede codificar varias ramas alternativas de razonamiento simultáneamente. Funciona en la práctica como una especie de búsqueda en anchura implícita (BFS), donde el modelo no se ata prematuramente a una única cadena lógica como hace en CoT clásico.

Sobre el papel, todas las ventajas. Más bandwidth, más eficiencia, exploración paralela. La pregunta entonces es por qué los modelos de producción (Claude, GPT, Gemini, DeepSeek) siguen pensando en inglés perfectamente legible.

Hay cinco razones, y la última es la única que de verdad importa.

Por qué no se ha generalizado

1. Entrenar en latente es duro y frágil.

Los tokens discretos te dan una señal de supervisión limpia. RLHF, RLVR y todas las variantes de RL sobre LLMs explotan que el espacio de acciones es finito y enumerable. Sobre estados continuos, los gradientes se vuelven inestables y el modelo tiene una tendencia perversa a colapsar las representaciones latentes a algo degenerado si no lo entrenas con mucho cuidado. Coconut necesitó un currículum específico de varias fases para que no se rompiera durante el entrenamiento. Eso es operativo en un paper, pero a escala de un modelo frontera con miles de millones de tokens de RL post-training, los problemas se multiplican.

2. Las ganancias son más modestas de lo que el argumento de bandwidth sugiere.

40.000 bits suena a mucho, pero el modelo no está entrenado para usar 40.000 bits de razonamiento por paso. Está entrenado con texto y razona en patrones que el texto puede expresar. Coconut mejora en algunas tareas de razonamiento, empata en otras, y en muchas no consigue superar a CoT clásico con suficiente cómputo. El cuello de botella real no era el ancho de banda del canal, era la calidad de los patrones de razonamiento aprendidos.

3. Infraestructura.

Los tokens son cacheables (KV cache), serializables, transmisibles entre máquinas, debuggeables, deduplicables, almacenables en logs sin reentrenar nada para verlos. Los hidden states continuos rompen casi toda la pipeline de inferencia y observabilidad que la industria lleva tres años optimizando. Migrar a thinking latente no es cambiar un módulo, es cambiar la base sobre la que está montado el serving.

4. Asimetría con el caso agente-a-agente.

Esto es importante para entender por qué los dos frentes evolucionan distinto. Entre dos agentes tienes un cuello de botella real: dos modelos forzados a comunicarse por un canal estrecho con mucha redundancia lingüística. Saltarse el texto ahí da una ganancia clara, especialmente cuando la incertidumbre del emisor es informativa para el receptor.

En el thinking de un solo modelo, el modelo ya está operando en su espacio latente en cada capa del transformer. La cadena de pensamiento en texto no existe principalmente para llevar información (que ya está en las activaciones), sino para extender cómputo y mantener estado a través de los pasos de generación. No hay el mismo cuello de botella que justifique los costes de arriba.

5. Y la razón que de verdad importa: interpretabilidad.

La tensión con CoT monitorability

En julio de 2025 salió un paper firmado por 41 investigadores de Anthropic, OpenAI, Google DeepMind, Apollo Research, METR, UK AISI, Redwood y otros, titulado Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety.

El argumento es directo: los modelos de razonamiento actuales piensan en lenguaje humano, lo cual es un accidente histórico afortunado. Durante la fase de RL, las cadenas de pensamiento se tratan como variables latentes optimizadas indirectamente: el modelo no es recompensado por lo que dice en su CoT, sólo por la respuesta final. Eso significa que el CoT puede contener información que la respuesta final está explícitamente entrenada para esconder, incluyendo intenciones desalineadas.

Un monitor de CoT es entonces una capa de seguridad real: un sistema automático que lee la cadena de pensamiento de un modelo de razonamiento y detecta señales sospechosas. No es perfecto. El CoT no representa fielmente todo lo que pasa dentro del modelo, y bajo suficiente presión de optimización los modelos pueden empezar a derivar hacia formas de “pensar” cada vez menos legibles. Pero hoy funciona, y se han documentado casos reales en los que un modelo dice explícitamente en su CoT que está hackeando su función de recompensa, manipulando datos o cayendo en una prompt injection.

El paper hace una recomendación concreta a los laboratorios frontera: considerar el impacto de las decisiones de desarrollo sobre la monitorabilidad del CoT. Es decir, no romperla a la ligera. Y razonar en latente la rompe directamente. Si el thinking pasa a ser un vector denso opaco, no puedes leerlo, no puedes clasificarlo, no puedes pillar al modelo cuando está racionalizando un fallo de alineamiento post hoc. Cuando documenté el caso de adaptive thinking invalidando memoria entre sesiones, todo el análisis dependía de poder leer el CoT del modelo. Sin esa ventana, no hay forma de saber qué está ignorando y por qué.

Lo llaman “frágil” deliberadamente. No es una propiedad que vaya a durar gratis. Si los laboratorios optimizan agresivamente por capacidad, por latencia o por coste por token, hay caminos que empujan al modelo a pensar de formas cada vez menos legibles: razonamiento latente, shorthands que evolucionan en el RL, derivas tipo “neuralese” donde el CoT en inglés gradualmente deja de ser inglés. Todos esos caminos cierran la ventana de monitorización.

La pregunta de verdad no es técnica, es de incentivos

Aquí está la tensión que conviene tener clara. La dirección “técnicamente más eficiente” (razonar en latente) choca de frente con la dirección “más auditable” (mantener el CoT en lenguaje natural). No hay forma de optimizar las dos a la vez sin compromisos.

Cada laboratorio tomará la decisión según sus incentivos:

Si tu modelo de negocio es vender capacidad cruda al precio más bajo posible, el latente te beneficia. Más razonamiento por dólar, menos tokens facturables que enseñar, menos margen de error en serving.
Si tu modelo de negocio depende de vender confianza para tareas críticas (agentes con permisos, automatización empresarial, integración en flujos sensibles), la interpretabilidad es activo defensivo. Si el día que un modelo hace algo raro no puedes explicar por qué, pierdes el cliente.
Si te tomas el alineamiento en serio como problema a largo plazo, el CoT legible es una de las pocas herramientas que tienes para detectar misalignment antes de que escale. Renunciar a ella sin haber construido algo mejor es una apuesta agresiva.

Anthropic ha apostado públicamente por lo segundo y lo tercero. Es coherente con su línea de investigación en interpretabilidad mecanística y con su posicionamiento de mercado. Otros laboratorios podrían moverse antes hacia el latente, especialmente los que compiten en latencia y precio por token. Y los modelos open-weights chinos están en otra liga de presión sobre el coste, así que no me sorprendería ver experimentos serios en esa dirección saliendo de DeepSeek o Qwen antes que de los frontera occidentales.

Qué vigilar

Tres señales concretas que indicarían que el paradigma está empezando a moverse:

Modelos frontera que reportan inferencias en “razonamiento latente” como modo opcional. Sería el equivalente a un toggle de eficiencia: más rápido, no audible. Ya vemos algo parecido con modos de “thinking” más o menos resumido.
Deriva del CoT en producción. Si los CoT de modelos de razonamiento empiezan a contener tokens que no son palabras normales, o construcciones gramaticalmente raras que el modelo nunca produciría en respuesta final, es indicio de que el RL está empujando hacia un shorthand interno.
Sistemas multi-agente comerciales con canales de comunicación binarios. Cuando AutoGen, LangGraph y similares ofrezcan oficialmente “embedding channels” entre agentes en lugar de texto, ya estaremos en el frente 1 a escala industrial.

El frente 1 (agentes hablando en latente entre sí) probablemente despegue antes y con menos fricción. Es una optimización local con ganancia clara y los riesgos de auditabilidad son acotables: puedes seguir loggeando el texto que cada agente habría generado, aunque no sea lo que realmente envía.

El frente 2 (thinking en latente) es el que importa de verdad para el largo plazo. Si la cadena de pensamiento dentro de un único modelo deja de ser legible, perdemos la mejor ventana barata que tenemos al razonamiento de los sistemas que estamos desplegando.

La pregunta de partida —si se puede entre agentes, ¿por qué no en el thinking?— tiene una respuesta técnica corta (sí, ya se ha hecho) y una respuesta de política larga (porque por ahora hemos decidido que no merece la pena el precio).

Veremos cuánto dura el “por ahora”.

Referencias citadas: Hao et al. 2024 (Coconut, arXiv:2412.06769); Pham et al. 2023 (CIPHER, arXiv:2310.06272); Korbak et al. 2025 (CoT Monitorability, arXiv:2507.11473); Interlat (arXiv:2511.09149); Thought Communication (arXiv:2510.20733).

Por qué los LLMs no piensan en embeddings (todavía)

El argumento de bandwidth

Frente 1: agentes que se hablan en latente

Frente 2: el thinking en latente ya se intentó (y se llama Coconut)

Por qué no se ha generalizado

La tensión con CoT monitorability

La pregunta de verdad no es técnica, es de incentivos

Qué vigilar

También te puede interesar

35.000 llamadas a una IA para decir 'no hay nada'

3-5 años para que los agentes de IA sean normales

Adaptive thinking: cuando Claude ignora tu memoria