Llegó a 0 y lo llamó contradicción
TL;DR
- Sistema “Two-Box”: separar contextos para que el modelo revise sin sesgo
- Problema: llegó a la respuesta correcta (0) y la llamó “contradicción”
- Separar contextos no basta: el modelo no acepta resultados contraintuitivos
- Solución: combinar Two-Box con “permiso para aceptar lo inesperado”
El experimento
En el post anterior descubrí que el modelo encuentra la respuesta correcta pero se autocensura. Así que diseñé un sistema de “dos cajas” para verificar respuestas:
CAJA 1: Genera respuesta → "1/13"
(contexto se descarta)
CAJA 2: [Solo ve el problema + respuesta propuesta]
"Verifica desde cero si 1/13 es correcto"
La idea: si el modelo no ve su propio razonamiento, puede evaluar la respuesta sin sesgo.
Lo que pasó
El modelo en la Caja 2:
- Identificó que la interpretación estándar era incorrecta
- Planteó las ecuaciones correctas para monedas dependientes
- Calculó p_0 = 0
- Escribió: “Encuentro una contradicción…”
- Respuesta final: 1/13
Llegó a la respuesta correcta y la rechazó.
Por qué pasa esto
Separar contextos resuelve el problema de “tokens condicionados a la respuesta anterior”. Pero hay otro problema: el modelo no se atreve a aceptar resultados contraintuitivos.
Para el modelo, “probabilidad = 0” se siente como un error. Ha visto miles de problemas donde la respuesta es una fracción bonita. Así que racionaliza: “debe haber una contradicción en mi planteamiento”.
La solución
Two-Box necesita combinarse con “permiso para descartar”:
IMPORTANTE: Si tu cálculo llega a un resultado que parece
contraintuitivo (como probabilidad = 0), ESA es la respuesta.
No lo llames "contradicción". Acéptalo si la matemática lo dice.
Conclusión
El problema de auto-corrección en LLMs tiene dos capas:
- Arquitectónica: Los tokens de revisión están condicionados al contexto (Two-Box lo resuelve)
- Confianza: El modelo no se atreve a aceptar lo contraintuitivo (requiere permiso explícito)
En el siguiente experimento probé si más tokens de razonamiento ayudaban. Spoiler: no.
Sigue explorando
- 50 prompts de ChatGPT que funcionan - Prompts prácticos que puedes usar hoy
- Las mejores IA gratis en 2026 - Dónde aplicar estas técnicas
- Qué son los agentes de IA - Cuando los prompts no son suficientes
También te puede interesar
El modelo sabe razonar. No se atreve a elegir
17 iteraciones de prompts revelaron que el modelo encuentra la respuesta correcta pero se autocensura por no ser lo estándar
Más tokens no es mejor resultado
Cómo un meta-prompt exhaustivo causó overflow de contexto y llegó al mismo error en un problema de random walk
El prompt que resuelve problemas ambiguos
Guía práctica del prompt v17b: metodología para que un LLM identifique y descarte interpretaciones incorrectas