Llegó a 0 y lo llamó contradicción

TL;DR

Sistema “Two-Box”: separar contextos para que el modelo revise sin sesgo
Problema: llegó a la respuesta correcta (0) y la llamó “contradicción”
Separar contextos no basta: el modelo no acepta resultados contraintuitivos
Solución: combinar Two-Box con “permiso para aceptar lo inesperado”

El experimento

En el post anterior descubrí que el modelo encuentra la respuesta correcta pero se autocensura. Así que diseñé un sistema de “dos cajas” para verificar respuestas:

CAJA 1: Genera respuesta → "1/13"
        (contexto se descarta)

CAJA 2: [Solo ve el problema + respuesta propuesta]
        "Verifica desde cero si 1/13 es correcto"

La idea: si el modelo no ve su propio razonamiento, puede evaluar la respuesta sin sesgo.

Lo que pasó

El modelo en la Caja 2:

Identificó que la interpretación estándar era incorrecta
Planteó las ecuaciones correctas para monedas dependientes
Calculó p_0 = 0
Escribió: “Encuentro una contradicción…”
Respuesta final: 1/13

Llegó a la respuesta correcta y la rechazó.

Por qué pasa esto

Separar contextos resuelve el problema de “tokens condicionados a la respuesta anterior”. Pero hay otro problema: el modelo no se atreve a aceptar resultados contraintuitivos.

Para el modelo, “probabilidad = 0” se siente como un error. Ha visto miles de problemas donde la respuesta es una fracción bonita. Así que racionaliza: “debe haber una contradicción en mi planteamiento”.

La solución

Two-Box necesita combinarse con “permiso para descartar”:

IMPORTANTE: Si tu cálculo llega a un resultado que parece
contraintuitivo (como probabilidad = 0), ESA es la respuesta.
No lo llames "contradicción". Acéptalo si la matemática lo dice.

Conclusión

El problema de auto-corrección en LLMs tiene dos capas:

Arquitectónica: Los tokens de revisión están condicionados al contexto (Two-Box lo resuelve)
Confianza: El modelo no se atreve a aceptar lo contraintuitivo (requiere permiso explícito)

En el siguiente experimento probé si más tokens de razonamiento ayudaban. Spoiler: no.

Sigue explorando

50 prompts de ChatGPT que funcionan - Prompts prácticos que puedes usar hoy
Las mejores IA gratis en 2026 - Dónde aplicar estas técnicas
Qué son los agentes de IA - Cuando los prompts no son suficientes

Llegó a 0 y lo llamó contradicción

TL;DR

El experimento

Lo que pasó

Por qué pasa esto

La solución

Conclusión

Sigue explorando

También te puede interesar

El modelo sabe razonar. No se atreve a elegir

Más tokens no es mejor resultado

El prompt que resuelve problemas ambiguos