Llegó a 0 y lo llamó contradicción

· 2 min de lectura
Compartir:

TL;DR

  • Sistema “Two-Box”: separar contextos para que el modelo revise sin sesgo
  • Problema: llegó a la respuesta correcta (0) y la llamó “contradicción”
  • Separar contextos no basta: el modelo no acepta resultados contraintuitivos
  • Solución: combinar Two-Box con “permiso para aceptar lo inesperado”

El experimento

En el post anterior descubrí que el modelo encuentra la respuesta correcta pero se autocensura. Así que diseñé un sistema de “dos cajas” para verificar respuestas:

CAJA 1: Genera respuesta → "1/13"
        (contexto se descarta)

CAJA 2: [Solo ve el problema + respuesta propuesta]
        "Verifica desde cero si 1/13 es correcto"

La idea: si el modelo no ve su propio razonamiento, puede evaluar la respuesta sin sesgo.

Lo que pasó

El modelo en la Caja 2:

  1. Identificó que la interpretación estándar era incorrecta
  2. Planteó las ecuaciones correctas para monedas dependientes
  3. Calculó p_0 = 0
  4. Escribió: “Encuentro una contradicción…”
  5. Respuesta final: 1/13

Llegó a la respuesta correcta y la rechazó.

Por qué pasa esto

Separar contextos resuelve el problema de “tokens condicionados a la respuesta anterior”. Pero hay otro problema: el modelo no se atreve a aceptar resultados contraintuitivos.

Para el modelo, “probabilidad = 0” se siente como un error. Ha visto miles de problemas donde la respuesta es una fracción bonita. Así que racionaliza: “debe haber una contradicción en mi planteamiento”.

La solución

Two-Box necesita combinarse con “permiso para descartar”:

IMPORTANTE: Si tu cálculo llega a un resultado que parece
contraintuitivo (como probabilidad = 0), ESA es la respuesta.
No lo llames "contradicción". Acéptalo si la matemática lo dice.

Conclusión

El problema de auto-corrección en LLMs tiene dos capas:

  1. Arquitectónica: Los tokens de revisión están condicionados al contexto (Two-Box lo resuelve)
  2. Confianza: El modelo no se atreve a aceptar lo contraintuitivo (requiere permiso explícito)

En el siguiente experimento probé si más tokens de razonamiento ayudaban. Spoiler: no.


Sigue explorando

¿Te ha sido útil? Compártelo

Compartir:

También te puede interesar