Más tokens no es mejor resultado

· 2 min de lectura
Compartir:

TL;DR

  • Probé un problema de nivel investigación (random walk en toro 2D)
  • Más búsquedas web, más tokens, más instrucciones → mismo error
  • El modelo consumió tantos recursos que el chat dio error de “overflow”
  • Lección: cuando no entiende el problema, más recursos = más racionalización

El problema

Después de los experimentos con el modelo que no se atrevía a elegir y el que rechazaba su propia respuesta correcta, probé un problema de nivel investigación: calcular la probabilidad de que un random walk en un toro 2D visite el origen antes de volver al punto inicial.

Respuesta correcta: e^(-pi/2) = 0.208

Estrategia 1: Busqueda web

ConfiguracionResultado
Sin herramientasInvento formulas (0, 1/e, 1/2)
Con internetEncontro teoria correcta, extrajo mal un dato
Con pista “ese dato esta mal”Corrigio dato, aplico mal la formula

Cada capa de herramientas ayudaba parcialmente pero introducía nuevos errores.

Estrategia 2: Meta-prompt exhaustivo

Diseñe un prompt que instruía:

  • Buscar multiples fuentes
  • Verificar cada dato extraído
  • Comparar resultados entre papers
  • Solo responder cuando todo coincida

Resultado: El modelo hizo tantas busquedas y compactaciones que el chat dio error: “no se permiten mas compacts”. Primera vez que veía esto.

Y la respuesta final despues de consumir recursos masivos: 1/2 (incorrecta, la misma heurística simple).

Por que paso

El modelo uso un argumento elegante pero incorrecto:

“El origen y x_0 comparten 2 de 4 vecinos, así que la probabilidad es 1/2”

Cuando no entiende el problema de fondo, mas recursos solo significan mas espacio para racionalizar la respuesta incorrecta.

Leccion

Mas XMejora resultado?
Mas tokens de thinkingNo, si no sabe, racionaliza
Mas busquedas webParcial, puede extraer mal
Mas compactacionesNo, pierde contexto util
Mas instruccionesNo, puede ignorarlas

El prompt engineering tiene techo. Para problemas que requieren conocimiento tecnico especializado que el modelo no tiene, ningun prompt lo resuelve. Esto es lo que documento en mi taxonomía de fallos de LLMs: hay errores que ningun prompt puede arreglar.

El siguiente paso fue sistematizar todo esto en un prompt para problemas ambiguos.

¿Te ha sido útil? Compártelo

Compartir:

También te puede interesar