Más tokens no es mejor resultado

TL;DR

Probé un problema de nivel investigación (random walk en toro 2D)
Más búsquedas web, más tokens, más instrucciones → mismo error
El modelo consumió tantos recursos que el chat dio error de “overflow”
Lección: cuando no entiende el problema, más recursos = más racionalización

El problema

Después de los experimentos con el modelo que no se atrevía a elegir y el que rechazaba su propia respuesta correcta, probé un problema de nivel investigación: calcular la probabilidad de que un random walk en un toro 2D visite el origen antes de volver al punto inicial.

Respuesta correcta: e^(-pi/2) = 0.208

Estrategia 1: Busqueda web

Configuracion	Resultado
Sin herramientas	Invento formulas (0, 1/e, 1/2)
Con internet	Encontro teoria correcta, extrajo mal un dato
Con pista “ese dato esta mal”	Corrigio dato, aplico mal la formula

Cada capa de herramientas ayudaba parcialmente pero introducía nuevos errores.

Estrategia 2: Meta-prompt exhaustivo

Diseñe un prompt que instruía:

Buscar multiples fuentes
Verificar cada dato extraído
Comparar resultados entre papers
Solo responder cuando todo coincida

Resultado: El modelo hizo tantas busquedas y compactaciones que el chat dio error: “no se permiten mas compacts”. Primera vez que veía esto.

Y la respuesta final despues de consumir recursos masivos: 1/2 (incorrecta, la misma heurística simple). Esto conecta con cómo piensa la IA: Sistema 1 vs Sistema 2.

Por que paso

El modelo uso un argumento elegante pero incorrecto:

“El origen y x_0 comparten 2 de 4 vecinos, así que la probabilidad es 1/2”

Cuando no entiende el problema de fondo, mas recursos solo significan mas espacio para racionalizar la respuesta incorrecta.

Leccion

Mas X	Mejora resultado?
Mas tokens de thinking	No, si no sabe, racionaliza
Mas busquedas web	Parcial, puede extraer mal
Mas compactaciones	No, pierde contexto util
Mas instrucciones	No, puede ignorarlas

El prompt engineering tiene techo. Para problemas que requieren conocimiento tecnico especializado que el modelo no tiene, ningun prompt lo resuelve. Esto es lo que documento en mi taxonomía de fallos de LLMs: hay errores que ningun prompt puede arreglar.

El siguiente paso fue sistematizar todo esto en un prompt para problemas ambiguos.

Más tokens no es mejor resultado

TL;DR

El problema

Estrategia 1: Busqueda web

Estrategia 2: Meta-prompt exhaustivo

Por que paso

Leccion

También te puede interesar

Por qué los LLMs rechazan sus propias respuestas correctas

El modelo sabe razonar. No se atreve a elegir

Taxonomía de fallos de LLMs