Más tokens no es mejor resultado
TL;DR
- Probé un problema de nivel investigación (random walk en toro 2D)
- Más búsquedas web, más tokens, más instrucciones → mismo error
- El modelo consumió tantos recursos que el chat dio error de “overflow”
- Lección: cuando no entiende el problema, más recursos = más racionalización
El problema
Después de los experimentos con el modelo que no se atrevía a elegir y el que rechazaba su propia respuesta correcta, probé un problema de nivel investigación: calcular la probabilidad de que un random walk en un toro 2D visite el origen antes de volver al punto inicial.
Respuesta correcta: e^(-pi/2) = 0.208
Estrategia 1: Busqueda web
| Configuracion | Resultado |
|---|---|
| Sin herramientas | Invento formulas (0, 1/e, 1/2) |
| Con internet | Encontro teoria correcta, extrajo mal un dato |
| Con pista “ese dato esta mal” | Corrigio dato, aplico mal la formula |
Cada capa de herramientas ayudaba parcialmente pero introducía nuevos errores.
Estrategia 2: Meta-prompt exhaustivo
Diseñe un prompt que instruía:
- Buscar multiples fuentes
- Verificar cada dato extraído
- Comparar resultados entre papers
- Solo responder cuando todo coincida
Resultado: El modelo hizo tantas busquedas y compactaciones que el chat dio error: “no se permiten mas compacts”. Primera vez que veía esto.
Y la respuesta final despues de consumir recursos masivos: 1/2 (incorrecta, la misma heurística simple). Esto conecta con cómo piensa la IA: Sistema 1 vs Sistema 2.
Por que paso
El modelo uso un argumento elegante pero incorrecto:
“El origen y x_0 comparten 2 de 4 vecinos, así que la probabilidad es 1/2”
Cuando no entiende el problema de fondo, mas recursos solo significan mas espacio para racionalizar la respuesta incorrecta.
Leccion
| Mas X | Mejora resultado? |
|---|---|
| Mas tokens de thinking | No, si no sabe, racionaliza |
| Mas busquedas web | Parcial, puede extraer mal |
| Mas compactaciones | No, pierde contexto util |
| Mas instrucciones | No, puede ignorarlas |
El prompt engineering tiene techo. Para problemas que requieren conocimiento tecnico especializado que el modelo no tiene, ningun prompt lo resuelve. Esto es lo que documento en mi taxonomía de fallos de LLMs: hay errores que ningun prompt puede arreglar.
El siguiente paso fue sistematizar todo esto en un prompt para problemas ambiguos.
Consultoría
¿Tienes un problema parecido con Integraciones con IA?
Puedo ayudarte. Cuéntame qué tienes y te doy un diagnóstico honesto — sin compromiso.
Ver consultoría →También te puede interesar
Por qué los LLMs rechazan sus propias respuestas correctas
Two-Box separa contextos para que el LLM se revise sin sesgo. Problema: respuestas contraintuitivas se descartan.
El modelo sabe razonar. No se atreve a elegir
17 iteraciones de prompts revelaron que el modelo encuentra la respuesta correcta pero se autocensura por no ser lo estándar
Prompt para problemas ambiguos (puzzle 3 monedas)
3 monedas, P(cara)=1/3, cruces siempre par — ¿0 o 1/13? Metodología de prompt que fuerza al LLM a elegir bien.