Taxonomía de fallos de LLMs

· 3 min de lectura
Compartir:

TL;DR

  • 4 tipos de fallo: ambigüedad, cálculo, error conceptual, conocimiento externo
  • Cada tipo tiene su solución: v17b, extended thinking, modelo mejor, búsqueda web
  • El prompting solo resuelve el tipo 1 (ambigüedad)
  • Diagnóstico: si dice “contradicción” → tipo 3, si inventa datos → tipo 4

Los cuatro tipos de fallo

Esta taxonomía es el resultado de meses experimentando con los límites del prompting. Empezó cuando descubrí que el modelo encuentra la respuesta correcta pero no se atreve a elegir.

TipoEjemploCausa raíz
Ambigüedad interpretativaMonedas: 0 vs 1/13Sesgo hacia lo “estándar”
Cálculo puroAritmética complejaLímite de capacidad
Error conceptualConfundir marginal con independenciaNo sabe que no sabe
Conocimiento externoDatos de papers específicosNo tiene la información

Solución para cada tipo

1. Ambigüedad interpretativa

  • Prompt v17b funciona
  • “Permiso para descartar”
  • Roleplay / buffer no ayudan (lo probé en el post 01)

2. Cálculo puro

  • Modelos con extended thinking (Opus, o1)
  • Herramientas de código
  • Prompts elaborados estorban

3. Error conceptual

4. Conocimiento externo

  • Búsqueda web
  • Verificar datos extraídos (pueden estar mal)
  • No esperes que “razone” la respuesta
  • Documenté esto en más tokens no es mejor: el modelo inventa formulas

Cómo identificar el tipo

Señales de ambigüedad:

  • El problema tiene una palabra como “siempre”, “dado que”, “se sabe que”
  • Hay múltiples formas de modelar una condición

Señales de cálculo:

  • El modelo empieza bien pero se pierde en los números
  • Diferentes intentos dan diferentes resultados numéricos

Señales de error conceptual:

  • El modelo dice “esto es imposible” o “hay una contradicción” (lo vi en el experimento del Two-Box)
  • Confunde términos técnicos (marginal vs condicional, correlación vs causalidad)

Señales de conocimiento externo:

  • El modelo inventa fórmulas o cita papers que no existen
  • Diferentes modelos dan respuestas completamente diferentes

Tabla de decisión rápida

¿El problema tiene ambigüedad?
  → Sí → Prompt v17b
  → No ↓

¿Es cálculo complejo?
  → Sí → Extended thinking / código
  → No ↓

¿El modelo dice algo claramente incorrecto pero con confianza?
  → Sí → Error conceptual. Pista específica o modelo mejor.
  → No ↓

¿Necesita datos que no están en el prompt?
  → Sí → Búsqueda web + verificación
  → No → Debería funcionar. Si falla, revisar prompt.

Por eso no hay que ser fanboy de ningún modelo: cuando uno falla para tu tarea, cambias a otro.

¿Te ha sido útil? Compártelo

Compartir:

También te puede interesar