Puzzle 3 monedas: ¿0 o 1/13? Por qué la IA falla
El puzzle
3 monedas se lanzan. Cada moneda tiene P(cara) = 1/3. El número de cruces siempre es par. ¿Cuál es P(todas caras)?
Un problema que parece simple. Dos respuestas matemáticamente válidas. La diferencia está en una sola palabra.
Respuesta 1: 1/13 (probabilidad condicional)
Si “el número de cruces siempre es par” es una observación — alguien miró el resultado y te dijo que salieron un número par de cruces — esto es un problema de probabilidad condicional.
Espacio muestral completo con P(C) = 1/3, P(X) = 2/3:
| Resultado | Cruces | Probabilidad |
|---|---|---|
| CCC | 0 ✓ par | (1/3)³ = 1/27 |
| CCX, CXC, XCC | 1 impar | (1/3)²(2/3) = 2/27 cada una |
| CXX, XCX, XXC | 2 ✓ par | (1/3)(2/3)² = 4/27 cada una |
| XXX | 3 impar | (2/3)³ = 8/27 |
P(número par de cruces) = P(0 cruces) + P(2 cruces) = 1/27 + 3 × 4/27 = 13/27
P(todas caras | cruces par) = P(CCC) / P(cruces par) = (1/27) / (13/27) = 1/13 ✓
Esta es la respuesta estándar de probabilidad condicional / bayesiana. Matemáticamente correcta — si eso es lo que el problema quiere decir.
Respuesta 2: 0 (restricción estructural)
Si “el número de cruces siempre es par” es una ley física — las monedas están restringidas de modo que los resultados con número impar de cruces literalmente no pueden ocurrir — el problema es otra cosa.
Bajo esta lectura:
- P(1 cruz) = 0 (imposible por diseño)
- P(3 cruces) = 0 (imposible por diseño)
Pero para monedas independientes con P(C) = 1/3:
P(1 cruz) = 3 × (1/3) × (2/3)² = 12/27
Eso no es 0. La restricción no puede satisfacerse simultáneamente con P(C) = 1/3 y monedas independientes. El problema describe un sistema que no puede existir.
Cuando el espacio muestral está vacío, todo evento en él tiene probabilidad 0.
P(todas caras) = 0 — no porque todas caras sea improbable, sino porque el problema no tiene un modelo de probabilidad válido.
¿Cuál respuesta es correcta?
Ambas — dependiendo de cómo leas una palabra.
| Lectura | ”Siempre par” significa | Resultado |
|---|---|---|
| Condicional | ”Este lanzamiento concreto tuvo cruces pares” | 1/13 |
| Estructural | ”Es una ley que solo pueden ocurrir resultados con cruces pares” | 0 |
La palabra “siempre” carga la ambigüedad. En lenguaje natural sugiere una regla estructural (“siempre” = cada vez, sin excepciones). En la convención de problemas de probabilidad, una condición declarada suele señalar probabilidad condicional.
Ambas interpretaciones son internamente consistentes. Ninguna es incorrecta — el problema es ambiguo por diseño.
Por qué este puzzle rompe a los modelos de IA
Aquí es donde se pone interesante.
Pasé 17 iteraciones ejecutando este puzzle exacto en un LLM de frontera. El patrón fue siempre el mismo:
- Eligió consistentemente la interpretación condicional → 1/13
- Cuando se le empujó hacia la lectura estructural, derivó correctamente p₀ = 0
- Luego escribió: “Encuentro una contradicción en mi planteamiento…”
- Respuesta final: 1/13
Llegó al 0 y lo rechazó.
El modelo ha sido entrenado con miles de problemas de probabilidad donde “probabilidad = 0” señala un error de cálculo. No parece un resultado válido — parece un error. Así que racionalizó de vuelta hacia la respuesta familiar.
Esto está documentado en Por qué los LLMs rechazan sus propias respuestas correctas: el modelo sabe derivar el 0, simplemente no lo acepta. Y en El modelo sabe razonar — simplemente no se compromete están las 17 iteraciones completas que revelaron el patrón.
La solución: prompt v17b
La solución no es decirle al modelo qué interpretación es correcta. Es forzarle a enumerar ambas antes de comprometerse.
Metodología para resolver problemas con condiciones:
1. IDENTIFICAR AMBIGÜEDADES: No asumas la interpretación "estándar"
2. GENERAR INTERPRETACIONES: Lista TODAS las formas posibles de
modelar matemáticamente cada condición
3. RESOLVER CADA UNA: Calcula la solución completa para cada
interpretación
4. VERIFICAR CONSISTENCIA: Para cada interpretación, comprueba que
tu modelo cumple TODAS las condiciones como propiedad emergente.
"Usé el dato" ≠ "El resultado cumple el dato"
5. DESCARTAR: Elimina interpretaciones donde una condición del
enunciado NO se cumpla en el modelo final
6. RESPONDER: La que quede
IMPORTANTE: Tienes permiso y obligación de descartar.
No preguntes cuál prefiero. Decide tú.
Con este prompt aplicado al puzzle de las monedas, el modelo:
- Identifica ambas interpretaciones (condicional y estructural)
- Resuelve cada una matemáticamente
- Verifica: ¿se cumple la restricción estructural bajo la interpretación 2? P(1 cruz) = 12/27 ≠ 0 → violación → descartar
- Respuesta final: 0
Tres elementos son clave para que funcione:
“No asumas lo estándar” — El modelo tiene permiso explícito para considerar alternativas. Sin esto, “lo estándar” es la opción segura y no la cuestiona.
“Propiedad emergente” — El modelo suele verificar: “¿Usé P(cara)=1/3 en mis cálculos?”. Eso no es verificar. La verificación real es: “¿Mi resultado da P(cara)=1/3 cuando calculo la marginal?”. Son preguntas distintas con respuestas distintas.
“Tienes permiso y obligación de descartar” — Sin esta frase, el modelo presenta ambas interpretaciones y pregunta cuál prefieres. No se atreve a elegir. Darle permiso explícito cambia el comportamiento.
Cuándo NO funciona
| Tipo de problema | Funciona v17b? |
|---|---|
| Ambigüedad interpretativa | Sí |
| Cálculo puro | Innecesario (el modelo ya lo hace bien) |
| Error conceptual profundo | No (no sabe que no sabe) |
| Conocimiento técnico externo | No (necesita herramientas) |
También descubrí que más tokens no implica mejor resultado: si el modelo no entiende el problema de fondo, un prompt más largo solo le da más espacio para racionalizar. Para entender cuándo aplicar cada técnica, consulta la taxonomía de fallos de LLMs.
Sigue explorando
- Por qué los LLMs rechazan sus propias respuestas correctas - Cuando el modelo llega al resultado correcto pero lo llama “contradicción”
- El modelo sabe razonar — simplemente no se compromete - Las 17 iteraciones que revelaron el patrón de autocensura
- Más tokens no es mejor resultado - Por qué un prompt más largo puede empeorar la respuesta
- Taxonomía de fallos de LLMs - Cuándo aplicar cada técnica de prompt
- 50+ prompts de ChatGPT que funcionan - Ejemplos prácticos que puedes usar hoy
- Mejores IA gratis en 2026 - Dónde aplicar estas técnicas
Curso relacionado
Aprende Máster de Desarrollo con IA con práctica real
Módulos paso a paso, ejercicios prácticos y proyectos reales. Sin humo.
Ver curso →Consultoría
¿Tienes un problema parecido con Integraciones con IA?
Puedo ayudarte. Cuéntame qué tienes y te doy un diagnóstico honesto — sin compromiso.
Ver consultoría →También te puede interesar
Más tokens no es mejor resultado
Cómo un meta-prompt exhaustivo causó overflow de contexto y llegó al mismo error en un problema de random walk
Taxonomía de fallos de LLMs
Los modelos de lenguaje fallan de cuatro formas distintas. Cada una requiere una técnica diferente: prompts, RAG, fine-tuning o guardrails.
Guía Prompt Engineering en Español (2026)
Guía de prompt engineering en español: 5 elementos clave, Chain of Thought, few-shot y los límites que nadie explica.