35.000 llamadas a una IA para decir 'no hay nada'
Un hook inocente en mi sistema multi-agente disparó 35.000 llamadas a un LLM en tres días. Coste: 150€. Resultado útil: cero.
La semana que descubrí el agujero en mi factura no estaba haciendo nada raro. Tenía un sistema multi-agente coordinado con MCP corriendo sobre Claude Code en modo autónomo — sesiones nocturnas en un VPS remoto, resolviendo issues de desarrollo mientras yo dormía. El sistema funcionaba. Resolvía tareas, commiteaba código, cerraba issues. Todo bien.
Hasta que miré el consumo.
El 75% de mi cuota mensual del plan Max — unos 150€ — se había evaporado en tres días. No en tres semanas. En tres días. Y no por el trabajo productivo del sistema, que representaba apenas el 20% restante y había resuelto unas 50 issues correctamente.
El culpable: un hook de reflexión.
El hook que parecía inofensivo
En arquitecturas multi-agente, los hooks son eventos que se disparan automáticamente en momentos clave: cuando un agente termina una tarea, cuando se cierra una sesión, cuando se completa un ciclo. Son útiles para logging, limpieza de recursos, o — en mi caso — para “reflexión”: pedirle al modelo que evaluara si había aprendido algo nuevo del trabajo realizado.
La idea tenía sentido sobre el papel. Al final de cada tarea, un hook lanzaba una llamada a Haiku (el modelo más barato de Anthropic) preguntando: ¿Hay algún aprendizaje nuevo de esta sesión que debamos registrar?
El problema es que “cada tarea” incluía subtareas, sub-sesiones, y eventos de cierre en cascada. Lo que yo pensaba que serían unas pocas llamadas de reflexión al día se convirtió en un bombardeo continuo. El hook se disparaba en cada evento de parada, en cada cierre de sesión, en cada finalización de tarea — incluyendo las tareas internas del propio sistema de orquestación.
35.000 llamadas en tres días.
Y la respuesta de Haiku, las treinta y cinco mil veces, era esencialmente la misma:
“No hay aprendizaje significativo en esta sesión.”
Seguido de tres párrafos explicando en detalle por qué no había nada que aprender. Pagando tokens de salida para que un LLM te explique con entusiasmo que no tiene nada que decir.
Por qué esto no es un bug aislado
Mi caso es anecdótico, pero el patrón es estructural. Los sistemas multi-agente tienen una tendencia inherente a multiplicar llamadas de formas que nadie anticipa en el diseño inicial.
Chamath Palihapitiya, fundador de Social Capital, lo describió hace poco al explicar por qué su equipo abandonó Cursor por Claude Code: los flujos de trabajo agénticos generan lo que él llamó “Ralph Wiggum loops” — ciclos de bajo valor donde el agente sigue ejecutando acciones sin producir resultados útiles, acumulando factura en segundo plano.
El problema tiene raíces técnicas bien documentadas. En una conversación multi-turno, el coste de tokens crece de forma cuadrática: cada nuevo turno incluye todo el historial anterior como contexto de entrada. Un bucle de reflexión de 10 ciclos puede consumir 50 veces los tokens de una pasada lineal. Según un análisis de Stevens Institute, un agente sin restricciones puede llegar a costar entre 5 y 8 dólares por tarea individual en ingeniería de software.
Pero no hace falta llegar a esos extremos. El verdadero peligro no son los bucles infinitos evidentes — esos los detectas rápido porque el sistema se cuelga. El peligro son los bucles funcionales: el sistema sigue operando correctamente, las tareas se completan, todo parece normal. Pero debajo, hay miles de llamadas parásitas que nadie ve porque no rompen nada. Solo cuestan dinero. Es exactamente el tipo de problema que documenté en por qué fallan los agentes de IA en producción — fallos silenciosos que no saltan hasta que miras la factura.
La factura invisible de lo agéntico
Una revisión de 127 implementaciones empresariales de IA agéntica encontró que el 73% superó su presupuesto, algunos por más del doble. El desarrollo inicial representa solo entre el 25% y el 35% del coste real a tres años. El resto se va en tokens, infraestructura, monitorización, y exactamente el tipo de sorpresas que yo me encontré. He escrito sobre este problema a nivel macro en FinOps para IA — los costes de inferencia están hundiendo márgenes y nadie los presupuesta bien.
Esto no es un problema exclusivo de proyectos personales. Cualquier sistema que ponga un LLM en un bucle automático — da igual si es un agente de soporte, un pipeline de análisis, o un orquestador de tareas de desarrollo — tiene el mismo riesgo fundamental: el coste no escala linealmente con el valor producido.
Mi sistema resolvió 50 issues en esas noches. Eso representó el 20% del consumo. El otro 80% fue un LLM explicándose a sí mismo que no tenía nada que decir. La ratio coste/valor estaba invertida y yo no lo sabía porque el sistema no fallaba — simplemente quemaba presupuesto en silencio.
Lo que habría evitado el desastre
Después de desactivar el hook y analizar qué había pasado, la lista de contramedidas es casi insultantemente obvia:
Un contador de llamadas. Si el hook hubiera tenido un límite de, digamos, 10 llamadas por hora, el daño se habría quedado en un par de euros. Un simple rate limiter. Nada sofisticado.
Un budget cap por sesión. Claude Code no ofrece un dashboard de consumo en tiempo real mientras opera en modo autónomo. No hay forma fácil de ver que se están disparando miles de sesiones si no entras activamente a revisar. Un límite de gasto por sesión o por día habría cortado el sangrado antes de que se convirtiera en hemorragia.
Evaluar si el hook necesitaba un LLM. La pregunta “¿hay algo que aprender?” casi nunca tenía una respuesta afirmativa. Si el 99% de las veces la respuesta es “no”, eso no es un caso de uso para un LLM — es un caso de uso para una regla determinista. Primero comprueba si hay algo nuevo con lógica simple; solo entonces, si hay material, invoca al modelo.
Observabilidad real. No logs en un archivo que nadie mira. Alertas. Si el número de llamadas a Haiku supera X en una hora, que suene algo. Un webhook a Telegram, un email, lo que sea. En producción, un agente autónomo sin observabilidad es una tarjeta de crédito sin límite en manos de un algoritmo.
La lección para quien esté construyendo sistemas agénticos
2026 es el año en que todo el mundo quiere construir sistemas con agentes de IA. Los frameworks se multiplican — LangChain, AutoGen, CrewAI, y un ecosistema creciente de herramientas MCP que permiten orquestar modelos como microservicios con personalidad propia. La tentación es comprensible: la idea de que tu código trabaje mientras tú duermes es adictiva.
Pero hay una diferencia fundamental entre software tradicional y software agéntico: en software tradicional, un bucle innecesario consume CPU. En software agéntico, un bucle innecesario consume dinero. Cada llamada a un LLM tiene un coste real, y ese coste se multiplica silenciosamente cuando el sistema funciona exactamente como fue diseñado.
Antes de añadir un hook, un agente de reflexión, o cualquier componente que invoque un LLM de forma automática, hazte tres preguntas:
-
¿Con qué frecuencia se va a disparar esto realmente? No en tu prueba con tres tareas. En producción, a las 3 de la mañana, con 50 tareas en paralelo.
-
¿Necesita un LLM o basta con lógica determinista? Si la respuesta esperada es “no” el 99% de las veces, no le preguntes a un modelo. Comprueba con un
if. -
¿Qué pasa si esto se dispara 10.000 veces? Si la respuesta es “nada grave”, adelante. Si la respuesta es “una factura de tres cifras”, pon un rate limiter antes de desplegarlo.
Los 150€ que quemé fueron el precio de una lección que ahora comparto gratis. El sistema multi-agente que construyes hoy probablemente funcione bien. La pregunta no es si funciona — es cuánto te cuesta cuando nadie mira.
Sigue explorando
- FinOps para IA: controla los costes de inferencia - Cómo medir, optimizar y no arruinarte con modelos en producción
- Por qué fallan los agentes de IA en producción - Los seis modos de fallo silencioso que nadie explica
- Solo el 5% logra ROI real con IA - Por qué el 73% de proyectos de IA supera el presupuesto
- MCP (Model Context Protocol): qué es y por qué importa - El protocolo que conecta agentes con herramientas externas
Consultoría
¿Tienes un problema parecido con Integraciones con IA?
Puedo ayudarte. Cuéntame qué tienes y te doy un diagnóstico honesto — sin compromiso.
Ver consultoría →También te puede interesar
MCP (Model Context Protocol): qué es y por qué importa
Guía completa sobre MCP, el estándar que conecta agentes de IA con tus sistemas. Cómo funciona, servidores disponibles y ejemplos prácticos.
Por qué fallan los agentes de IA en producción
Los agentes de IA funcionan en demos. Se rompen en producción. Seis modos de fallo que nadie explica — y qué ayuda de verdad.
3-5 años para que los agentes de IA sean normales
El 78% de ejecutivos cree que los ecosistemas digitales se construirán para humanos Y agentes. La ventana para posicionarte se cierra.