La primera vez que intenté que un agente de IA hiciera algo mínimamente complejo, como automatizar una secuencia de pasos para investigar un tema y generar un informe, me sentí como un padre frustrado. Le daba la instrucción inicial y esperaba que, por alguna magia, supiera qué hacer. El resultado era una cadena de prompts inconexos, alucinaciones a tutiplén y, en general, un desastre. Fue ahí cuando me di cuenta: mi agente no pensaba; simplemente reaccionaba.
El problema de la reacción pura
Sí, es genial que los LLMs puedan generar texto coherente y responder preguntas con una solvencia impresionante. Pero cuando hablamos de agentes de IA, de esos que tienen que interactuar con el mundo (o al menos con herramientas, APIs, y datos), la cosa cambia. Darle una meta y esperar que un modelo lingüístico, por muy grande que sea, hilvane los pasos necesarios para alcanzarla, es pedirle peras al olmo.
Me cansé de ver cómo mis prototipos se atascaban en tareas triviales o tomaban caminos absurdos porque carecían de una visión a medio o largo plazo. La orquestación de prompts puede ser un parche, pero para algo robusto, necesitas planificación.
¿Qué es la planificación para un agente de IA?
Para mí, la planificación en el contexto de agentes de IA no es la clásica ‘planificación de IA’ académica con algoritmos como STRIPS o PDDL, aunque beba de esos conceptos. Es más bien la capacidad de un agente para:
- Descomponer una meta compleja en submetas más pequeñas y manejables.
- Secuenciar estas submetas de forma lógica.
- Anticipar los recursos o herramientas necesarias para cada paso. Ya he hablado de la importancia de que mis modelos tengan ‘manos’ y ‘ojos’ a través de herramientas.
- Evaluar el estado actual y ajustar el plan si algo no sale como se esperaba.
Es, en esencia, la habilidad de pensar varios movimientos por adelantado, como en una partida de ajedrez, en lugar de solo reaccionar al último movimiento del oponente.
Por qué me obsesiona la planificación
Mi razón principal es sencilla: la robustez y la fiabilidad. Un agente que planifica es un agente menos propenso a ‘alucinar’ acciones, a quedarse en bucles infinitos, o a ignorar restricciones importantes. Cuando mi agente tiene un plan claro, incluso si es solo un esqueleto, el debugging se vuelve una tarea mucho más sencilla. Sé dónde buscar el fallo si el agente no progresa, en lugar de revisar una cadena infinita de interacciones caóticas. Es parte de mi filosofía de debugging de modelos de IA: la caja negra no es una excusa.
Además, me permite construir agentes que pueden abordar problemas más ambiciosos. Sin planificación, te quedas atascado en tareas de un solo paso o de complejidad mínima.
Mi enfoque para dotar a un agente de planes
No hay una solución mágica, pero sí un conjunto de técnicas que me funcionan:
-
Modelos de Lenguaje para la Generación de Planes: Uso un LLM para que, dada una meta inicial y el conjunto de herramientas disponibles, genere un plan de alto nivel. Esto puede ser una simple lista de pasos o un diagrama más complejo. Le pido que piense en voz alta (
thoughtfield) antes de dar el plan final. -
Representación de Estado y Memoria: Para que el agente sepa ‘dónde está’ en su plan y qué ha logrado, es vital una buena gestión del estado. A menudo, esto implica el uso de bases de datos vectoriales y RAG para almacenar el progreso, los resultados de los pasos anteriores, y el contexto relevante. Así, cada vez que el agente evalúa su siguiente paso, tiene toda la información a mano.
-
Monitoreo y Replanificación: Los planes iniciales casi nunca son perfectos. Es crucial que el agente pueda monitorear el resultado de cada acción. Si una acción falla, o el estado del mundo cambia de forma inesperada, el agente debe tener la capacidad de replanificar. Esto no significa descartar todo el plan, sino adaptar el subplan actual o incluso generar un nuevo plan a partir del punto de fallo.
-
Árboles de Pensamiento (Tree of Thoughts) o similares: Para tareas más críticas, he experimentado con estructuras que permiten al agente explorar múltiples ramas de un plan antes de comprometerse con una. Esto es más costoso computacionalmente, pero para decisiones de alto impacto, puede valer la pena.
Los desafíos (y lo que evito)
La planificación no es una panacea. El principal desafío es el costo computacional y la complejidad. Un plan demasiado granular o la exploración de demasiadas ramas pueden ser lentos y caros. Yo evito la planificación excesivamente rígida; prefiero planes flexibles que puedan adaptarse. También me he quemado intentando que el agente planifique todo desde el inicio. A veces, un plan de alto nivel con replanificación adaptativa para los detalles es más eficiente.
Para mí, dotar a mis agentes de la capacidad de planificar ha sido un punto de inflexión. No es magia, es ingeniería: darle a la IA las herramientas para que no solo hable, sino que también piense un poco por sí misma y, por fin, sepa adónde va.