Observabilidad: Por qué mirar solo logs es como pilotar a ciegas (y cómo evito estrellarme)

Publicado el 6 de abril de 2026

Cuántas veces me he encontrado a las 3 de la mañana, con la cafeína haciendo estragos, mirando una pantalla llena de logs que, honestamente, no me decían NADA útil. Una línea suelta aquí, otra por allá, un error genérico que podría significar diez cosas diferentes. He estado en ese infierno más veces de las que quiero admitir, y fue ahí donde me di cuenta de una verdad incómoda: confiar solo en los logs es como intentar pilotar un avión mirando únicamente por un ojo de buey.

El agujero negro de la información: por qué los logs no bastan

Mis logs siempre han sido la primera línea de defensa, el registro de lo que sucedió. Son cruciales para una autopsia, para saber si una función se llamó, si una transacción falló en un punto específico. Pero tienen límites severos. Cuando tienes un sistema distribuido, con microservicios, lambdas, y quizá hasta algún agente de IA haciendo de las suyas, un error en un log no te dice el viaje completo de esa petición. No te dice si fue un pico de tráfico, si la base de datos se saturó, o si un servicio downstream respondió lento.

Fue en proyectos donde los sistemas crecieron y se entrelazaron que la frustración se convirtió en una obsesión por algo más. Necesitaba ver el bosque, no solo los árboles. Y ahí es donde entra en juego la famosa tríada de la observabilidad: Logs, Métricas y Trazas.

La santísima trinidad del “sé lo que está pasando”

1. Logs: El diario de abordo.

Sí, ya sé que he criticado los logs, pero son imprescindibles. Son el qué ha pasado, el evento discreto. Un buen log me dirá que la función procesar_pedido() se ejecutó, y si hubo un error, me dará el stack trace completo. Mi recomendación aquí es simple: ¡estructúralos! Usa JSON. Así son legibles por máquinas y puedes buscarlos, filtrarlos y agregarlos de forma decente. Si no puedes buscar un log por correlation_id o user_id, estás perdiendo el tiempo. Ya lo he vivido, y es un infierno de grep en la línea de comandos que no se lo deseo a nadie.

2. Métricas: El pulso del sistema.

Las métricas son el cuánto y el cómo de rápido. No me dicen un evento específico, sino tendencias, agregados. Me dicen que mi latencia promedio ha subido de 100ms a 500ms, que el uso de CPU está al 90%, o que la cola de mensajes tiene 10.000 elementos pendientes. Las métricas son el

Observabilidad: Por qué mirar solo logs es como pilotar a ciegas (y cómo evito estrellarme)

El agujero negro de la información: por qué los logs no bastan

La santísima trinidad del “sé lo que está pasando”

Notas relacionadas

Modularidad y Composición: Por qué mis sistemas (y agentes de IA) no son un monolito pegado con cinta aislante

Máquinas de Estados: Mi antídoto contra el código espagueti (y por qué tus agentes de IA las necesitan más de lo que crees)

La Abstracción: Mi Superpoder Secreto contra el Caos en el Código (y en la IA)

El infierno del 'esto funcionaba ayer': Mi cruzada por el versionado de modelos y experimentos en ML

¿Tu IA hace lo que crees que hace? Mi cruzada por la observabilidad en sistemas de ML

Estructuras de Datos: El Andamiaje Silencioso Detrás de Cada Buena Solución (y por qué no las puedes ignorar)

Versionar Datos en Machine Learning: La Guerra Fría de la Reproducibilidad (y cómo la gano yo)

La Gestión del Estado en Agentes de IA: Por qué me quita el sueño (y cómo la afronto)