El 'funciona en mi máquina' en Machine Learning: Mi cruzada por la reproducibilidad

Publicado el 7 de marzo de 2026

No te imaginas la cantidad de veces que he escuchado, o peor aún, he dicho yo mismo: “Pero si en mi máquina funcionaba perfecto”. En el mundo del desarrollo de software, esto es un clásico. En Machine Learning, es una maldición. Un día, ese modelo que entrenaste con tanto esfuerzo, y que te dio resultados espectaculares en tu entorno local, se niega a rendir en producción. O, incluso peor, tu compañero intenta replicar tu experimento y obtiene métricas completamente distintas.

He pasado noches debuggeando modelos que, por arte de magia (o más bien, por ausencia de reproducibilidad), fallaban al intentar moverlos de mi portátil al servidor. No es solo frustrante; es inaceptable cuando hablamos de sistemas que toman decisiones importantes. Si no puedes recrear el mismo resultado dos veces con el mismo input, ¿qué tipo de ingeniería estamos haciendo?

¿Por qué la reproducibilidad es un dolor de cabeza en ML?

La cosa es que en ML, el problema es mucho más complejo que un simple npm install fallido. Aquí no solo entra el código. Tienes:

El Código: Versiones de librerías, dependencias, el propio código del modelo. Esto es lo más obvio.
Los Datos: ¿Usaste la misma versión de los datos? ¿Se preprocesaron exactamente igual? He visto a equipos gastar horas porque los datos de entrenamiento se actualizaron en un bucket S3 sin un control de versiones decente.
El Entorno: Versión de Python, CUDA, librerías específicas de ML (TensorFlow, PyTorch, Scikit-learn). Un pip install alegre puede joderte el día.
La Aleatoriedad: Semillas aleatorias. ¡Esto es crítico! Entrenar un modelo con una semilla diferente puede llevar a resultados distintos. Si no fijas las semillas, estás dejando una puerta abierta a la variabilidad incontrolada.

Mis armas para combatir el caos

A lo largo de los años, he ido puliendo mi arsenal para que mis modelos sean tan predecibles como un algoritmo de ordenación. Esto es lo que me funciona:

1. Control de Versiones para Todo (y cuando digo todo, es TODO)

Sí, Git para el código es la base. Pero no te quedes ahí. Considera herramientas para versionar los datasets y los modelos entrenados. Data Version Control (DVC) es mi favorito personal. Te permite tratar tus datasets grandes y tus modelos como archivos versionables en Git, sin subirlos al repositorio. En mi experiencia, esto ha sido un game changer. No más “¿cuál era el dataset que usaste?” o “¿con qué versión de embeddings entrenaste esto?“.

2. Entornos Contenerizados, sin Excusas

Si aún no usas Docker para tus proyectos de ML, estás perdiendo el tiempo. Me da igual si te parece una curva de aprendizaje inicial; el tiempo que ahorras después es oro puro. Docker me asegura que el entorno de desarrollo es exactamente el mismo que el de producción. Se acabó el “funciona en mi máquina pero no en el servidor”. Creo firmemente que un Dockerfile bien hecho es una garantía de estabilidad. También he usado Conda para entornos más pequeños, pero para despliegues, Docker es mi rey.

3. Semillas Aleatorias, Siempre Fijas

Esto es un detalle pequeño pero brutal. Siempre que inicio un entrenamiento, fijo las semillas aleatorias. No solo para Python (random.seed), NumPy (np.random.seed), sino también para las librerías de ML (torch.manual_seed, tf.random.set_seed). Sin esto, el mismo código, con los mismos datos, en el mismo entorno, puede darte un modelo diferente cada vez. Y eso, amigo mío, no es reproducible.

4. Tracking de Experimentos: El Diario de un Científico

Para mí, cada entrenamiento es un experimento. Y cada experimento necesita un registro. Uso herramientas como MLflow Tracking o Weights & Biases (dependiendo del proyecto y el presupuesto). Estas herramientas registran automáticamente los parámetros, las métricas, el código fuente (¡incluso el commit de Git!) y los artefactos (el modelo entrenado). Cuando algo falla, o quiero comparar el rendimiento de dos experimentos, tengo toda la información al alcance de la mano. Es el primer lugar donde miro cuando estoy Debugging Modelos de Machine Learning: Mis batallas a las 3 AM.

La reproducibilidad no es un lujo, es una necesidad

Mira, entiendo que añadir todas estas capas pueda parecer trabajo extra al principio. Pero mi experiencia me dice que es una inversión que se paga sola mil veces. Te ahorra noches en vela, discusiones estériles con el equipo y, lo más importante, te permite tener confianza en los modelos que despliegas. Si no puedes replicar un resultado, ¿cómo puedes decir que entiendes lo que está pasando? La optimización de hiperparámetros, por ejemplo, se vuelve una lotería si no tienes un sistema robusto para registrar cada intento.

Para mí, la reproducibilidad es uno de los pilares de la ingeniería de Machine Learning. Es lo que transforma un ejercicio de ciencia de datos, a menudo caótico y exploratorio, en un proceso ingenieril sólido y confiable. Si vas a construir sistemas de IA que se usen en el mundo real, hazte un favor y conviértete en un evangelista de la reproducibilidad. Tus modelos, y tu cordura, te lo agradecerán.

El 'funciona en mi máquina' en Machine Learning: Mi cruzada por la reproducibilidad

¿Por qué la reproducibilidad es un dolor de cabeza en ML?

Mis armas para combatir el caos

1. Control de Versiones para Todo (y cuando digo todo, es TODO)

2. Entornos Contenerizados, sin Excusas

3. Semillas Aleatorias, Siempre Fijas

4. Tracking de Experimentos: El Diario de un Científico

La reproducibilidad no es un lujo, es una necesidad

Notas relacionadas

Funciones de Pérdida: El Verdadero Cerebro Detrás de Tus Modelos de IA (y por qué no le prestas atención)

El Bucle de Razonamiento del Agente de IA: Por qué no es solo un 'while True' y cuándo se rompe

Debugging Modelos de Machine Learning: Mis batallas a las 3 AM (y lo que la intuición no te dice)

Las 'manos' de tus Agentes de IA: Por qué las herramientas son más importantes que el mejor prompt

SOLID Principles: Por qué me obsesionan (y no, no es dogma ciego)

Optimización de Hiperparámetros: Por qué dejarla al azar es un error y cómo la ataco yo

Simbolismo vs. Conexión en IA: Por qué la 'Guerra' fue una Falacia y aún necesitamos las dos caras de la moneda

Lo que tu Agente de IA 've' (o debería ver): Más allá de solo prompts