Recuerdo bien una madrugada, calculando el coste de etiquetar miles de imágenes para un proyecto de detección de objetos. La cifra era obscena, mi presupuesto se iba al traste y el cansancio ya me hacía ver fantasmas de etiquetas manuales. ¿De verdad no había una forma más inteligente de hacer esto? Fue entonces cuando me puse a investigar sobre Active Learning, y no me arrepiento.
La sangría del etiquetado
El Machine Learning, sobre todo el supervisado, es un devorador insaciable de datos etiquetados. Y el etiquetado, amigos, es caro. Muy caro. Requiere tiempo, personas, herramientas y una paciencia de santo. Para mí, la frustración crecía al ver que muchos de esos datos etiquetados eran redundantes o no aportaban un valor significativo al modelo. Parecía que tirábamos dinero en un pozo sin fondo, esperando que “más datos” siempre fuera la solución mágica.
¿Qué demonios es Active Learning y por qué me salvó?
La idea detrás de Active Learning es elegante: no etiquetar todos los datos, sino solo aquellos que más valor aportan a tu modelo. En lugar de una selección aleatoria o masiva, dejas que el propio modelo