Robots que aprenden en tiempo real: la revolución de Nested Learning - Región Digital

Ahora

martes, 13 de enero de 2026

Robots que aprenden en tiempo real: la revolución de Nested Learning

Una vez más, la respuesta vino de la neurociencia. Investigadores de Google Research proponen una nueva forma de entender los modelos de IA que podría permitir, por primera vez, que sistemas como los robots aprendan en tiempo real mientras interactúan con su entorno. 

Su marco, llamado Nested Learning (NL), parte de una idea provocadora: el problema no es solo el tamaño de los modelos, sino que seguimos pensándolos como ingenieros, no como neurocientíficos.

Hasta ahora, los modelos de lenguaje y los robots que los incorporan tenían básicamente dos fuentes de información: lo aprendido durante el pre-training y lo que cabe en la ventana de contexto. Nada más. Eso significa que, una vez desplegados, sus pesos permanecen congelados: pueden usar su memoria de largo plazo y manejar contexto inmediato, pero no incorporar conocimiento nuevo en sus parámetros ni consolidar habilidades descubiertas sobre la marcha. En términos neuropsicológicos, funcionan como alguien con amnesia anterógrada: recuerdan el pasado, entienden el presente, pero no pueden aprender nada nuevo.

El trabajo reinterpreta los Transformers y otros modelos profundos desde una mirada neurocientífica y propone el paradigma de Nested Learning. Según NL, un modelo de deep learning no es solo una pila de capas apiladas, sino un sistema de memorias que operan a distintas velocidades o frecuencias. Cada componente del modelo —la atención, las capas MLP e incluso los optimizadores— se comporta como una memoria asociativa que almacena, resume y reutiliza información del pasado para producir mejores resultados.

En este marco, “entrenar” equivale a escribir en esas memorias. Cada corrección que recibe el modelo se interpreta como una instrucción de memoria: si ve un círculo y lo clasifica como cuadrado, la señal de error le dice “cuando veas algo así, ajusta tus parámetros en esta dirección”. Esas asociaciones se guardan y el error disminuye la próxima vez, en una lógica muy cercana al predictive coding que describe cómo el cerebro minimiza constantemente sus predicciones fallidas. Los optimizadores dejan de ser simples trucos matemáticos y pasan a verse como memorias internas especializadas que almacenan el historial de gradientes y afinan cómo debe actualizarse el sistema.

Aquí entra en escena HOPE, el módulo quizá más llamativo del trabajo. HOPE es un módulo de aprendizaje auto-referencial: un bloque capaz de aprender su propio algoritmo de actualización, apoyado en un sistema de memoria continua llamado Continuum Memory System (CMS). En lugar de la dicotomía clásica entre memoria a corto y largo plazo, el CMS define memorias jerárquicas organizadas por frecuencia: algunas se actualizan cada token, otras cada cientos o miles de tokens. Varias memorias funcionan en paralelo, cada una especializada en una escala temporal distinta.

Lo decisivo es que, gracias a este diseño, los pesos del modelo pueden seguir actualizándose incluso después del entrenamiento, sin necesidad de reiniciar todo el proceso ni de apoyarse siempre en componentes externos. HOPE, combinado con el CMS, muestra resultados prometedores en tareas de modelado de lenguaje, incorporación de nuevo conocimiento, few-shot learning y razonamiento en contextos largos. En esencia, el modelo deja de ser una foto fija de lo que aprendió en el pasado y se convierte en un sistema de memoria vivo, capaz de seguir ajustándose en funcionamiento.

Las implicaciones para la robótica son profundas. Un robot equipado con este enfoque podría ajustar su fuerza de agarre tras fallar varias veces, adaptarse a un terreno desconocido, mejorar una habilidad sobre la marcha o aprender las preferencias específicas de un usuario, todo ello sin pasar por una nueva ronda de entrenamiento masivo en un centro de datos. Sería un robot que acumula experiencia y mejora con ella, más cercano a un organismo biológico que a una máquina programada una vez para siempre.

Si esta línea de investigación se consolida, podríamos estar ante un cambio de paradigma: pasar de modelos estáticos, actualizados cada cierto tiempo en lotes, a sistemas de memoria dinámicos que adaptan su comportamiento en tiempo real. Eso abriría la puerta a una nueva generación de robots domésticos y asistentes inteligentes que no solo ejecutan instrucción tras instrucción, sino que negocian, recuerdan y evolucionan con nosotros. Puede que este trabajo sea “solo” un avance más en IA… o el primer capítulo de la robótica realmente adaptativa en entornos cotidianos. Solo el tiempo —y muchos experimentos— lo dirán.

Fuente: Ali Behrouz, Meisam Razaviyayn, Peilin Zhong y Vahab Mirrokni, “Nested Learning: The Illusion of Deep Learning Architecture”, NeurIPS 2025 (versión preprint).

No hay comentarios:

Publicar un comentario