Investigadores de la Universidad de Nueva York se inspiraron en los procesos de aprendizaje de los niños para entrenar un sistema de IA.
El método, detallado en el revista Sciencepermite a la IA aprender de su entorno sin depender en gran medida de datos etiquetados, lo que es clave para el diseño del estudio.
Refleja la forma en que los niños aprenden absorbiendo grandes cantidades de información de su entorno, dando sentido gradualmente al mundo que les rodea.
El equipo creó un conjunto de datos de 60 horas de grabaciones de vídeo en primera persona desde una cámara montada en la cabeza que llevaban niños de entre seis meses y dos años para reproducir la perspectiva de un niño en su modelo de IA.
1/ Hoy en Science, entrenamos una red neuronal desde cero a través de los ojos y oídos de un niño. El modelo aprende a asignar palabras a referentes visuales, lo que demuestra que con las herramientas actuales de IA es posible aprender idiomas desde la perspectiva de un solo niño. https://t.co/hPZiiQt6Vv pic.twitter.com/wa8jfn9b5Z
- Wai Keen Vong (@wkvong) 1 de febrero de 2024
A continuación, los investigadores entrenaron un modelo de IA de aprendizaje autosupervisado (SSL) utilizando el conjunto de datos de vídeo para ver si la IA podía captar el concepto de acciones y cambios analizando la información temporal o relacionada con el tiempo en los vídeos como hacen los niños.
Los enfoques SSL permiten a los modelos de IA aprender patrones y estructuras en los datos sin etiquetas explícitas.
Emri Orhan, autor del estudio, escribiendo en su blog de investigaciónya había defendido anteriormente que se prestara más atención a la SSL en la investigación de la IA, que considera fundamental para comprender los complejos procesos de aprendizaje.
Orhan escribió: "A menudo se dice que los niños aprenden el significado de las palabras con gran eficacia. Por ejemplo, se afirma que en su segundo año de vida aprenden una media de unas pocas palabras al día. Esto sugiere que probablemente son capaces de aprender la mayoría de las palabras a partir de un puñado de exposiciones (quizá a menudo a partir de una sola exposición), un fenómeno también conocido como mapeo rápido."
4/ Para probar esto, ¿qué mejor que entrenar una red neuronal, no con enormes cantidades de datos de la web, sino sólo con la entrada que recibe un solo niño? ¿Qué aprendería entonces, si es que aprendiera algo? pic.twitter.com/bQ9aVbXUlB
- Wai Keen Vong (@wkvong) 1 de febrero de 2024
El estudio también pretendía averiguar si la IA necesita sesgos o "atajos" incorporados para aprender con eficacia o si podría desarrollar una comprensión del mundo a través de algoritmos de aprendizaje generales, de forma parecida a como lo hace un niño.
Los resultados fueron intrigantes. A pesar de que el vídeo sólo abarcaba unos 1% de las horas de vigilia del niño, el sistema de IA pudo aprender numerosas palabras y conceptos, lo que demuestra la eficacia del aprendizaje a partir de datos limitados pero específicos.
Los resultados incluyen:
- Rendimiento del reconocimiento de acciones: Los modelos de IA entrenados con el conjunto de datos SAYCam fueron muy eficaces en el reconocimiento de acciones a partir de vídeos. Cuando se probaron en tareas de reconocimiento de acciones precisas como Kinetics-700 y Something-Something-V2 (SSV2), los modelos mostraron un rendimiento impresionante, incluso con solo un pequeño número de ejemplos etiquetados para el entrenamiento.
- Comparación con el conjunto de datos Kinetics-700: Los modelos entrenados con SAYCam se compararon con modelos entrenados con Kinetics-700, un variado conjunto de datos de clips cortos de YouTube. Sorprendentemente, los modelos SAYCam obtuvieron resultados competitivos, lo que sugiere que los datos de vídeo centrados en los niños y realistas desde el punto de vista del desarrollo proporcionaron un entorno de aprendizaje rico para la IA, similar o incluso mejor que el contenido variado de YouTube.
- Capacidad de interpolación de vídeo: Un resultado interesante fue la capacidad de los modelos para interpolar vídeos, es decir, predecir los segmentos que faltan en una secuencia de vídeo. Esto demostró una comprensión de la dinámica temporal y la continuidad en las escenas visuales, reflejando la forma en que los humanos perciben y predicen las acciones.
- Representaciones sólidas de objetos: El estudio también descubrió que los modelos entrenados con vídeo desarrollaban representaciones de objetos más robustas que los entrenados con imágenes estáticas. Esto se puso de manifiesto en tareas que requerían el reconocimiento de objetos en diversas condiciones, lo que pone de relieve el valor de la información temporal en el aprendizaje de modelos más resistentes y versátiles.
- Escalado de datos y rendimiento del modelo: La investigación exploró cómo mejoraba el rendimiento de los modelos con el aumento de los datos de vídeo del conjunto de datos SAYCam. Esto sugiere que el acceso a datos más amplios y realistas aumentará el rendimiento de los modelos.
6/ Resultados: Incluso con datos limitados, descubrimos que el modelo puede adquirir mapeos palabra-referente a partir de sólo decenas a cientos de ejemplos, generalizar sin disparos a nuevos conjuntos de datos visuales y lograr una alineación multimodal. Una vez más, el aprendizaje genuino del lenguaje es posible a partir de... pic.twitter.com/FCHfZCqftr
- Wai Keen Vong (@wkvong) 1 de febrero de 2024
Wai Keen Vong, investigador científico del Centro de Ciencia de Datos de la Universidad de Nueva York, debatió la novedad de este enfoque"Demostramos, por primera vez, que una red neuronal entrenada a partir de datos realistas sobre el desarrollo de un solo niño puede aprender a relacionar palabras con sus equivalentes visuales".
Refiriéndose a los problemas a los que se enfrentan los modelos modernos de IA generativa, Vong afirmó: "Los sistemas de IA más avanzados de hoy en día se entrenan utilizando cantidades astronómicas de datos (a menudo miles de millones/trillones de palabras) y, sin embargo, los humanos consiguen aprender y utilizar el lenguaje con muchos menos datos (cientos de millones de palabras), por lo que no está clara la conexión entre estos avances en el aprendizaje automático y la adquisición del lenguaje humano".
El interés por métodos de aprendizaje automático novedosos y "ligeros" va en aumento. Por un lado, los colosales modelos monolíticos como GPT-3 y GPT-4 tienen inmensas demandas de poder que no son fáciles de satisfacer.
En segundo lugar, crear sistemas de IA bioinspirados es clave para diseñar modelos o robots que "piensen" y "se comporten" auténticamente como nosotros.
Vong también reconoció las limitaciones del estudio, señalando: "Una advertencia es que la entrada de lenguaje al modelo es texto, no la señal de habla subyacente que reciben los niños".
Este estudio puso en tela de juicio los modelos tradicionales de entrenamiento de la IA y contribuyó al debate actual sobre las formas más eficaces de imitar el aprendizaje biológico.
El interés por este tema crecerá a medida que los colosales modelos de IA empiecen a mostrar sus limitaciones de cara al futuro.