Des chercheurs de l'université de New York se sont inspirés des processus d'apprentissage des enfants pour former un système d'intelligence artificielle.
La méthode, détaillée dans le revue ScienceL'IA peut ainsi apprendre de son environnement sans dépendre fortement de données étiquetées, ce qui est un élément clé de la conception de l'étude.
Il reflète la façon dont les enfants apprennent en absorbant de grandes quantités d'informations de leur environnement, en donnant progressivement un sens au monde qui les entoure.
L'équipe a créé un ensemble de données à partir de 60 heures d'enregistrements vidéo à la première personne provenant d'une caméra montée sur la tête et portée par des enfants âgés de six mois à deux ans, afin de reproduire le point de vue d'un enfant dans leur modèle d'IA.
1/ Aujourd'hui dans Science, nous formons un réseau neuronal à partir de zéro à travers les yeux et les oreilles d'un enfant. Le modèle apprend à associer des mots à des référents visuels, ce qui montre que les outils d'IA d'aujourd'hui permettent d'apprendre des langues à partir du point de vue d'un seul enfant. https://t.co/hPZiiQt6Vv pic.twitter.com/wa8jfn9b5Z
- Wai Keen Vong (@wkvong) 1er février 2024
Les chercheurs ont ensuite formé un modèle d'IA par apprentissage auto-supervisé (SSL) à l'aide de l'ensemble de données vidéo pour voir si l'IA pouvait saisir le concept d'actions et de changements en analysant les informations temporelles ou liées au temps dans les vidéos, comme le font les enfants.
Les approches SSL permettent aux modèles d'IA d'apprendre des modèles et des structures dans les données sans étiquettes explicites.
Emri Orhan, auteur de l'étude, écrit dans son blog de rechercheIl a déjà plaidé en faveur d'une plus grande attention portée à la SSL dans la recherche sur l'IA, qu'il juge essentielle pour comprendre les processus d'apprentissage complexes.
Orhan écrit : "On dit souvent que les enfants apprennent le sens des mots de manière très efficace. Par exemple, au cours de leur deuxième année, les enfants sont censés apprendre quelques mots par jour en moyenne. Cela suggère qu'ils sont probablement capables d'apprendre la plupart de leurs mots à partir d'une poignée d'expositions (peut-être souvent à partir d'une seule exposition), un phénomène également connu sous le nom de "cartographie rapide".
4/ Pour tester cela, quoi de mieux que d'entraîner un réseau neuronal, non pas sur d'énormes quantités de données provenant du web, mais uniquement sur les données que reçoit un seul enfant ? Qu'apprendrait-il alors, le cas échéant ? pic.twitter.com/bQ9aVbXUlB
- Wai Keen Vong (@wkvong) 1er février 2024
L'étude visait également à déterminer si l'IA a besoin de biais ou de "raccourcis" intégrés pour apprendre efficacement ou si elle peut développer une compréhension du monde grâce à des algorithmes d'apprentissage généraux, comme le fait un enfant.
Les résultats sont intrigants. Bien que la vidéo ne couvre qu'environ 1% des heures d'éveil de l'enfant, le système d'IA a pu apprendre de nombreux mots et concepts, démontrant ainsi l'efficacité de l'apprentissage à partir de données limitées mais ciblées.
Les résultats sont les suivants
- Reconnaissance de l'action performance: Les modèles d'IA formés sur l'ensemble de données SAYCam ont été très efficaces pour reconnaître les actions dans les vidéos. Lorsqu'ils ont été testés sur des tâches de reconnaissance d'actions fines telles que Kinetics-700 et Something-Something-V2 (SSV2), les modèles ont affiché des performances impressionnantes, même avec un petit nombre d'exemples étiquetés pour l'entraînement.
- Comparaison avec l'ensemble de données Kinetics-700: Les modèles formés par la SAYCam ont été comparés à des modèles formés sur Kinetics-700, un ensemble de données diversifiées de courts clips YouTube. De manière remarquable, les modèles de la SAYCam ont obtenu des résultats compétitifs, ce qui suggère que les données vidéo axées sur l'enfant et réalistes du point de vue du développement ont fourni un environnement d'apprentissage riche pour l'IA, similaire ou même meilleur que le contenu varié trouvé sur YouTube.
- Compétence en matière d'interpolation vidéo: Un résultat intéressant a été la capacité des modèles à effectuer une interpolation vidéo, c'est-à-dire à prédire les segments manquants dans une séquence vidéo. Cela démontre une compréhension de la dynamique temporelle et de la continuité dans les scènes visuelles, reflétant la façon dont les humains perçoivent et prédisent les actions.
- Représentations robustes d'objets: L'étude a également montré que les modèles formés sur vidéo développaient des représentations d'objets plus robustes que ceux formés sur des images statiques. Cela s'est avéré évident dans les tâches nécessitant la reconnaissance d'objets dans diverses conditions, soulignant la valeur des informations temporelles dans l'apprentissage de modèles plus résistants et polyvalents.
- Mise à l'échelle des données et performance des modèles: La recherche a exploré la façon dont les performances des modèles se sont améliorées avec l'augmentation des données vidéo de l'ensemble de données SAYCam. Cela suggère que l'accès à des données plus étendues et plus réalistes augmentera les performances des modèles.
6/ Résultats : Même avec des données limitées, nous avons constaté que le modèle peut acquérir des correspondances mot-référent à partir de quelques dizaines à quelques centaines d'exemples seulement, qu'il peut se généraliser à de nouveaux ensembles de données visuelles et qu'il peut réaliser des alignements multimodaux. Une fois de plus, un véritable apprentissage de la langue est possible à partir... pic.twitter.com/FCHfZCqftr
- Wai Keen Vong (@wkvong) 1er février 2024
Wai Keen Vong, chercheur au Center for Data Science de l'université de New York, a discuté de la nouveauté de cette approcheNous montrons, pour la première fois, qu'un réseau neuronal formé à partir de données réalistes du point de vue du développement d'un seul enfant peut apprendre à relier les mots à leurs équivalents visuels".
Abordant les problèmes auxquels sont confrontés les modèles d'IA générative modernes, M. Vong a déclaré : "Les systèmes d'IA de pointe actuels sont formés à partir de quantités astronomiques de données (souvent des milliards/trillions de mots), alors que les humains parviennent à apprendre et à utiliser le langage avec beaucoup moins de données (des centaines de millions de mots), de sorte que le lien entre ces progrès en matière d'apprentissage automatique et l'acquisition du langage humain n'est pas clair.
L'intérêt pour les nouvelles méthodes d'apprentissage automatique "légères" va croissant. D'une part, les modèles monolithiques colossaux tels que GPT-3 et GPT-4 ont d'immenses exigences en matière de pouvoir qui ne sont pas faciles à satisfaire.
Deuxièmement, la création de systèmes d'IA bio-inspirés est essentielle pour concevoir des modèles ou des robots qui "pensent" et "se comportent" authentiquement comme nous.
M. Vong a également reconnu les limites de l'étude, notant que "l'une des mises en garde concerne le fait que l'entrée linguistique dans le modèle est un texte, et non le signal de parole sous-jacent que les enfants reçoivent".
Cette étude a remis en question les modèles traditionnels de formation à l'IA et a contribué au débat en cours sur les moyens les plus efficaces d'imiter l'apprentissage biologique.
L'intérêt pour ce sujet va croître à mesure que les modèles d'IA colossaux commenceront à montrer leurs limites pour l'avenir.