Des chercheurs de l'université de New York créent une IA qui voit à travers les yeux d'un enfant

2 février 2024

L'enfant regarde l'IA

Des chercheurs de l'université de New York se sont inspirés des processus d'apprentissage des enfants pour former un système d'intelligence artificielle. 

La méthode, détaillée dans le revue ScienceL'IA peut ainsi apprendre de son environnement sans dépendre fortement de données étiquetées, ce qui est un élément clé de la conception de l'étude.

Il reflète la façon dont les enfants apprennent en absorbant de grandes quantités d'informations de leur environnement, en donnant progressivement un sens au monde qui les entoure.

L'équipe a créé un ensemble de données à partir de 60 heures d'enregistrements vidéo à la première personne provenant d'une caméra montée sur la tête et portée par des enfants âgés de six mois à deux ans, afin de reproduire le point de vue d'un enfant dans leur modèle d'IA. 

Les chercheurs ont ensuite formé un modèle d'IA par apprentissage auto-supervisé (SSL) à l'aide de l'ensemble de données vidéo pour voir si l'IA pouvait saisir le concept d'actions et de changements en analysant les informations temporelles ou liées au temps dans les vidéos, comme le font les enfants.

Les approches SSL permettent aux modèles d'IA d'apprendre des modèles et des structures dans les données sans étiquettes explicites.

Emri Orhan, auteur de l'étude, écrit dans son blog de rechercheIl a déjà plaidé en faveur d'une plus grande attention portée à la SSL dans la recherche sur l'IA, qu'il juge essentielle pour comprendre les processus d'apprentissage complexes. 

Orhan écrit : "On dit souvent que les enfants apprennent le sens des mots de manière très efficace. Par exemple, au cours de leur deuxième année, les enfants sont censés apprendre quelques mots par jour en moyenne. Cela suggère qu'ils sont probablement capables d'apprendre la plupart de leurs mots à partir d'une poignée d'expositions (peut-être souvent à partir d'une seule exposition), un phénomène également connu sous le nom de "cartographie rapide".

L'étude visait également à déterminer si l'IA a besoin de biais ou de "raccourcis" intégrés pour apprendre efficacement ou si elle peut développer une compréhension du monde grâce à des algorithmes d'apprentissage généraux, comme le fait un enfant. 

Les résultats sont intrigants. Bien que la vidéo ne couvre qu'environ 1% des heures d'éveil de l'enfant, le système d'IA a pu apprendre de nombreux mots et concepts, démontrant ainsi l'efficacité de l'apprentissage à partir de données limitées mais ciblées.

Les résultats sont les suivants

  • Reconnaissance de l'action performance: Les modèles d'IA formés sur l'ensemble de données SAYCam ont été très efficaces pour reconnaître les actions dans les vidéos. Lorsqu'ils ont été testés sur des tâches de reconnaissance d'actions fines telles que Kinetics-700 et Something-Something-V2 (SSV2), les modèles ont affiché des performances impressionnantes, même avec un petit nombre d'exemples étiquetés pour l'entraînement.
  • Comparaison avec l'ensemble de données Kinetics-700: Les modèles formés par la SAYCam ont été comparés à des modèles formés sur Kinetics-700, un ensemble de données diversifiées de courts clips YouTube. De manière remarquable, les modèles de la SAYCam ont obtenu des résultats compétitifs, ce qui suggère que les données vidéo axées sur l'enfant et réalistes du point de vue du développement ont fourni un environnement d'apprentissage riche pour l'IA, similaire ou même meilleur que le contenu varié trouvé sur YouTube.
  • Compétence en matière d'interpolation vidéo: Un résultat intéressant a été la capacité des modèles à effectuer une interpolation vidéo, c'est-à-dire à prédire les segments manquants dans une séquence vidéo. Cela démontre une compréhension de la dynamique temporelle et de la continuité dans les scènes visuelles, reflétant la façon dont les humains perçoivent et prédisent les actions.
  • Représentations robustes d'objets: L'étude a également montré que les modèles formés sur vidéo développaient des représentations d'objets plus robustes que ceux formés sur des images statiques. Cela s'est avéré évident dans les tâches nécessitant la reconnaissance d'objets dans diverses conditions, soulignant la valeur des informations temporelles dans l'apprentissage de modèles plus résistants et polyvalents.
  • Mise à l'échelle des données et performance des modèles: La recherche a exploré la façon dont les performances des modèles se sont améliorées avec l'augmentation des données vidéo de l'ensemble de données SAYCam. Cela suggère que l'accès à des données plus étendues et plus réalistes augmentera les performances des modèles.

Wai Keen Vong, chercheur au Center for Data Science de l'université de New York, a discuté de la nouveauté de cette approcheNous montrons, pour la première fois, qu'un réseau neuronal formé à partir de données réalistes du point de vue du développement d'un seul enfant peut apprendre à relier les mots à leurs équivalents visuels". 

Abordant les problèmes auxquels sont confrontés les modèles d'IA générative modernes, M. Vong a déclaré : "Les systèmes d'IA de pointe actuels sont formés à partir de quantités astronomiques de données (souvent des milliards/trillions de mots), alors que les humains parviennent à apprendre et à utiliser le langage avec beaucoup moins de données (des centaines de millions de mots), de sorte que le lien entre ces progrès en matière d'apprentissage automatique et l'acquisition du langage humain n'est pas clair.

L'intérêt pour les nouvelles méthodes d'apprentissage automatique "légères" va croissant. D'une part, les modèles monolithiques colossaux tels que GPT-3 et GPT-4 ont d'immenses exigences en matière de pouvoir qui ne sont pas faciles à satisfaire. 

Deuxièmement, la création de systèmes d'IA bio-inspirés est essentielle pour concevoir des modèles ou des robots qui "pensent" et "se comportent" authentiquement comme nous.

M. Vong a également reconnu les limites de l'étude, notant que "l'une des mises en garde concerne le fait que l'entrée linguistique dans le modèle est un texte, et non le signal de parole sous-jacent que les enfants reçoivent".

Cette étude a remis en question les modèles traditionnels de formation à l'IA et a contribué au débat en cours sur les moyens les plus efficaces d'imiter l'apprentissage biologique.

L'intérêt pour ce sujet va croître à mesure que les modèles d'IA colossaux commenceront à montrer leurs limites pour l'avenir. 

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Sam Jeans

Sam est un rédacteur scientifique et technologique qui a travaillé dans diverses start-ups spécialisées dans l'IA. Lorsqu'il n'écrit pas, on peut le trouver en train de lire des revues médicales ou de fouiller dans des boîtes de disques vinyles.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation