Os investigadores da Universidade de Nova Iorque inspiraram-se nos processos de aprendizagem das crianças para treinar um sistema de IA.
O método, descrito em pormenor no revista Sciencepermite à IA aprender com o seu ambiente sem depender fortemente de dados rotulados, o que é fundamental para a conceção do estudo.
É um reflexo da forma como as crianças aprendem, absorvendo grandes quantidades de informação do que as rodeia, dando gradualmente sentido ao mundo que as rodeia.
A equipa criou um conjunto de dados de 60 horas de gravações de vídeo na primeira pessoa a partir de uma câmara montada na cabeça usada por crianças com idades compreendidas entre os seis meses e os dois anos para reproduzir a perspetiva de uma criança no seu modelo de IA.
1/ Hoje na Science, treinamos uma rede neural de raiz através dos olhos e ouvidos de uma criança. O modelo aprende a mapear palavras para referentes visuais, mostrando como a aprendizagem de línguas com base na perspetiva de apenas uma criança é possível com as ferramentas de IA actuais. https://t.co/hPZiiQt6Vv pic.twitter.com/wa8jfn9b5Z
- Wai Keen Vong (@wkvong) 1 de fevereiro de 2024
Em seguida, os investigadores treinaram um modelo de IA de aprendizagem auto-supervisionada (SSL) utilizando o conjunto de dados de vídeo para ver se a IA conseguia apreender o conceito de acções e mudanças através da análise de informações temporais ou relacionadas com o tempo nos vídeos, tal como fazem as crianças.
As abordagens SSL permitem que os modelos de IA aprendam padrões e estruturas nos dados sem rótulos explícitos.
O autor do estudo, Emri Orhan, escrevendo no seu blogue de investigaçãoO Comissário da UE para a Inteligência Artificial, Dr. Giuseppe, já tinha defendido anteriormente uma maior atenção à SSL na investigação sobre IA, que considera fundamental para compreender processos de aprendizagem complexos.
Orhan escreveu: "Diz-se frequentemente que as crianças aprendem o significado das palavras de forma muito eficiente. Por exemplo, no segundo ano de vida, diz-se que as crianças estão a aprender, em média, algumas palavras por dia. Isto sugere que são provavelmente capazes de aprender a maior parte das suas palavras a partir de apenas algumas exposições (talvez muitas vezes a partir de uma única exposição), um fenómeno também conhecido como mapeamento rápido".
4/ Para testar isto, nada melhor do que treinar uma rede neuronal, não com enormes quantidades de dados da Web, mas apenas com o input que uma única criança recebe? O que é que ela aprenderia nessa altura, se é que aprenderia alguma coisa? pic.twitter.com/bQ9aVbXUlB
- Wai Keen Vong (@wkvong) 1 de fevereiro de 2024
O estudo também teve como objetivo determinar se a IA precisa de preconceitos ou "atalhos" incorporados para aprender eficazmente ou se pode desenvolver uma compreensão do mundo através de algoritmos de aprendizagem gerais, tal como acontece com uma criança.
Os resultados foram intrigantes. Apesar de o vídeo cobrir apenas cerca de 1% das horas de vigília da criança, o sistema de IA conseguiu aprender inúmeras palavras e conceitos, demonstrando a eficiência da aprendizagem a partir de dados limitados mas direccionados.
Os resultados incluem:
- Desempenho do reconhecimento de acções: Os modelos de IA treinados no conjunto de dados SAYCam foram altamente eficazes no reconhecimento de acções a partir de vídeos. Quando testados em tarefas de reconhecimento de acções de precisão, como o Kinetics-700 e o Something-Something-V2 (SSV2), os modelos revelaram um desempenho impressionante, mesmo com apenas um pequeno número de exemplos rotulados para treino.
- Comparação com o conjunto de dados Kinetics-700: Os modelos treinados pela SAYCam foram comparados com modelos treinados no Kinetics-700, um conjunto de dados diversificado de pequenos clips do YouTube. Notavelmente, os modelos SAYCam tiveram um desempenho competitivo, o que sugere que os dados de vídeo realistas em termos de desenvolvimento e centrados nas crianças proporcionaram um ambiente de aprendizagem rico para a IA, semelhante ou mesmo melhor do que o conteúdo variado encontrado no YouTube.
- Capacidade de interpolação de vídeo: Um resultado interessante foi a capacidade dos modelos para efetuar a interpolação de vídeo - prevendo segmentos em falta numa sequência de vídeo. Isto demonstrou uma compreensão da dinâmica temporal e da continuidade em cenas visuais, espelhando a forma como os humanos percepcionam e prevêem acções.
- Representações robustas de objectos: O estudo também revelou que os modelos treinados em vídeo desenvolveram representações de objectos mais robustas do que os modelos treinados em imagens estáticas. Este facto foi evidente em tarefas que exigiam o reconhecimento de objectos em várias condições, salientando o valor da informação temporal na aprendizagem de modelos mais resistentes e versáteis.
- Escalonamento de dados e desempenho do modelo: A investigação explorou a forma como o desempenho dos modelos melhorou com o aumento dos dados de vídeo do conjunto de dados SAYCam. Isto sugere que o acesso a dados mais extensos e realistas aumentará o desempenho dos modelos.
6/ Resultados: Mesmo com dados limitados, descobrimos que o modelo pode adquirir mapeamentos palavra-referência a partir de meras dezenas a centenas de exemplos, generalizar a zero para novos conjuntos de dados visuais e conseguir um alinhamento multimodal. Mais uma vez, a aprendizagem genuína de línguas é possível a partir de... pic.twitter.com/FCHfZCqftr
- Wai Keen Vong (@wkvong) 1 de fevereiro de 2024
Wai Keen Vong, cientista investigador do Centro de Ciência de Dados da NYU, discutiu a novidade desta abordagem, afirmando: "Mostramos, pela primeira vez, que uma rede neuronal treinada com base nesta informação realista do ponto de vista do desenvolvimento de uma única criança pode aprender a associar palavras às suas contrapartes visuais".
Ao abordar as questões com que se confrontam os modelos modernos de IA generativa, Vong afirmou: "Os actuais sistemas de IA de última geração são treinados utilizando quantidades astronómicas de dados (frequentemente milhares de milhões/triliões de palavras) e, no entanto, os seres humanos conseguem aprender e utilizar a linguagem com muito menos dados (centenas de milhões de palavras), pelo que a ligação entre estes avanços na aprendizagem automática e a aquisição da linguagem humana não é clara".
O interesse por métodos novos e "leves" de aprendizagem automática está a aumentar. Por um lado, modelos monolíticos colossais como o GPT-3 e o GPT-4 têm imensas exigências de poder que não são fáceis de satisfazer.
Em segundo lugar, a criação de sistemas de IA bio-inspirados é fundamental para conceber modelos ou robôs que "pensem" e "se comportem" autenticamente como nós.
Vong também reconheceu as limitações do estudo, observando: "Uma ressalva é que a entrada de linguagem para o modelo é texto, não o sinal de fala subjacente que as crianças recebem".
Este estudo desafiou os modelos tradicionais de formação em IA e contribuiu para o debate em curso sobre as formas mais eficazes de imitar a aprendizagem biológica.
O interesse por este tema vai aumentar à medida que os modelos colossais de IA começarem a mostrar limitações para o futuro.