Investigadores da Universidade de Nova Iorque criam uma IA que vê através dos olhos de uma criança

2 de fevereiro de 2024

Olhos de criança IA

Os investigadores da Universidade de Nova Iorque inspiraram-se nos processos de aprendizagem das crianças para treinar um sistema de IA. 

O método, descrito em pormenor no revista Sciencepermite à IA aprender com o seu ambiente sem depender fortemente de dados rotulados, o que é fundamental para a conceção do estudo.

É um reflexo da forma como as crianças aprendem, absorvendo grandes quantidades de informação do que as rodeia, dando gradualmente sentido ao mundo que as rodeia.

A equipa criou um conjunto de dados de 60 horas de gravações de vídeo na primeira pessoa a partir de uma câmara montada na cabeça usada por crianças com idades compreendidas entre os seis meses e os dois anos para reproduzir a perspetiva de uma criança no seu modelo de IA. 

Em seguida, os investigadores treinaram um modelo de IA de aprendizagem auto-supervisionada (SSL) utilizando o conjunto de dados de vídeo para ver se a IA conseguia apreender o conceito de acções e mudanças através da análise de informações temporais ou relacionadas com o tempo nos vídeos, tal como fazem as crianças.

As abordagens SSL permitem que os modelos de IA aprendam padrões e estruturas nos dados sem rótulos explícitos.

O autor do estudo, Emri Orhan, escrevendo no seu blogue de investigaçãoO Comissário da UE para a Inteligência Artificial, Dr. Giuseppe, já tinha defendido anteriormente uma maior atenção à SSL na investigação sobre IA, que considera fundamental para compreender processos de aprendizagem complexos. 

Orhan escreveu: "Diz-se frequentemente que as crianças aprendem o significado das palavras de forma muito eficiente. Por exemplo, no segundo ano de vida, diz-se que as crianças estão a aprender, em média, algumas palavras por dia. Isto sugere que são provavelmente capazes de aprender a maior parte das suas palavras a partir de apenas algumas exposições (talvez muitas vezes a partir de uma única exposição), um fenómeno também conhecido como mapeamento rápido".

O estudo também teve como objetivo determinar se a IA precisa de preconceitos ou "atalhos" incorporados para aprender eficazmente ou se pode desenvolver uma compreensão do mundo através de algoritmos de aprendizagem gerais, tal como acontece com uma criança. 

Os resultados foram intrigantes. Apesar de o vídeo cobrir apenas cerca de 1% das horas de vigília da criança, o sistema de IA conseguiu aprender inúmeras palavras e conceitos, demonstrando a eficiência da aprendizagem a partir de dados limitados mas direccionados.

Os resultados incluem:

  • Desempenho do reconhecimento de acções: Os modelos de IA treinados no conjunto de dados SAYCam foram altamente eficazes no reconhecimento de acções a partir de vídeos. Quando testados em tarefas de reconhecimento de acções de precisão, como o Kinetics-700 e o Something-Something-V2 (SSV2), os modelos revelaram um desempenho impressionante, mesmo com apenas um pequeno número de exemplos rotulados para treino.
  • Comparação com o conjunto de dados Kinetics-700: Os modelos treinados pela SAYCam foram comparados com modelos treinados no Kinetics-700, um conjunto de dados diversificado de pequenos clips do YouTube. Notavelmente, os modelos SAYCam tiveram um desempenho competitivo, o que sugere que os dados de vídeo realistas em termos de desenvolvimento e centrados nas crianças proporcionaram um ambiente de aprendizagem rico para a IA, semelhante ou mesmo melhor do que o conteúdo variado encontrado no YouTube.
  • Capacidade de interpolação de vídeo: Um resultado interessante foi a capacidade dos modelos para efetuar a interpolação de vídeo - prevendo segmentos em falta numa sequência de vídeo. Isto demonstrou uma compreensão da dinâmica temporal e da continuidade em cenas visuais, espelhando a forma como os humanos percepcionam e prevêem acções.
  • Representações robustas de objectos: O estudo também revelou que os modelos treinados em vídeo desenvolveram representações de objectos mais robustas do que os modelos treinados em imagens estáticas. Este facto foi evidente em tarefas que exigiam o reconhecimento de objectos em várias condições, salientando o valor da informação temporal na aprendizagem de modelos mais resistentes e versáteis.
  • Escalonamento de dados e desempenho do modelo: A investigação explorou a forma como o desempenho dos modelos melhorou com o aumento dos dados de vídeo do conjunto de dados SAYCam. Isto sugere que o acesso a dados mais extensos e realistas aumentará o desempenho dos modelos.

Wai Keen Vong, cientista investigador do Centro de Ciência de Dados da NYU, discutiu a novidade desta abordagem, afirmando: "Mostramos, pela primeira vez, que uma rede neuronal treinada com base nesta informação realista do ponto de vista do desenvolvimento de uma única criança pode aprender a associar palavras às suas contrapartes visuais". 

Ao abordar as questões com que se confrontam os modelos modernos de IA generativa, Vong afirmou: "Os actuais sistemas de IA de última geração são treinados utilizando quantidades astronómicas de dados (frequentemente milhares de milhões/triliões de palavras) e, no entanto, os seres humanos conseguem aprender e utilizar a linguagem com muito menos dados (centenas de milhões de palavras), pelo que a ligação entre estes avanços na aprendizagem automática e a aquisição da linguagem humana não é clara".

O interesse por métodos novos e "leves" de aprendizagem automática está a aumentar. Por um lado, modelos monolíticos colossais como o GPT-3 e o GPT-4 têm imensas exigências de poder que não são fáceis de satisfazer. 

Em segundo lugar, a criação de sistemas de IA bio-inspirados é fundamental para conceber modelos ou robôs que "pensem" e "se comportem" autenticamente como nós.

Vong também reconheceu as limitações do estudo, observando: "Uma ressalva é que a entrada de linguagem para o modelo é texto, não o sinal de fala subjacente que as crianças recebem".

Este estudo desafiou os modelos tradicionais de formação em IA e contribuiu para o debate em curso sobre as formas mais eficazes de imitar a aprendizagem biológica.

O interesse por este tema vai aumentar à medida que os modelos colossais de IA começarem a mostrar limitações para o futuro. 

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Calças de ganga Sam

Sam é um escritor de ciência e tecnologia que trabalhou em várias startups de IA. Quando não está a escrever, pode ser encontrado a ler revistas médicas ou a vasculhar caixas de discos de vinil.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições