Relatório: A IA está a avançar mais do que os humanos, precisamos de novos parâmetros de referência

17 de abril de 2024

  • O Relatório do Índice de IA da Universidade de Stanford fornece informações sobre as tendências e o estado atual da IA
  • Segundo o relatório, os sistemas de IA excedem atualmente o desempenho humano e, por conseguinte, exigem novos parâmetros de referência
  • A falta de parâmetros de referência normalizados para medir os riscos e as limitações dificulta a comparação dos modelos

A Universidade de Stanford publicou o seu Relatório sobre o Índice de IA 2024, no qual refere que o rápido avanço da IA torna as comparações com os seres humanos cada vez menos relevantes.

O relatório anual fornece uma visão abrangente das tendências e do estado dos desenvolvimentos da IA. O relatório afirma que os modelos de IA estão a melhorar tão rapidamente que os parâmetros de referência que utilizamos para os medir estão a tornar-se cada vez mais irrelevantes.

Muitos testes de referência da indústria comparam os modelos de IA com a qualidade dos seres humanos na execução de tarefas. O benchmark Massive Multitask Language Understanding (MMLU) é um bom exemplo.

Ele usa perguntas de múltipla escolha para avaliar LLMs em 57 disciplinas, incluindo matemática, história, direito e ética. O MMLU tem sido a referência de IA desde 2019.

A pontuação de base humana no MMLU é 89,8% e, em 2019, o modelo médio de IA obteve pouco mais de 30%. Apenas 5 anos depois, o Gemini Ultra se tornou o primeiro modelo a superar a linha de base humana com uma pontuação de 90.04%.

O relatório refere que os actuais "sistemas de IA excedem habitualmente o desempenho humano em parâmetros de referência padrão". As tendências no gráfico abaixo parecem indicar que o MMLU e outros parâmetros de referência precisam de ser substituídos.

Os modelos de IA atingiram e ultrapassaram as linhas de base humanas em vários parâmetros de referência. Fonte: Relatório Anual do AI Index 2024

Os modelos de IA atingiram a saturação de desempenho em parâmetros de referência estabelecidos, como o ImageNet, o SQuAD e o SuperGLUE, pelo que os investigadores estão a desenvolver testes mais exigentes.

Um exemplo é o Graduate-Level Google-Proof Q&A Benchmark (GPQA), que permite que os modelos de IA sejam comparados com pessoas realmente inteligentes, em vez de com a inteligência humana média.

O teste GPQA é composto por 400 perguntas difíceis de escolha múltipla a nível de pós-graduação. Os especialistas que têm ou estão a tirar o doutoramento respondem corretamente às perguntas em 65% das vezes.

O documento do GPQA refere que, quando lhes são colocadas questões fora da sua área, "os validadores não especialistas altamente qualificados apenas atingem uma precisão de 34%, apesar de passarem, em média, mais de 30 minutos com acesso ilimitado à Internet".

No mês passado, a Anthropic anunciou que Claude 3 obteve um resultado ligeiramente inferior a 60% com um CoT de 5 tiros. Vamos precisar de uma referência maior.

Avaliações humanas e segurança

O relatório refere que a IA ainda enfrenta problemas significativos: "Não consegue lidar de forma fiável com factos, realizar raciocínios complexos ou explicar as suas conclusões".

Estas limitações contribuem para outra caraterística do sistema de IA que, segundo o relatório, é mal avaliada; Segurança da IA. Não dispomos de parâmetros de referência eficazes que nos permitam dizer: "Este modelo é mais seguro do que aquele".

Isto deve-se, em parte, ao facto de ser difícil de medir e, em parte, ao facto de "os criadores de IA não serem transparentes, especialmente no que diz respeito à divulgação de dados e metodologias de formação".

O relatório refere que uma tendência interessante no sector é a de recorrer a avaliações humanas do desempenho da IA, em vez de testes de referência.

A classificação da estética da imagem ou da prosa de um modelo é difícil de fazer com um teste. Como resultado, o relatório diz que "o benchmarking começou lentamente a mudar para a incorporação de avaliações humanas, como o Chatbot Arena Leaderboard, em vez de classificações computadorizadas como ImageNet ou SQuAD".

À medida que os modelos de IA observam a linha de base humana a desaparecer no espelho retrovisor, o sentimento pode acabar por determinar qual o modelo que escolhemos utilizar.

As tendências indicam que os modelos de IA acabarão por ser mais inteligentes do que nós e mais difíceis de medir. Em breve, poderemos dar por nós a dizer: "Não sei porquê, mas gosto mais deste".

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições