O Último Exame da Humanidade quer que as suas perguntas difíceis atropelem a IA

17 de setembro de 2024

  • O projeto "Humanity's Last Exam" está a apelar à apresentação de perguntas difíceis para desafiar os modelos de IA
  • As capacidades dos modelos avançados de IA estão quase a ultrapassar os padrões de referência utilizados para os testar
  • Será atribuído um montante total de $500 000 às melhores perguntas selecionadas

Os parâmetros de referência estão a ter dificuldade em acompanhar o avanço das capacidades dos modelos de IA e o projeto Humanity's Last Exam quer a sua ajuda para resolver este problema.

O projeto é uma colaboração entre o Centro para a Segurança da IA (CAIS) e a empresa de dados de IA Scale AI. O projeto visa medir o grau de proximidade em relação a sistemas de IA de nível especializado, algo parâmetros de referência existentes não são capazes de o fazer.

A OpenAI e o CAIS desenvolveram o popular benchmark MMLU (Massive Multitask Language Understanding) em 2021. Nessa altura, diz o CAIS, "os sistemas de IA não tinham um desempenho melhor do que o aleatório".

O impressionante desempenho do modelo o1 da OpenAI "destruiu os mais populares benchmarks de raciocínio", de acordo com Dan Hendrycks, diretor executivo do CAIS.

Desempenho do o1 MMLU da OpenAI em comparação com modelos anteriores. Fonte: OpenAI

Quando os modelos de IA atingirem 100% no MMLU, como é que os vamos medir? O CAIS afirma que "os testes existentes tornaram-se demasiado fáceis e já não podemos acompanhar bem os desenvolvimentos da IA, ou a distância a que estão de se tornarem especialistas".

Quando se vê o salto nas pontuações de benchmark que o1 adicionou aos já impressionantes números do GPT-4o, não demorará muito até que um modelo de IA vença o MMLU.

A Humanity's Last Exam está a pedir às pessoas que enviem perguntas que o surpreenderiam genuinamente se um modelo de IA desse a resposta correta. Pretendem perguntas de exame de nível de doutoramento, não do tipo "quantos Rs tem um morango", que engana alguns modelos.

Scale explicou que "à medida que os testes existentes se tornam demasiado fáceis, perdemos a capacidade de distinguir entre os sistemas de IA que podem ter sucesso nos exames de licenciatura e aqueles que podem contribuir verdadeiramente para a investigação de ponta e para a resolução de problemas".

Se tiver uma pergunta original que possa surpreender um modelo avançado de IA, o seu nome poderá ser adicionado como coautor do artigo do projeto e participar num fundo comum de $500.000 que será atribuído às melhores perguntas.

Para dar uma ideia do nível a que o projeto se destina, Scale explicou que "se um estudante universitário selecionado aleatoriamente consegue compreender o que é pedido, é provável que seja demasiado fácil para os LLMs de hoje e de amanhã".

Existem algumas restrições interessantes quanto ao tipo de perguntas que podem ser apresentadas. Não querem nada relacionado com armas químicas, biológicas, radiológicas, nucleares ou armas cibernéticas utilizadas para atacar infra-estruturas críticas.

Se acha que tem uma pergunta que cumpre os requisitos, pode enviá-la aqui.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições