Respostas de exames geradas por IA passam despercebidas em testes reais

27 de junho de 2024

  • Os investigadores realizaram um estudo cego para desafiar os educadores humanos a detetar conteúdos gerados por IA
  • Os investigadores da Universidade de Reading apresentaram trabalhos de psicologia gerados pelo ChatGPT
  • As respostas não foram detectadas em 94% dos casos e obtiveram, em média, notas mais altas do que os alunos reais

Investigadores da Universidade de Reading, no Reino Unido, realizaram um estudo cego para verificar se os educadores humanos eram capazes de detetar conteúdos gerados por IA. Os resultados não são um bom presságio para os professores.

A evolução para o ensino à distância levou a que muitas avaliações dos alunos fossem realizadas fora do espaço tradicional de um exame escrito com um vigilante atento à batota.

O acesso imediato a modelos avançados de IA facilitou a utilização de ferramentas como o ChatGPT para escrever os trabalhos de curso ou ajudar na realização de exames em linha.

Um professor universitário inteligente seria capaz de perceber se um aluno estava a utilizar a IA para responder a perguntas de exames em linha?

O Professor Associado Peter Scarfe, um dos o jornal autores principais, afirmou: "Muitas instituições afastaram-se dos exames tradicionais para tornar a avaliação mais inclusiva. A nossa investigação mostra que é de importância internacional compreender como a IA irá afetar a integridade das avaliações educativas."

No "maior e mais robusto estudo cego do seu género", os investigadores submeteram 100% AI escritos ao sistema de exames em cinco módulos de licenciatura em Psicologia.

Os avaliadores dos exames não tinham qualquer conhecimento do estudo. Isto fez com que a experiência fosse uma espécie de teste de Turing do mundo real, em que um educador que não dissesse "Batota!" num trabalho acreditava que tinha sido um humano a escrever o trabalho.

Eis como funcionava:

  • Os envios foram criados utilizando o GPT-4.
  • Apresentaram um total de 33 candidaturas a exames gerados por IA em cinco módulos.
  • O estudo incluiu perguntas de resposta curta (SAQ) e perguntas mais longas de carácter dissertativo.
  • Para os exames, as respostas consistiam em quatro respostas de uma escolha de seis perguntas, cada uma com um limite de 200 palavras.
  • Para os exames de redação, os trabalhos consistiram num único trabalho de 1500 palavras (os alunos apresentaram uma resposta de entre três ou quatro, consoante o módulo).

Os investigadores utilizaram os seguintes prompts com o ChatGPT para os SAQs e os ensaios, respetivamente:

  • "Incluindo referências à literatura académica, mas não uma secção de referências separada, responda à seguinte pergunta em 160 palavras: XXX"
  • "Incluindo referências à literatura académica, mas não uma secção de referências separada, escreve um ensaio de 2000 palavras que responda à seguinte pergunta: XXX" (escolheram 2.000 palavras, porque o ChatGPT normalmente não cumpre o número de palavras)
  • Em cada pergunta, XXX foi substituído pela pergunta do exame.

Quando os resultados foram contabilizados, 94% dos trabalhos de IA não foram assinalados pelos correctores. Que tipo de notas obtiveram os trabalhos de IA?

Os investigadores afirmaram que "as notas atribuídas aos nossos trabalhos com IA eram, em média, meio limite de nota mais elevadas do que as obtidas pelos alunos reais. Em todos os módulos, havia uma chance de 83.4% de que os envios de IA em um módulo superassem uma seleção aleatória do mesmo número de envios de alunos reais.

Os investigadores observaram ainda que a sua abordagem provavelmente sobrestima a detetabilidade da utilização de IA em cenários reais. Como explicou o Dr. Scarfe, "se estudantes reais estivessem a fazer batota num exame, seria pouco provável que adoptassem uma abordagem tão ingenuamente óbvia como a nossa". 

Na prática, os alunos podem utilizar a IA como ponto de partida, refinando e personalizando os resultados, o que torna a deteção ainda mais difícil.

E como se isso não bastasse, para além dos envios de IA dos investigadores, outros estudantes utilizaram provavelmente o ChatGPT para as suas respostas. Isto significa que a taxa de deteção pode ser ainda mais baixa do que os resultados registados.

Não há soluções simples

Será que os tutores não poderiam simplesmente ter utilizado software de deteção de IA? Talvez, mas não com confiança, diz o estudo. 

Detectores de IA, como os oferecidos pelo popular programa académico plataforma de plágio TurnitinA sua opinião sobre o assunto foi comprovadamente incorrecta. 

Além disso, os detectores de IA correm o risco de falsificar acusar falantes não nativos de inglês que têm menos probabilidades de utilizar determinado vocabulário, expressões idiomáticas, etc., que a IA pode considerar como sinais de escrita humana.  

Sem meios fiáveis para detetar conteúdos gerados por IA, os responsáveis pela educação ficam a coçar a cabeça. A utilização da IA deve ser perseguida ou deve simplesmente fazer parte do programa de estudos? A utilização da IA deve ser normalizada como a calculadora?

De um modo geral, existe algum consenso quanto ao facto de a integração da IA no ensino não ser isenta de riscos. Na pior das hipóteses, ameaça corroer o pensamento crítico e atrasar a criação de novos conhecimentos autênticos. 

A professora Karen Yeung alertou para a possibilidade de "desqualificação" dos estudantes, ao The Guardian"Há um perigo real de que a próxima geração acabe por ficar efetivamente ligada a estas máquinas, incapaz de pensar, analisar ou escrever com seriedade sem a sua ajuda".

Para combater a utilização incorrecta da IA, os investigadores de Reading recomendam que se passe de exames não supervisionados e realizados em casa para ambientes mais controlados. Isto pode implicar um regresso aos exames presenciais tradicionais ou o desenvolvimento de novos formatos de avaliação resistentes à IA.

Outra possibilidade - e um modelo que algumas universidades já estão a seguir - está a desenvolver cursos que ensinam os alunos a utilizar a IA de forma crítica e ética.

Temos também de nos confrontar com a evidente falta de literacia em IA entre os tutores revelada por este estudo. Parece-me bastante lamentável. 

ChatGPT recorre frequentemente a certos "tropos" ou padrões de frases que se tornam bastante óbvios quando se é exposto a eles com frequência. 

Seria interessante ver o desempenho de um tutor "treinado" para reconhecer a escrita de IA nas mesmas condições.

O historial de exames do ChatGPT é misto

O estudo da Universidade de Reading não é o primeiro a testar as capacidades da IA em ambientes académicos. Vários estudos examinaram o desempenho da IA em diferentes domínios e níveis de ensino:

  • Exames médicos: Um grupo de médicos pediátricos testou o ChatGPT (GPT-3.5) no exame neonatal-perinatal. A IA obteve apenas 46% de respostas correctas, com melhor desempenho nas questões de recordação básica e de raciocínio clínico, mas com dificuldades no raciocínio multi-lógico. Curiosamente, obteve a pontuação mais elevada (78,5%) na secção de ética.
  • Exames financeiros: Investigadores do JPMorgan Chase & Co. testaram o GPT-4 no exame Chartered Financial Analyst (CFA). Embora fosse improvável que o ChatGPT passasse os Níveis I e II, o GPT-4 mostrou "uma hipótese decente" se lhe fosse dado o devido incentivo. Os modelos de IA tiveram um bom desempenho nas secções de derivados, investimentos alternativos e ética, mas tiveram dificuldades com a gestão de carteiras e a economia.
  • Exames de direito: O ChatGPT foi testado no exame da Ordem dos Advogados, tendo frequentemente obtido uma pontuação muito elevada.
  • Testes normalizados: A IA tem tido bons resultados nos exames Graduate Record Examinations (GRE), SAT Reading and Writing e Advanced Placement.
  • Cursos universitários: Um outro estudo comparou o ChatGPT (modelo não fornecido) com 32 tópicos de nível universitário, concluindo que superava ou ultrapassava os alunos em apenas 9 dos 32 exames.

Assim, embora a IA se destaque nalgumas áreas, isso é muito variável, dependendo do tema e do tipo de teste em questão. 

A conclusão é que, se for um estudante que não se importa de fazer batota, pode utilizar o ChatGPT para obter melhores notas com apenas 6% de hipóteses de ser apanhado. Há que adorar essas probabilidades.

Como os investigadores observaram, os métodos de avaliação dos estudantes terão de mudar para manter a sua integridade académica, especialmente à medida que os conteúdos gerados por IA se tornam mais difíceis de detetar.

Os investigadores acrescentaram uma conclusão humorística ao seu artigo.

"Se disséssemos que GPT-4 concebeu parte deste estudo, fez parte da análise e ajudou a redigir o manuscrito, para além das secções em que citámos diretamente GPT-4, que partes do manuscrito identificaria como tendo sido escritas por GPT-4 e não pelos autores indicados?

Se os investigadores "fizeram batota" ao utilizarem a IA para redigir o estudo, como é que se prova isso?

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições