Um estudo efectuado pela Copyleaks descobriu que uns impressionantes 60% dos resultados do GPT-3.5 da OpenAI apresentavam sinais de plágio.
A Copyleaks, que desenvolve ferramentas de análise de plágio e de conteúdo de IA, destaca a originalidade e a fiabilidade questionáveis dos textos gerados por IA, especialmente à luz das recentes violação dos direitos de autor e as controvérsias sobre o plágio.
O estudo analisou 1045 resultados do GPT-3.5, abrangendo 26 disciplinas académicas e criativas, incluindo, entre outras, física, química, ciências informáticas, psicologia, direito e humanidades, com cada resultado a ter, em média, 412 palavras.
As conclusões do Relatório Copyleaks incluem o seguinte:
- Aproximadamente 59,7% de todos os textos gerados pelo GPT-3.5 continham conteúdo plagiado em algum grau.
- 45,7% dos resultados continham correspondências exactas de texto, 27,4% incluíam ligeiras modificações e 46,5% envolviam paráfrases de fontes pré-existentes.
- Nomeadamente, a disciplina de ciências informáticas registou a "pontuação de semelhança" de produção individual mais elevada, com cerca de 100%, o que revela uma preocupação significativa em domínios que dependem fortemente de linguagem técnica e especializada.
O "Similarity Score" do estudo é uma métrica própria concebida pelo Copyleaks para quantificar o grau de originalidade do conteúdo. Esta métrica reúne vários factores, como o texto idêntico e a paráfrase.
A Física registou a pontuação média de similaridade mais elevada, com 31,3%, seguida da Psicologia, com 27,7%, e das Ciências Gerais, com 26,7%. No extremo oposto do espetro, o Teatro registou a pontuação média mais baixa com apenas 0,9%, seguido das Humanidades com 2,8% e da Língua Inglesa com 5,4%.
A dispersão das pontuações de semelhança entre os temas não é particularmente surpreendente. Há um número quase ilimitado de formas de interpretar uma peça de Shakespeare e muito menos de analisar um teorema matemático bem estabelecido, por exemplo.
Alon Yamin, diretor executivo e cofundador da Copyleaks, afirmou que disciplinas como a física, a química, as ciências informáticas e a psicologia merecem um exame mais atento ao plágio devido às suas classificações mais elevadas.
"Por exemplo, Física, Química, Matemática e Psicologia podem exigir uma análise mais aprofundada para identificar um texto plagiado, enquanto outras disciplinas, incluindo Teatro e Humanidades, podem exigir um exame menos minucioso", disse Yamin.
No entanto, os educadores têm de reconhecer que algumas disciplinas se prestam naturalmente a pontuações de semelhança elevadas.
Yamin também declarou: "Além disso, os dados ressaltam a necessidade de as organizações adotarem soluções que detectem a presença de conteúdo gerado por IA e forneçam a transparência necessária em torno de um possível plágio no conteúdo da IA".
Este é um bom ponto de vista. Se as organizações educativas permitirem que a IA elabore e gere conteúdos (e alguns já estão a fazê-lo), os alunos podem ainda estar expostos a plágio.
Deve-se dizer também que as pontuações para o conteúdo gerado pelo GPT-4 teriam mostrado pontuações de plágio mais baixas.
Embora a maior parte do conteúdo gerado por IA ainda seja provavelmente criado com o GPT-3.5 (porque é gratuito), o GPT-4 é sem dúvida mais eficaz na geração de trabalho original.
No entanto, isto introduz outro nível de complexidade.
Uma vez que o GPT-4 faz parte da versão paga do ChatGPT, aceitar ou encorajar utilizações de IA na educação poderia discriminar os utilizadores do GPT-3.5, a menos que as subscrições sejam subsidiadas.
Um equilíbrio delicado
À medida que as ferramentas de IA generativa são integradas em contextos académicos, tanto os educadores como os estudantes ficam confusos quanto à sua utilização.
Empresas de análise de conteúdos como a Copyleaks e a Turnitin desenvolveram ferramentas de deteção de IA que prevêem quando uma sequência de palavras é provavelmente gerada por IA. No entanto, estas ferramentas têm fragilidades evidentes e correm o risco de apresentar falsos positivos.
Além disso, foi demonstrado que o software de deteção de IA favorecer fortemente a escrita em inglês nativopois contém frequentemente uma maior concentração de vocabulário diverso e expressões idiomáticas para influenciar os detectores de IA no sentido de rotularem o texto como "escrito por humanos".
Não será fácil limitar a utilização da tecnologia de IA no meio académico. A IA generativa é apresentada como a melhor ferramenta de produtividade e muitos argumentam que, se a podemos utilizar, devemos fazê-lo.
Os estudantes argumentam muitas vezes que, se estas ferramentas estão presentes no mundo real, também devem ser permitidas em contextos educativos.
Além disso, como muitos atestariam, a educação é por vezes uma questão de encontrar atalhos inventivos para fazer as coisas.
Será que se pode realmente esperar que os estudantes deixem a IA generativa intocada na mesa?