Investigadores de Cornell identificam poemas literais em modelos de IA como o ChatGPT

13 de janeiro de 2024

Poemas de IA

Um estudo recente da Universidade de Cornell revelou as capacidades dos chatbots de IA, como o ChatGPT, para memorizar e reproduzir poemas, incluindo os que estão protegidos por direitos de autor. 

O estudo levanta questões éticas e de direitos de autor sobre as fontes de dados utilizadas para o treino da IA, um tema atualmente em voga no sector devido à recente Processo judicial do New York Times e controvérsias na Midjourney

David Mimno, autor do estudo e professor associado de ciências da informação, explicou porque é que escolheram poemas: "São suficientemente curtos para caberem no tamanho do contexto de um modelo linguístico. O seu estatuto é complicado: muitos dos poemas que estudámos estão tecnicamente protegidos por direitos de autor, mas também estão amplamente disponíveis em fontes respeitáveis como a Poetry Foundation".

O estudo abrangeu o ChatGPT e outros modelos como o PaLM da Google AI, o Pythia da EleutherAI e o GPT-2 da OpenAI. D'Souza compilou uma seleção de poemas de 60 poetas americanos de origens variadas e apresentou-os a estes modelos. 

Os investigadores utilizaram instruções específicas para pedir poemas a estes modelos. Estas instruções variavam, incluindo a solicitação de poemas pelos seus títulos, autores ou mesmo linhas iniciais. Isto foi importante para testar se os modelos conseguiam recordar e reproduzir com exatidão o poema solicitado.

O ChatGPT recuperou com êxito 72 dos 240 poemas, enquanto o PaLM conseguiu 10 e o O GPT-2 e o Pythia não conseguiram recordar totalmente os poemas. 

O principal fator determinante da capacidade de um chatbot para memorizar um poema foi a sua inclusão no cânone da poesia, sendo a raça, o género e a época do poeta menos significativos.

O facto de um poema ser publicado na Norton Anthology of Poetry, em particular na edição de 1983, era o indicador mais fiável de que tinha sido memorizado e devolvido literalmente.

Além disso, os investigadores descobriram que as respostas mudaram ao longo do tempo, com o ChatGPT a tratar mais tarde os poemas protegidos por direitos de autor de forma imprevisível, recusando por vezes pedidos de poemas integrais. 

Lyra D'Souza, autora do estudo, manifestou a sua preocupação ao Cornell Chronicle sobre modelos linguísticos de grande dimensão (LLM) que memorizam textos extensos, salientando as implicações para a privacidade e os direitos de autor: "Geralmente, não é bom que os modelos de linguagem de grande dimensão memorizem grandes quantidades de texto, em parte porque é um problema de privacidade."

Esta investigação, atualmente centrada na poesia americana, pretende alargar-se para incluir respostas à poesia em várias línguas e avaliar de que forma características poéticas específicas influenciam a probabilidade de memorização.

Além disso, embora o estudo identifique poemas protegidos por direitos de autor nos dados de treino e esclareça a capacidade dos modelos para os recordar literalmente, não esclarece de onde provêm.

É provável que os poemas populares apareçam em vários locais na Web, por exemplo, em fóruns Web, blogues, etc., pelo que, sem surpresa, são bem recordados em conjuntos de dados extraídos de fontes Web gerais.

Como funcionou o estudo

Eis mais informações sobre o estudo, O Chatbot e o Cânone: Memorização de poesia em LLMs, apresentado na Conferência de Investigação em Humanidades Computacionais, trabalhado:

  1. Construir uma coleção de poesia diversificada: Os investigadores compilaram um conjunto de dados de 240 poemas de 60 poetas americanos, garantindo uma vasta gama de períodos de tempo, etnia, género e fama. O estudo envolveu vários modelos linguísticos, incluindo o ChatGPT, o PaLM da Google, o Pythia da EleutherAI e o GPT-2 da OpenAI. 
  2. Conceber prompts: Os investigadores utilizaram instruções específicas para pedir poemas a estes modelos. Estes pedidos variavam, incluindo a solicitação de poemas pelos seus títulos, autores ou mesmo linhas iniciais. 
  3. Avaliação das respostas do modelo: As respostas dos modelos de IA foram analisadas para determinar se conseguiam reproduzir com exatidão os poemas solicitados. A principal métrica era a precisão da reprodução, que implicava verificar se os modelos conseguiam recordar o texto exato dos poemas.
  4. Analisar os factores que influenciam a memorização: O estudo também examinou os factores que influenciam a capacidade de um modelo para memorizar poemas. Isto incluiu analisar se a presença de um poema ou poeta em antologias bem conhecidas, como a Norton Anthology of Poetry, ou a raça, o género e a extensão da página da Wikipédia do poeta tinham impacto na probabilidade de um poema ser memorizado pelos modelos de IA.
  5. Conclusões e implicações: O estudo concluiu que os modelos de maior dimensão, como o ChatGPT e o PaLM, foram mais bem sucedidos na memorização e reprodução de poemas. Destacou a forma como os modelos de IA treinados em dados extraídos da Web podem reforçar os preconceitos literários existentes.

Este estudo revelou não só as capacidades da IA no processamento de poesia, mas também destacou o potencial para que os preconceitos literários existentes sejam reflectidos e perpetuados pelos modelos de IA. 

Se a humanidade começar a confiar na IA como uma espécie de enciclopédia, será que podemos confiar nela para representar as obras de forma justa? Devido aos desafios inerentes à representação justa e diversificada de tópicos nos dados de treino, provavelmente não.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Calças de ganga Sam

Sam é um escritor de ciência e tecnologia que trabalhou em várias startups de IA. Quando não está a escrever, pode ser encontrado a ler revistas médicas ou a vasculhar caixas de discos de vinil.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições