Um estudo recente da Universidade de Cornell revelou as capacidades dos chatbots de IA, como o ChatGPT, para memorizar e reproduzir poemas, incluindo os que estão protegidos por direitos de autor.
O estudo levanta questões éticas e de direitos de autor sobre as fontes de dados utilizadas para o treino da IA, um tema atualmente em voga no sector devido à recente Processo judicial do New York Times e controvérsias na Midjourney.
David Mimno, autor do estudo e professor associado de ciências da informação, explicou porque é que escolheram poemas: "São suficientemente curtos para caberem no tamanho do contexto de um modelo linguístico. O seu estatuto é complicado: muitos dos poemas que estudámos estão tecnicamente protegidos por direitos de autor, mas também estão amplamente disponíveis em fontes respeitáveis como a Poetry Foundation".
Poemas a pedido: Perguntar #ChatGPT para encontrar um poema bem conhecido e provavelmente regurgitará todo o texto literalmente - independentemente da lei dos direitos de autor - de acordo com um novo estudo realizado por @CornellCIS investigadores. @CompHumResearch #LLM @dmimno https://t.co/MxQhQzc31c
- Cornell Chronicle (@CornellNews) 9 de janeiro de 2024
O estudo abrangeu o ChatGPT e outros modelos como o PaLM da Google AI, o Pythia da EleutherAI e o GPT-2 da OpenAI. D'Souza compilou uma seleção de poemas de 60 poetas americanos de origens variadas e apresentou-os a estes modelos.
Os investigadores utilizaram instruções específicas para pedir poemas a estes modelos. Estas instruções variavam, incluindo a solicitação de poemas pelos seus títulos, autores ou mesmo linhas iniciais. Isto foi importante para testar se os modelos conseguiam recordar e reproduzir com exatidão o poema solicitado.
O ChatGPT recuperou com êxito 72 dos 240 poemas, enquanto o PaLM conseguiu 10 e o O GPT-2 e o Pythia não conseguiram recordar totalmente os poemas.
O principal fator determinante da capacidade de um chatbot para memorizar um poema foi a sua inclusão no cânone da poesia, sendo a raça, o género e a época do poeta menos significativos.
O facto de um poema ser publicado na Norton Anthology of Poetry, em particular na edição de 1983, era o indicador mais fiável de que tinha sido memorizado e devolvido literalmente.
Além disso, os investigadores descobriram que as respostas mudaram ao longo do tempo, com o ChatGPT a tratar mais tarde os poemas protegidos por direitos de autor de forma imprevisível, recusando por vezes pedidos de poemas integrais.
Lyra D'Souza, autora do estudo, manifestou a sua preocupação ao Cornell Chronicle sobre modelos linguísticos de grande dimensão (LLM) que memorizam textos extensos, salientando as implicações para a privacidade e os direitos de autor: "Geralmente, não é bom que os modelos de linguagem de grande dimensão memorizem grandes quantidades de texto, em parte porque é um problema de privacidade."
Esta investigação, atualmente centrada na poesia americana, pretende alargar-se para incluir respostas à poesia em várias línguas e avaliar de que forma características poéticas específicas influenciam a probabilidade de memorização.
Além disso, embora o estudo identifique poemas protegidos por direitos de autor nos dados de treino e esclareça a capacidade dos modelos para os recordar literalmente, não esclarece de onde provêm.
É provável que os poemas populares apareçam em vários locais na Web, por exemplo, em fóruns Web, blogues, etc., pelo que, sem surpresa, são bem recordados em conjuntos de dados extraídos de fontes Web gerais.
Como funcionou o estudo
Eis mais informações sobre o estudo, O Chatbot e o Cânone: Memorização de poesia em LLMs, apresentado na Conferência de Investigação em Humanidades Computacionais, trabalhado:
- Construir uma coleção de poesia diversificada: Os investigadores compilaram um conjunto de dados de 240 poemas de 60 poetas americanos, garantindo uma vasta gama de períodos de tempo, etnia, género e fama. O estudo envolveu vários modelos linguísticos, incluindo o ChatGPT, o PaLM da Google, o Pythia da EleutherAI e o GPT-2 da OpenAI.
- Conceber prompts: Os investigadores utilizaram instruções específicas para pedir poemas a estes modelos. Estes pedidos variavam, incluindo a solicitação de poemas pelos seus títulos, autores ou mesmo linhas iniciais.
- Avaliação das respostas do modelo: As respostas dos modelos de IA foram analisadas para determinar se conseguiam reproduzir com exatidão os poemas solicitados. A principal métrica era a precisão da reprodução, que implicava verificar se os modelos conseguiam recordar o texto exato dos poemas.
- Analisar os factores que influenciam a memorização: O estudo também examinou os factores que influenciam a capacidade de um modelo para memorizar poemas. Isto incluiu analisar se a presença de um poema ou poeta em antologias bem conhecidas, como a Norton Anthology of Poetry, ou a raça, o género e a extensão da página da Wikipédia do poeta tinham impacto na probabilidade de um poema ser memorizado pelos modelos de IA.
- Conclusões e implicações: O estudo concluiu que os modelos de maior dimensão, como o ChatGPT e o PaLM, foram mais bem sucedidos na memorização e reprodução de poemas. Destacou a forma como os modelos de IA treinados em dados extraídos da Web podem reforçar os preconceitos literários existentes.
Este estudo revelou não só as capacidades da IA no processamento de poesia, mas também destacou o potencial para que os preconceitos literários existentes sejam reflectidos e perpetuados pelos modelos de IA.
Se a humanidade começar a confiar na IA como uma espécie de enciclopédia, será que podemos confiar nela para representar as obras de forma justa? Devido aos desafios inerentes à representação justa e diversificada de tópicos nos dados de treino, provavelmente não.