Investigadores de Cornell identifican poemas literales en modelos de IA como ChatGPT

13 de enero de 2024

Poemas de AI

Un estudio reciente de la Universidad de Cornell ha arrojado luz sobre las capacidades de chatbots de IA como ChatGPT para memorizar y reproducir poemas, incluidos los que están protegidos por derechos de autor. 

El estudio plantea problemas éticos y de derechos de autor sobre las fuentes de datos utilizadas para el entrenamiento de la IA, un tema candente en la industria en estos momentos debido a la reciente Demanda contra el New York Times y controversias en Midjourney

David Mimno, autor del estudio y profesor asociado de Ciencias de la Información, explicó por qué eligieron poemas: "Son lo bastante cortos como para caber en el tamaño del contexto de un modelo lingüístico. Su situación es complicada: muchos de los poemas que estudiamos están técnicamente protegidos por derechos de autor, pero también están ampliamente disponibles en fuentes acreditadas como la Poetry Foundation".

El estudio abarcó ChatGPT y otros modelos como PaLM de Google AI, Pythia de EleutherAI y GPT-2 de OpenAI. D'Souza recopiló una selección de poemas de 60 poetas estadounidenses de orígenes variados y los presentó a estos modelos. 

Los investigadores utilizaron instrucciones específicas para solicitar poemas a estos modelos. Las instrucciones variaban, e incluían pedir poemas por su título, autor o incluso por la primera línea. Esto era importante para comprobar si los modelos podían recordar y reproducir con precisión el poema solicitado.

ChatGPT recuperó con éxito 72 de los 240 poemas, mientras que PaLM consiguió 10, mientras que GPT-2 y Pythia no consiguieron recordar poemas en su totalidad. 

El principal determinante de la capacidad de un chatbot para memorizar un poema fue su inclusión en el canon poético, siendo menos significativos la raza, el sexo y la época del poeta.

La publicación de un poema en la Norton Anthology of Poetry, sobre todo en la edición de 1983, era el indicador más fiable de que había sido memorizado y devuelto textualmente.

Además, los investigadores descubrieron que las respuestas cambiaban con el tiempo, y que ChatGPT trataba posteriormente los poemas protegidos por derechos de autor de forma impredecible, rechazando a veces las solicitudes de poemas literales completos. 

Lyra D'Souza, autora del estudio, expresó su preocupación al Cornell Chronicle sobre los grandes modelos lingüísticos (LLM) que memorizan textos extensos, destacando las implicaciones para la privacidad y los derechos de autor: "Generalmente no es bueno que los grandes modelos lingüísticos memoricen grandes trozos de texto, en parte porque es un problema de privacidad".

Esta investigación, centrada actualmente en la poesía estadounidense, pretende ampliarse para incluir las respuestas a la poesía en varios idiomas y evaluar cómo influyen las características poéticas específicas en la probabilidad de memorización.

Además, aunque el estudio identifica poemas con derechos de autor en los datos de entrenamiento y aclara la capacidad de los modelos para recordarlos textualmente, no aclara de dónde proceden.

Es probable que los poemas populares aparezcan en numerosos lugares de la web, como foros, blogs, etc., por lo que no es de extrañar que se recojan bien en conjuntos de datos extraídos de fuentes generales de la web.

Cómo funcionó el estudio

Aquí tiene más información sobre el estudio, El chatbot y el canon: La memorización de poesía en los LLMpresentado en la Conferencia de Investigación sobre Humanidades Computacionales:

  1. Crear una colección de poesía diversa: Los investigadores recopilaron un conjunto de datos de 240 poemas de 60 poetas estadounidenses, lo que garantiza una amplia gama de periodos de tiempo, etnia, género y fama. En el estudio participaron varios modelos lingüísticos, como ChatGPT, PaLM de Google, Pythia de EleutherAI y GPT-2 de OpenAI. 
  2. Diseñar indicaciones: Los investigadores utilizaron instrucciones específicas para pedir poemas a estas modelos. Estas indicaciones variaban, e incluían pedir poemas por sus títulos, autores o incluso líneas iniciales. 
  3. Evaluación de las respuestas de los modelos: Se analizaron las respuestas de los modelos de IA para determinar si podían reproducir con precisión los poemas solicitados. La métrica clave era la precisión de la reproducción, que consistía en comprobar si los modelos podían recordar el texto exacto de los poemas.
  4. Analizar los factores que influyen en la memorización: El estudio también examinó los factores que influyen en la capacidad de un modelo para memorizar poemas. Para ello se analizó si la presencia de un poema o poeta en antologías conocidas, como la Norton Anthology of Poetry, o la raza, el sexo y la extensión de la página de Wikipedia del poeta influían en la probabilidad de que los modelos de IA memorizaran un poema.
  5. Conclusiones e implicaciones: El estudio concluye que los modelos de mayor tamaño, como ChatGPT y PaLM, tienen más éxito en la memorización y reproducción de poemas. El estudio pone de relieve que los modelos de IA entrenados con datos de la web pueden reforzar los prejuicios literarios existentes.

Este estudio no sólo reveló las capacidades de la IA para procesar poesía, sino que también puso de relieve el potencial de los prejuicios literarios existentes para ser reflejados y perpetuados por los modelos de IA. 

Si la humanidad empieza a confiar en la IA como una especie de enciclopedia, ¿podemos confiar en que represente las obras de forma justa? Debido a las dificultades inherentes a la representación justa y diversa de los temas en los datos de entrenamiento, probablemente no.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Sam Jeans

Sam es un escritor de ciencia y tecnología que ha trabajado en varias startups de IA. Cuando no está escribiendo, se le puede encontrar leyendo revistas médicas o rebuscando en cajas de discos de vinilo.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales