Eine aktuelle Studie der Cornell University hat die Fähigkeiten von KI-Chatbots wie ChatGPT beim Auswendiglernen und Vervielfältigen von Gedichten, einschließlich urheberrechtlich geschützter Gedichte, beleuchtet.
Die Studie wirft ethische und urheberrechtliche Bedenken in Bezug auf die Datenquellen auf, die für das Training von KI verwendet werden - ein brandaktuelles Thema in der Branche aufgrund der jüngsten Klage bei der New York Times und Kontroversen bei Midjourney.
David Mimno, Studienautor und außerordentlicher Professor für Informationswissenschaft, erklärt, warum sie Gedichte ausgewählt haben: "Sie sind kurz genug, um in die Kontextgröße eines Sprachmodells zu passen. Ihr Status ist kompliziert: Viele der von uns untersuchten Gedichte unterliegen technisch gesehen dem Urheberrecht, aber sie sind auch über seriöse Quellen wie die Poetry Foundation weithin verfügbar.
Gedichte auf Anfrage: Fragen Sie #ChatGPT ein bekanntes Gedicht zu finden, und er wird wahrscheinlich den gesamten Text wortwörtlich wiedergeben - ungeachtet des Urheberrechts - laut einer neuen Studie von @CornellCIS Forscher. @CompHumResearch #LLM @dmimno https://t.co/MxQhQzc31c
- Cornell Chronicle (@CornellNews) 9. Januar 2024
Die Studie umfasste ChatGPT und andere Modelle wie PaLM von Google AI, Pythia von EleutherAI und GPT-2 von OpenAI. D'Souza stellte eine Auswahl von Gedichten von 60 amerikanischen Dichtern unterschiedlicher Herkunft zusammen und legte sie den Modellen vor.
Die Forscher benutzten spezifische Aufforderungen, um von diesen Modellen Gedichte abzufragen. Diese Aufforderungen variierten und beinhalteten die Frage nach dem Titel, dem Autor oder sogar nach der ersten Zeile eines Gedichts. Dies war wichtig, um zu testen, ob die Modelle das angeforderte Gedicht genau abrufen und wiedergeben konnten.
ChatGPT hat 72 der 240 Gedichte erfolgreich abgerufen, PaLM schaffte 10, während GPT-2 und Pythia konnten die Gedichte nicht vollständig abrufen.
Die wichtigste Determinante für die Fähigkeit eines Chatbots, sich ein Gedicht zu merken, war seine Zugehörigkeit zum Gedichtkanon, während die Rasse, das Geschlecht und die Epoche des Dichters weniger wichtig waren.
Die Veröffentlichung eines Gedichts in der Norton Anthology of Poetry, insbesondere in der Ausgabe von 1983, war der zuverlässigste Indikator dafür, dass es auswendig gelernt und wortwörtlich wiedergegeben wurde.
Darüber hinaus stellten die Forscher fest, dass sich die Reaktionen im Laufe der Zeit änderten, wobei ChatGPT später unvorhersehbar mit urheberrechtlich geschützten Gedichten umging und manchmal Anfragen nach ganzen wortwörtlichen Gedichten ablehnte.
Lyra D'Souza, Autorin der Studie, äußerte gegenüber dem Cornell Chronicle Bedenken über große Sprachmodelle (LLMs), die sich umfangreiche Texte merken, und weist auf die Auswirkungen auf den Datenschutz und das Urheberrecht hin: "Es ist im Allgemeinen nicht gut für große Sprachmodelle, sich große Textstücke zu merken, zum Teil, weil es ein Problem für den Datenschutz ist."
Diese Forschung, die sich derzeit auf amerikanische Poesie konzentriert, soll auf Reaktionen auf Poesie in verschiedenen Sprachen ausgeweitet werden und untersuchen, wie spezifische poetische Merkmale die Wahrscheinlichkeit des Einprägens beeinflussen.
Darüber hinaus identifiziert die Studie zwar urheberrechtlich geschützte Gedichte in den Trainingsdaten und verdeutlicht die Fähigkeit der Modelle, sie wortwörtlich abzurufen, sie gibt jedoch keinen Aufschluss darüber, woher sie stammen.
Beliebte Gedichte tauchen wahrscheinlich an zahlreichen Stellen im Web auf, z. B. in Webforen, Blogs usw., und es überrascht daher nicht, dass sie in Datensätzen, die aus allgemeinen Webquellen zusammengetragen wurden, gut wiedergegeben werden.
Wie die Studie funktionierte
Hier finden Sie weitere Informationen über die Durchführung der Studie, Der Chatbot und der Kanon: Gedichtauswendiglernen in LLMs, vorgestellt auf der Computational Humanities Research Conference, bearbeitet:
- Aufbau einer vielfältigen Gedichtsammlung: Die Forscher stellten einen Datensatz von 240 Gedichten von 60 amerikanischen Dichtern zusammen, die ein breites Spektrum an Zeiträumen, ethnischer Zugehörigkeit, Geschlecht und Ruhm abdecken. Für die Studie wurden verschiedene Sprachmodelle verwendet, darunter ChatGPT, PaLM von Google, Pythia von EleutherAI und GPT-2 von OpenAI.
- Eingabeaufforderungen entwerfen: Die Forscher benutzten spezifische Aufforderungen, um von diesen Modellen Gedichte zu verlangen. Diese Aufforderungen variierten und beinhalteten die Frage nach dem Titel, dem Autor oder sogar nach der ersten Zeile des Gedichts.
- Bewertung der Modellantworten: Die Antworten der KI-Modelle wurden analysiert, um festzustellen, ob sie die angeforderten Gedichte korrekt wiedergeben konnten. Die wichtigste Kennzahl war die Genauigkeit der Wiedergabe, d. h. es wurde geprüft, ob die Modelle den genauen Text der Gedichte wiedergeben konnten.
- Analyse der Faktoren, die das Auswendiglernen beeinflussen: Die Studie untersuchte auch Faktoren, die die Fähigkeit eines Modells, sich Gedichte einzuprägen, beeinflussen. Dazu gehörte die Analyse, ob das Vorhandensein eines Gedichts oder eines Dichters in bekannten Anthologien, wie der Norton Anthology of Poetry, oder die Rasse, das Geschlecht und die Wikipedia-Seitenlänge des Dichters die Wahrscheinlichkeit beeinflussen, dass ein Gedicht von den KI-Modellen auswendig gelernt wird.
- Schlussfolgerungen und Auswirkungen: Die Studie kam zu dem Schluss, dass größere Modelle wie ChatGPT und PaLM erfolgreicher beim Einprägen und Wiedergeben von Gedichten waren. Sie zeigte auf, wie KI-Modelle, die auf Web-Scraping-Daten trainiert wurden, bestehende literarische Vorurteile verstärken können.
Diese Studie zeigte nicht nur die Fähigkeiten der KI bei der Verarbeitung von Gedichten, sondern auch das Potenzial, dass bestehende literarische Vorurteile von KI-Modellen widergespiegelt und fortgeschrieben werden.
Wenn die Menschheit beginnt, sich auf KI als eine Art Enzyklopädie zu verlassen, können wir uns dann darauf verlassen, dass sie die Werke fair darstellt? Aufgrund der inhärenten Herausforderungen einer fairen und vielfältigen Darstellung von Themen in den Trainingsdaten wahrscheinlich nicht.