Исследователи из Корнелла выявляют дословные стихи в моделях ИИ типа ChatGPT

13 января 2024 года

Стихи об искусственном интеллекте

Недавнее исследование Корнельского университета пролило свет на возможности чат-ботов с искусственным интеллектом, таких как ChatGPT, в запоминании и воспроизведении стихов, в том числе и тех, на которые распространяется авторское право. 

Исследование поднимает вопросы этики и авторского права в отношении источников данных, используемых для обучения искусственного интеллекта, что сейчас является горячей темой в отрасли в связи с недавним Иск "Нью-Йорк Таймс и Противоречия в Миджурни

Дэвид Мимно, автор исследования и доцент кафедры информатики, объяснил, почему они выбрали именно стихи: "Они достаточно короткие, чтобы вписаться в контекстный размер языковой модели. Их статус сложен: многие из стихотворений, которые мы изучали, технически защищены авторским правом, но они также широко доступны из авторитетных источников, таких как Poetry Foundation".

Исследование охватывало ChatGPT и другие модели, такие как PaLM от Google AI, Pythia от EleutherAI и GPT-2 от OpenAI. Д'Соуза составил подборку стихов 60 американских поэтов разного происхождения и представил их этим моделям. 

Исследователи использовали определенные подсказки, чтобы попросить стихи у этих моделей. Эти подсказки были разными, в том числе предлагалось назвать стихи по их названиям, авторам или даже начальным строкам. Это было важно для проверки того, могут ли модели точно вспомнить и воспроизвести запрошенное стихотворение.

ChatGPT успешно отыскал 72 из 240 стихотворений, PaLM - 10, а GPT-2 и Pythia не смогли полностью вспомнить стихи. 

Основным фактором, определяющим способность чатбота запомнить стихотворение, была его включенность в поэтический канон, а раса, пол и эпоха поэта были менее значимы.

Стихотворение, опубликованное в "Нортоновской антологии поэзии", особенно в издании 1983 года, было самым надежным показателем того, что оно было выучено наизусть и передано дословно.

Более того, исследователи обнаружили, что реакция менялась с течением времени: впоследствии ChatGPT непредсказуемо обращался со стихами, защищенными авторским правом, иногда отказывая в просьбах предоставить целые стихотворения. 

Лира Д'Соуза, автор исследования, выразил обеспокоенность в газете Cornell Chronicle о больших языковых моделях (LLM), запоминающих обширные тексты, подчеркивая последствия для конфиденциальности и авторского права: "Как правило, большим языковым моделям нежелательно запоминать большие куски текста, отчасти потому, что это связано с конфиденциальностью".

Это исследование, в настоящее время сосредоточенное на американской поэзии, планируется расширить, чтобы включить в него ответы на стихи на разных языках и оценить, как конкретные поэтические особенности влияют на вероятность запоминания.

Более того, хотя исследование выявляет авторские стихи в обучающих данных и уточняет способность моделей запоминать их дословно, оно не проливает свет на то, откуда они взяты.

Популярные стихи, скорее всего, будут появляться во многих местах в Интернете, например на веб-форумах, в блогах и т. д., поэтому неудивительно, что они хорошо запоминаются из наборов данных, собранных из общих веб-источников.

Как проходило исследование

Вот более подробная информация об исследовании, Чатбот и канон: Заучивание стихов у магистрантовДоклад на конференции Computational Humanities Research Conference, работа:

  1. Создание разнообразной поэтической коллекции: Исследователи составили набор данных из 240 стихотворений 60 американских поэтов, представляющих широкий спектр временных периодов, этнической принадлежности, пола и известности. В исследовании были задействованы различные языковые модели, включая ChatGPT, PaLM от Google, Pythia от EleutherAI и GPT-2 от OpenAI. 
  2. Разработка подсказок: Исследователи использовали определенные подсказки, чтобы попросить стихи у этих моделей. Эти подсказки были самыми разными, в том числе предлагалось называть стихи по их названиям, авторам или даже начальным строкам. 
  3. Оценка ответов модели: Ответы моделей ИИ были проанализированы на предмет того, смогли ли они точно воспроизвести запрошенные стихи. Ключевой метрикой была точность воспроизведения, которая заключалась в проверке того, смогли ли модели вспомнить точный текст стихотворений.
  4. Анализ факторов, влияющих на запоминание: В исследовании также изучались факторы, влияющие на способность модели запоминать стихи. В частности, анализировалось, влияет ли присутствие стихотворения или поэта в известных антологиях, таких как "Нортонская антология поэзии", а также расовая принадлежность поэта, его пол и объем страницы в Википедии на вероятность запоминания стихотворения моделями ИИ.
  5. Выводы и последствия: Исследование показало, что более крупные модели, такие как ChatGPT и PaLM, были более успешны в запоминании и воспроизведении стихов. Исследование показало, как модели искусственного интеллекта, обученные на данных, собранных в Интернете, могут усиливать существующие литературные предубеждения.

Это исследование показало не только возможности ИИ в обработке поэзии, но и выявило потенциал того, что существующие литературные предубеждения могут быть отражены и увековечены моделями ИИ. 

Если человечество начнет полагаться на ИИ как на своего рода энциклопедию, сможем ли мы рассчитывать на то, что он будет справедливо представлять произведения? Из-за присущих ему проблем с честным и разнообразным представлением тем в обучающих данных, скорее всего, нет.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Сэм Джинс

Сэм - писатель в области науки и техники, работавший в различных AI-стартапах. Когда он не пишет, его можно найти за чтением медицинских журналов или копанием в коробках с виниловыми пластинками.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения