Новое исследование, опубликованное в журнале Nature, показывает, что модели ИИ, включая большие языковые модели (LLM), быстро теряют в качестве, когда обучаются на данных, сгенерированных предыдущими моделями ИИ.
Это явление, называемое "крахом модели", может снизить качество будущих моделей ИИ, особенно по мере того, как все больше контента, созданного ИИ, будет попадать в интернет и, следовательно, перерабатываться и повторно использоваться в качестве данных для обучения моделей.
Исследуя этот феномен, ученые из Кембриджского, Оксфордского университетов и других учебных заведений проведённые эксперименты показывает, что при многократном обучении моделей искусственного интеллекта на данных, созданных их предыдущими версиями, они начинают генерировать нелепые результаты.
Это наблюдалось в разных типах моделей ИИ, включая языковые модели, вариативные автоэнкодеры и модели гауссовой смеси.
В одном из ключевых экспериментов с языковыми моделями команда провела тонкую настройку модели OPT-125m на наборе данных WikiText-2, а затем использовала ее для генерации нового текста.
Этот сгенерированный ИИ текст затем использовался для обучения следующего "поколения" модели, и процесс повторялся снова и снова.
Вскоре модели стали выдавать все более неправдоподобные и бессмысленные тексты.
К девятому поколению модель генерировала полную белиберду, например, перечисляла множество несуществующих видов "джекрэббитов", когда ей задавали вопрос об английских церковных башнях.
Исследователи также заметили, как модели теряют информацию о "редких" или нечастых событиях до полного краха.
Это вызывает тревогу, поскольку редкие события часто связаны с маргинализированными группами населения или с людьми, выбивающимися из общего ряда. Без них модели рискуют сконцентрировать свои ответы на узком спектре идей и убеждений, тем самым усиливая предубеждения.
Компании, занимающиеся разработкой искусственного интеллекта, знают об этом, поэтому они заключают сделки с новостными компаниями и издательствами, чтобы обеспечить постоянный поток высококачественной, написанной человеком и актуальной информации.
"Суть в том, что мы должны быть очень внимательны к тому, что попадает в наши учебные данные". исследование соавтор Захар Шумайлов из Кембриджского университета рассказал Природе. "Иначе все всегда будет идти не так, как надо".
Усугубляет этот эффект недавнее исследование исследование Доктор Ричард Флетчер, директор по исследованиям Института изучения журналистики Reuters, обнаружил, что почти половина (48%) самых популярных новостных сайтов в мире теперь недоступны для краулеров OpenAI, а краулеры ИИ Google заблокированы на 24% сайтах.
В результате модели ИИ получают доступ к меньшему количеству высококачественных и свежих данных, чем раньше, что повышает риск обучения на некачественных или устаревших данных.
Решение проблемы краха модели
Что касается решений, то исследователи утверждают, что сохранение доступа к оригинальным, созданным человеком источникам данных жизненно важно для будущего ИИ.
Отслеживание и управление контентом, созданным ИИ, также было бы полезно, чтобы предотвратить его случайное загрязнение обучающих баз данных. Это было бы очень непросто, поскольку контент, созданный ИИ, становится невозможно обнаружить.
Исследователи предлагают четыре основных решения:
- Нанесение водяных знаков на контент, созданный искусственным интеллектом, чтобы отличить его от данных, созданных человеком
- Создание стимулов для людей, чтобы они продолжали создавать высококачественный контент
- Разработка более сложных методов фильтрации и курирования учебных данных
- Изучение способов сохранения и приоритетного доступа к оригинальной информации, не созданной искусственным интеллектом
Разрушение модели - реальная проблема
Это исследование - далеко не единственное, посвященное изучению распада модели.
Не так давно исследователи из Стэнфорда сравнили два сценария в которых может произойти крах модели: один, когда обучающие данные каждой новой итерации модели полностью заменяют предыдущие данные, и другой, когда синтетические данные добавляются к существующему набору данных.
При замене данных производительность модели быстро ухудшалась на всех протестированных архитектурах.
Однако, когда данным позволяли "накапливаться", краха модели удавалось избежать. Системы ИИ сохраняли свою производительность, а в некоторых случаях демонстрировали улучшение.
Таким образом, несмотря на опасения, крах модели не является предрешенным фактом - он зависит от того, сколько данных, сгенерированных искусственным интеллектом, входит в набор, а также от соотношения синтетических и подлинных данных.
Если в пограничных моделях начнет проявляться крах модели, можно быть уверенным, что компании, занимающиеся разработкой ИИ, будут искать долгосрочное решение.
Мы еще не дошли до этого, но, возможно, это вопрос времени, а не случая.