Генеративные системы искусственного интеллекта, галлюцинации и растущий технический долг

По мере того как системы искусственного интеллекта, такие как большие языковые модели (LLM), растут в размерах и усложняются, исследователи обнаруживают интригующие фундаментальные ограничения.

Недавние исследования Google и Сингапурского университета раскрыли механику "галлюцинаций" ИИ - когда модели генерируют убедительную, но сфабрикованную информацию - и накопления "технического долга", который со временем может привести к созданию беспорядочных и ненадежных систем.

Помимо технических проблем, открытым вопросом остается согласование возможностей и стимулов ИИ с человеческими ценностями.

Поскольку компании, подобные OpenAI, продвигаются по пути создания искусственного интеллекта общего назначения (AGI), обеспечение безопасности будущего означает признание границ существующих систем.

Однако осторожное признание рисков противоречит девизу Кремниевой долины "быстро двигаться и ломать", который характеризует исследования и разработки в области ИИ, как и технологические инновации до него.

Исследование 1: модели ИИ накапливают "технический долг

Машинное обучение часто рекламируется как постоянно масштабируемое, а системы предлагают модульную, интегрированную структуру для разработки.

Однако в фоновом режиме разработчики могут накапливать большой "технический долг", который им придется решать в будущем.

В Исследовательская работа Google, "Машинное обучение: Высокопроцентная кредитная карта технического долга", исследователи обсуждают концепцию технического долга в контексте систем ML.

Генеральный директор Kaggle и многолетний исследователь Google Д. Скалли и его коллеги утверждают, что, хотя ML предлагает мощные инструменты для быстрого создания сложных систем, эти "быстрые победы" часто вводят в заблуждение.

Простота и скорость развертывания моделей ML могут скрыть будущие нагрузки, которые они накладывают на удобство обслуживания и эволюцию системы.

Как описывают авторы, этот скрытый долг возникает из-за нескольких специфических для ML факторов риска, которых разработчикам следует избегать или рефакторить.

Вот основные выводы:

Системы ML по своей природе представляют собой уровень сложности, выходящий за рамки одного лишь кодирования. Это может привести к тому, что авторы называют "эрозией границ", когда четкие границы между различными компонентами системы становятся размытыми из-за взаимозависимостей, создаваемых ML-моделями. Это затрудняет выделение и внедрение улучшений, не затрагивающих другие части системы.
В статье также освещается проблема "запутанности", когда изменение любой части системы ML, например входных характеристик или параметров модели, может иметь непредсказуемые последствия для остальной части системы. Изменение одного небольшого параметра может вызвать каскад эффектов, влияющих на функционирование и целостность всей модели.
Еще одна проблема - создание "скрытых петель обратной связи", когда ML-модели влияют на свои собственные обучающие данные непредвиденным образом. Это может привести к тому, что системы будут развиваться в непредусмотренных направлениях, что усугубляет сложность управления и понимания поведения системы.
Авторы также рассматривают "зависимости от данных", например, когда входные сигналы меняются со временем, что особенно проблематично, поскольку их сложнее обнаружить.

Почему технический долг имеет значение

Технический долг затрагивает долгосрочное здоровье и эффективность систем ML.

Когда разработчики спешат запустить системы ML, они могут не обратить внимания на сложные тонкости работы с данными или подводные камни, связанные со "склеиванием" различных частей.

Это может сработать в краткосрочной перспективе, но впоследствии может привести к запутанному беспорядку, который будет трудно расчленить, обновить или даже понять.

⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️

GenAI - это лавина технического долга*, которая только и ждет, чтобы случиться

Только на этой неделе
👉ChatGPT "впал в ярость" почти без объяснений
👉 Сора не может последовательно определить, сколько ног у кошки.
👉 Вмешательство Gemini в диверсификацию совершенно сошло с рельсов.... pic.twitter.com/qzrVlpX9yz

- Гэри Маркус @ AAAI 2024 (@GaryMarcus) 24 февраля 2024 года

Например, использование ML-моделей как таковых из библиотеки кажется эффективным, пока вы не столкнетесь с кошмаром "клеевого кода", когда большая часть системы - это просто клейкая лента, соединяющая кусочки, которые не должны были подходить друг другу.

Или рассмотрим "трубопроводные джунгли", описанные в предыдущая работа Д. Скалли и коллег, где подготовка данных превращается в лабиринт переплетенных процессов, так что внесение изменений похоже на обезвреживание бомбы.

Последствия технического долга

Прежде всего, чем более запутанной становится система, тем сложнее ее совершенствовать или поддерживать. Это не только сдерживает инновации, но и может привести к более зловещим проблемам.

Например, если система ML начинает принимать решения на основе устаревших или необъективных данных, поскольку их обновление слишком обременительно, это может усилить или усиливают общественные предубеждения.

Более того, в таких критически важных приложениях, как здравоохранение или автономных транспортных средств, такая техническая задолженность может привести к ужасным последствиям, причем не только в плане времени и денег, но и в плане благосостояния людей.

Как говорится в исследовании, "не все долги обязательно плохие, но технический долг имеет тенденцию к усугублению. Откладывание работы по его погашению приводит к росту затрат, хрупкости системы и снижению темпов внедрения инноваций".

Это также напоминание бизнесу и потребителям о необходимости требовать прозрачности и подотчетности технологий ИИ, которые они внедряют.

В конце концов, цель состоит в том, чтобы использовать возможности ИИ для улучшения жизни, а не увязнуть в бесконечном цикле погашения технического долга.

Исследование 2: Вы не можете отделить галлюцинации от LLM

В другом, но соответствующее исследование Исследователи Цзывэй Сюй, Санджай Джайн и Мохан Канканхалли из Национального университета Сингапура изучили ограничения, присущие LLM.

В книге "Галлюцинации неизбежны: Врожденное ограничение больших языковых моделей" исследует природу галлюцинаций ИИ, которые описывают случаи, когда системы ИИ генерируют правдоподобную, но неточную или полностью сфабрикованную информацию.

Феномен галлюцинаций представляет собой серьезную техническую проблему, поскольку выявляет фундаментальный разрыв между результатами работы модели ИИ и тем, что считается "истиной" - идеальной моделью, которая всегда выдает правильную и логичную информацию.

Понимание того, как и почему генеративный ИИ вызывает галлюцинации, имеет первостепенное значение по мере внедрения этой технологии в такие важные отрасли, как полиция и правосудие, здравоохранение и юриспруденция.

Что, если бы можно было *доказать*, что галлюцинации неизбежны у LLM?

Изменится ли это
- Как вы относитесь к LLM?
- Сколько вы вложите в них?
- Насколько приоритетны для вас исследования в области альтернатив?

В новой статье приводятся аргументы в пользу этого: https://t.co/r0eP3mFxQg
h/t... pic.twitter.com/Id2kdaCSGk

- Гэри Маркус @ AAAI 2024 (@GaryMarcus) 25 февраля 2024 года

Теоретические основы галлюцинаций

Исследование начинается с создания теоретической основы для понимания галлюцинаций у LLM.

Исследователи cсоздали теоретическую модель, известную как "формальный мир". Эта упрощенная, контролируемая среда позволила им наблюдать условия, при которых модели ИИ не согласуются с реальностью.

Затем они протестировали два основных семейства LLM:

Ллама 2: В частности, использовалась версия с 70 миллиардами параметров (llama2-70b-chat-hf), доступная на HuggingFace. Эта модель является одной из самых новых на арене больших языковых моделей, предназначенных для широкого спектра задач по созданию и пониманию текстов.
Генеративные предварительно обученные трансформаторы (GPT): Исследование включало в себя тесты GPT-3.5, в частности модели gpt-3.5-turbo-16k с 175 миллиардами параметров, и GPT-4 (gpt-4-0613), точное количество параметров которой не раскрывается.

LLM попросили перечислить строки заданной длины, используя определенный алфавит, - казалось бы, простая вычислительная задача.

В частности, перед моделями была поставлена задача сгенерировать все возможные строки длиной от 1 до 7, используя алфавиты из двух (например, {a, b}) и трех (например, {a, b, c}) символов.

Выходные данные оценивались по тому, содержат ли они все и только все строки заданной длины из заданного алфавита.

Выводы

Результаты показали явное ограничение способности моделей правильно выполнять задание по мере увеличения сложности (т.е. по мере увеличения длины строки или размера алфавита). В частности:

Модели хорошо справлялись с короткими строками и небольшими алфавитами, но при повышении сложности задачи они давали сбои.
Примечательно, что даже продвинутая модель GPT-4, самая сложная из существующих на данный момент LLM, не смогла успешно перечислить все строки, превышающие определенную длину.

Это говорит о том, что галлюцинации - не просто глюк, который можно исправить - они являются фундаментальным аспектом того, как эти модели понимают и воспроизводят человеческий язык.

Как говорится в исследовании, "Магистры наук не могут выучить все из вычислимых функций и поэтому всегда будет галлюцинировать. Поскольку формальный мир это часть из реальный мир, который это гораздо сложнее, галлюцинации также неизбежно для настоящих магистров".

Последствия для приложений с высокими ставками огромны. В таких отраслях, как здравоохранение, финансы или юриспруденция, где точность информации может иметь серьезные последствия, полагаться на LLM, не имея возможности отсеять эти галлюцинации, может привести к серьезным ошибкам.

Это исследование привлекло внимание эксперта по искусственному интеллекту доктора Гэри Маркуса и выдающегося когнитивного психолога доктора Стивена Пинкера.

Галлюцинации неизбежны при использовании больших языковых моделей из-за их конструкции: никакого представления фактов или вещей, только статистические взаимосвязи. Новое доказательство "врожденного ограничения" LLM. https://t.co/Hl1kqxJGXt

- Стивен Пинкер (@sapinker) 25 февраля 2024 года

Здесь кроются более глубокие проблемы

Накопление технического долга и неизбежность галлюцинаций в LLM свидетельствуют о более глубокой проблеме - нынешняя парадигма развития ИИ может быть изначально не приспособлена для создания высокоинтеллектуальных систем и надежно согласована с человеческими ценностями и фактической правдой.

В чувствительных областях недостаточно иметь систему искусственного интеллекта, которая работает правильно большую часть времени. Технический долг и галлюцинации со временем ставят под угрозу целостность модели.

Решение этой проблемы - не только техническая, но и междисциплинарная задача, требующая участия специалистов по этике, политике и специфике ИИ для безопасной навигации.

Сейчас это, казалось бы, противоречит принципам индустрии, живущей под девизом "двигаться быстро и ломать вещи".

Будем надеяться, что люди - это не "вещи".

Генеративные системы искусственного интеллекта, галлюцинации и растущий технический долг