Компания Google опубликовала первую версию Frontier Safety Framework - набора протоколов, направленных на устранение серьезных рисков, которые могут представлять собой мощные модели ИИ будущего.
Концепция определяет уровни критических возможностей (Critical Capability Levels, CCL), которые представляют собой пороговые значения, при которых модели могут представлять повышенный риск без дополнительных мер по снижению риска.
Затем в нем представлены различные уровни смягчения для моделей, нарушающих эти CCL. Смягчения делятся на две основные категории:
- Меры по снижению уровня безопасности - Предотвращение обнародования веса модели, достигшей CCL
- Устранение последствий развертывания - Предотвращение неправильного использования развернутой модели, которая достигает CCL
Выпуск фреймворка Google состоялся на той же неделе, когда OpenAIСупергруппы по безопасности развалились.
Компания Google, похоже, серьезно относится к потенциальным рискам, связанным с ИИ, и заявила: "Мы провели предварительный анализ доменов автономии, биозащиты, кибербезопасности и НИОКР в области машинного обучения. Наши первоначальные исследования показывают, что мощные возможности будущих моделей с наибольшей вероятностью могут представлять риски в этих областях".
К числу CCL, которые рассматриваются в рамочной программе, относятся:
- Автономия - Модель, которая может расширять свои возможности, "автономно приобретая ресурсы и используя их для запуска и поддержания дополнительных копий себя на арендуемом оборудовании".
- Биологическая безопасность - Модель, способная существенно облегчить эксперту или неэксперту разработку известных или новых биоугроз.
- Кибербезопасность - Модель, способная полностью автоматизировать кибератаки или позволить любителю проводить сложные и серьезные атаки.
- Исследования и разработки в области машинного обучения - Модель, которая может значительно ускорить или автоматизировать исследования ИИ в передовой лаборатории.
Особое беспокойство вызывает CCL об автономности. Мы все видели научно-фантастические фильмы, где ИИ берет верх, но теперь Google заявляет, что в будущем необходимо работать над защитой "от риска того, что системы будут действовать враждебно по отношению к человеку".
Google периодически пересматривает свои модели, используя набор "оценок раннего предупреждения", которые отмечают модель, приближающуюся к CCL.
Если модель проявляет первые признаки этих критических возможностей, применяются меры по смягчению последствий.
Интересным замечанием в концепции является то, что Google говорит: "Модель может достичь пороговых значений оценки до того, как будут готовы меры по снижению риска на соответствующих уровнях".
Так, разрабатываемая модель может демонстрировать критические возможности, которые могут быть использованы не по назначению, а у Google пока нет способа предотвратить это. В этом случае, по словам Google, разработка модели будет приостановлена.
Возможно, нас утешит тот факт, что Google, похоже, серьезно относится к рискам ИИ. Не слишком ли они осторожны, или потенциальные риски, которые перечислены в концепции, стоят того, чтобы о них беспокоиться?
Будем надеяться, что мы не узнаем об этом слишком поздно. Google говорит: "Мы планируем внедрить эту первоначальную систему к началу 2025 года, что, по нашим расчетам, должно произойти задолго до того, как эти риски материализуются".
Если вы уже обеспокоены рисками искусственного интеллекта, чтение основных положений только усилит эти страхи.
В документе отмечается, что система будет "существенно развиваться по мере того, как будет улучшаться наше понимание рисков и преимуществ передовых моделей", и что "есть значительные возможности для улучшения понимания рисков, создаваемых моделями в различных областях".