Сидит ли OpenAI на опасной модели ИИ, которая привела к увольнению Альтмана?

23 ноября 2023 года

Суперинтеллект OpenAI

Еще один день, еще один поворот в саге OpenAI-Altman. 

На этот раз причиной увольнения Альтмана стала апокалиптически мощная модель ИИ, находящаяся в исследовательской лаборатории OpenAI, по крайней мере, так утверждают источники СМИ.

За несколько дней до выхода фильма Сэма Олтмена временный отъезд из OpenAI, источники, опрошенные Reuters, утверждают, что исследователи компании направили предупредительное письмо совету директоров.

Это письмо, которое до недавнего времени не было обнародовано, вызвало тревогу по поводу прорыва ИИ. По словам двух инсайдеров, которые связался с РейтерНо он достаточно силен, чтобы угрожать человечеству.

Источники утверждают, что модель, о которой идет речь, могла сыграть ключевую роль в событиях, приведших к увольнению Альтмана. 

Проект, о котором идет речь, известен как Q* (произносится как Q-Star). Некоторые в OpenAI считают Q* потенциальной вехой в поисках искусственный интеллект общего назначения (ИИОН). Q* - это объединение подходов машинного обучения, включая Q-learning, который появился еще в 1980-х годах. 

Хотя СМИ любят апокалиптические истории об ИИ, эти анонимные источники сообщили, что на решение совета директоров уволить Альтмана повлияли опасения по поводу преждевременной коммерциализации Q* без полного понимания ее последствий. 

Однако Reuters не удалось получить независимое подтверждение заявленных возможностей Q*, описанных исследователями.

Более того, у агентства Reuters не было доступа к письму, а сотрудники, ответственные за его написание, не ответили на запросы. 

Это не оставляет нам шансов на успех. Надо думать, что тот факт, что почти каждый сотрудник OpenAI ратовал за возвращение Альтмана, делает маловероятным, что было только двое, которые беспокоились о Q*.

После того как Альтман отверг опасения по поводу Q*, совет директоров решил уволить Альтмана - по крайней мере, так утверждается в этом письме и связанных с ним новостях. 

Но есть ли в этом какая-то суть? Или это просто еще один странный и спекулятивный поворот в драме в зале заседаний OpenAI?

Что такое Q* и как он работает?

Хотя это и предположение, Q* (Q-Star) может сочетать в себе элементы Q-обучения и алгоритмов поиска A* (A Star), оптимизированных с помощью процесса под названием Reinforcement Learning from Human Feedback (RLHF). 

Это не совсем уникальное явление, и ранее в статьях уже высказывались предположения о технике, связанной с Q*. Они могут дать нам некоторые подсказки о том, как это работает. 

Давайте разберем каждый компонент, чтобы понять, как они могут взаимодействовать в Q*:

Q-обучение в Q

Q-обучение - это тип алгоритма обучения с подкреплением, который существует уже около 30 лет. Он предназначен для того, чтобы помочь агенту узнать, какие действия лучше всего предпринять в данном состоянии, чтобы максимизировать вознаграждение. Это делается путем обучения функции ценности, известной как Q-функция, которая оценивает ожидаемую пользу от принятия данного действия в данном состоянии.

В контексте генеративных моделей ИИ, подобных тем, которые разрабатывает OpenAI, Q-обучение может определять оптимальную последовательность слов или ответов в разговоре или задаче по решению проблем. 

Каждое слово или ответ можно рассматривать как действие, а состояния могут быть контекстом или последовательностью уже созданных слов.

Алгоритм поиска в Q

A* - популярный алгоритм поиска графов, известный своей эффективностью и результативностью в поиске кратчайшего пути от начального узла к целевому узлу в графе. 

Упоминание о том, что Q* нужны "огромные вычислительные ресурсы" и он способен решать математические задачи, наводит на мысль, что A* может быть интегрирован с Q-обучением для обработки сложных, многоступенчатых процессов рассуждения. 

Алгоритм может оптимизировать принятие решений на протяжении нескольких шагов, сохраняя промежуточные результаты и эффективно перебирая возможные последовательности действий (или слов/ответов).

Роль ФОМС

RLHF предполагает обучение моделей ИИ с использованием обратной связи от человека для управления процессом обучения. Это может включать демонстрацию желаемых результатов, исправление ошибок и предоставление тонкой обратной связи для улучшения понимания и работы модели.

В Q* RLHF может быть использован для улучшения способности модели принимать решения и решать проблемы, особенно в сложных, многоходовых сценариях, где тонкое понимание и рассуждения имеют решающее значение.

Так может работать Q*, но он не рассказывает нам, как и почему это так тревожно, и не предлагает никакой ясности в отношении истинности утверждений письма.

Только время покажет, является ли Q* подлинной и представляет ли она какой-либо риск. 

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Сэм Джинс

Сэм - писатель в области науки и техники, работавший в различных AI-стартапах. Когда он не пишет, его можно найти за чтением медицинских журналов или копанием в коробках с виниловыми пластинками.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения