Все, что вам нужно знать о новой флагманской модели OpenAI, GPT-4o

Май 13, 2024

  • OpenAI анонсировала свою новую флагманскую мультимодальную модель под названием GPT-4o
  • Буква O означает "omni", что говорит о превосходных аудиовизуальных характеристиках этой модели.
  • GPT-4o может выполнять впечатляющий перевод речи в режиме реального времени
OpenAI

OpenAI только что продемонстрировала свою новую флагманскую базовую модель GPT-4o, обладающую невероятными возможностями распознавания речи и перевода. 

В качестве генерального директора Сэм Altman сам заявил, что мы знали. OpenAIПоследнее "весеннее обновление" не было связано с GPT-5 или искусственный интеллект.

Но сегодня в 10 утра по тихоокеанскому времени сотни тысяч людей присоединились к прямой трансляции презентации новой модели, когда главный технический директор (CTO) Мира Мурати продемонстрировала ее преимущества перед предшественницей, GPT-4.

Ключевые объявления, сделанные на демонстрационной сессии, включают:

  • GPT-4o (буква "o" означает "omni") намеревается заменить GPT-4, с OpenAI называя ее своей новой флагманской основополагающей моделью. 
  • Хотя в целом они похожи на GPT-4, GPT-4o обеспечивает превосходную многоязычную и аудиовизуальную обработку. Он может обрабатывать и переводить аудио практически в режиме реального времени. Более поздние тесты показали, что GPT-4o хуже GPT-4 в некоторых "сложных задачах".
  • OpenAI делает GPT-4o Свободный доступ, с ограничениями. Пользователи-профи по-прежнему имеют приоритет и более высокий лимит сообщений.
  • OpenAI также выпускает настольную версию ChatGPTИзначально только для Mac.
  • Пользовательские GPT станут доступны и для бесплатных пользователей.
  • GPT-4o и его голосовые функции будут постепенно распространяться в течение ближайших недель и месяцев.

GPT-4oаудиоперевод в режиме реального времени

Главная особенность GPT-4o - впечатляющие возможности обработки и перевода звука, которые работают практически в режиме реального времени. 

Демонстрация показала, что ИИ участвует в удивительно естественных голосовых диалогах, предлагая мгновенный перевод, рассказывая истории и давая советы по кодированию. 

Например, модель может проанализировать изображение меню на иностранном языке, перевести его и предоставить культурные знания и рекомендации. 

Он также может распознавать эмоции по дыханию, выражению лица и другим визуальным признакам. 

Умение GPT-4o распознавать эмоции, вероятно, вызовет споры, когда пыль уляжется.

Эмоционально когнитивный ИИ может развивать потенциально опасные варианты использования, основанные на подражании человеку, такие как глубокая подделка, социальная инженерия и т. д. 

Еще один впечатляющий навык, продемонстрированный командой, - голосовая помощь при кодировании в режиме реального времени.

В одной из демонстраций даже было показано, как два экземпляра модели поют друг другу.

Общая суть OpenAIВ демонстрационных роликах компания стремится сделать мультимодальность ИИ действительно полезной в повседневных сценариях, бросая вызов таким инструментам, как Google Translate. 

Еще один важный момент - это то, что эти демо-версии соответствуют реальности. OpenAI указал: "Все видео на этой странице - в режиме реального времени", возможно, намекая на Google, который сильно отредактировал свой Gemini демонстрационное видео преувеличивать свои мультимодальные способности.

Благодаря GPT-4o мультимодальные приложения ИИ могут превратиться из новинки, запрятанной глубоко в интерфейсах ИИ, в то, с чем обычные пользователи могут взаимодействовать ежедневно.

Хотя демонстрация была впечатляющей, это все еще демонстрация, и результаты, полученные от обычных пользователей "в дикой природе", действительно покажут, насколько компетентны эти функции.

Помимо обработки и перевода речи в реальном времени, которые сейчас находятся в центре всеобщего внимания, тот факт, что OpenAI делает эту новую модель свободной от ограничений. 

WХотя GPT-4o - это *всего лишь* немного улучшенный GPT-4, он позволит любому человеку получить высококлассную модель искусственного интеллекта, уравнивая шансы миллионов людей по всему миру.

Вы можете посмотреть анонс и демонстрацию ниже:

Все, что мы знаем о GPT-4o

Вот краткое описание всего, что мы знаем о GPT-4o на сегодняшний день:

  • Мультимодальная интеграция: GPT-4o быстро обрабатывает и генерирует текстовые, аудио и графические данные, обеспечивая динамическое взаимодействие между различными форматами. 
  • Ответы в режиме реального времени: Модель отличается впечатляющим временем отклика, сравнимым со скоростью реакции человека при разговоре, а время отклика на аудиозапись составляет всего 232 миллисекунды.
  • Язык и возможности кодирования: GPT-4o соответствует GPT-4 Turbo по производительности в задачах на английском языке и кодировании и превосходит его в обработке неанглийских текстов.
  • Аудиовизуальные улучшения: По сравнению с предыдущими моделями, GPT-4o демонстрирует превосходное понимание зрительных и звуковых задач, что повышает его способность взаимодействовать с мультимедийным контентом.
  • Естественные взаимодействия: В ходе демонстрации два GPT-4o исполнили песню, помогли подготовиться к собеседованию, сыграли в игры типа "камень-ножницы-бумага" и даже порадовали шутками про отца.
  • Снижение затрат для разработчиков: OpenAI снизила стоимость для разработчиков, использующих GPT-4o, на 50% и удвоила скорость обработки.
  • Эталонная производительность: Бенчмарки GPT-4o Превосходно справляется с многоязычными, аудио- и визуальными задачами, хотя независимые тесты подтверждают, что он отстает от GPT-4 в некоторых задачах по кодированию, математике и других "трудных задачах". 

GPT-4o - это значимое объявление для OpenAI, particularly as its the most powerful free closed model available by a sizeable margin.

Это может означать наступление эры практичного, полезного мультимодального ИИ, которым люди начнут пользоваться массово.

Это станет огромным событием как для компании, так и для всей индустрии генеративного ИИ.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Сэм Джинс

Сэм - писатель в области науки и техники, работавший в различных AI-стартапах. Когда он не пишет, его можно найти за чтением медицинских журналов или копанием в коробках с виниловыми пластинками.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения