Все, что вам нужно знать о новой флагманской модели OpenAI, GPT-4o

OpenAI только что продемонстрировала свою новую флагманскую базовую модель GPT-4o, обладающую невероятными возможностями распознавания речи и перевода.

В качестве генерального директора Сэм Altman сам заявил, что мы знали. OpenAIПоследнее "весеннее обновление" не было связано с GPT-5 или искусственный интеллект.

Но сегодня в 10 утра по тихоокеанскому времени сотни тысяч людей присоединились к прямой трансляции презентации новой модели, когда главный технический директор (CTO) Мира Мурати продемонстрировала ее преимущества перед предшественницей, GPT-4.

Ключевые объявления, сделанные на демонстрационной сессии, включают:

GPT-4o (буква "o" означает "omni") намеревается заменить GPT-4, с OpenAI называя ее своей новой флагманской основополагающей моделью.
Хотя в целом они похожи на GPT-4, GPT-4o обеспечивает превосходную многоязычную и аудиовизуальную обработку. Он может обрабатывать и переводить аудио практически в режиме реального времени. Более поздние тесты показали, что GPT-4o хуже GPT-4 в некоторых "сложных задачах".
OpenAI делает GPT-4o Свободный доступ, с ограничениями. Пользователи-профи по-прежнему имеют приоритет и более высокий лимит сообщений.
OpenAI также выпускает настольную версию ChatGPTИзначально только для Mac.
Пользовательские GPT станут доступны и для бесплатных пользователей.
GPT-4o и его голосовые функции будут постепенно распространяться в течение ближайших недель и месяцев.

GPT-4oаудиоперевод в режиме реального времени

Главная особенность GPT-4o - впечатляющие возможности обработки и перевода звука, которые работают практически в режиме реального времени.

Демонстрация показала, что ИИ участвует в удивительно естественных голосовых диалогах, предлагая мгновенный перевод, рассказывая истории и давая советы по кодированию.

Например, модель может проанализировать изображение меню на иностранном языке, перевести его и предоставить культурные знания и рекомендации.

OpenAI только что продемонстрировала свою новую модель GPT-4o, выполняющую переводы в режиме реального времени 🤯. pic.twitter.com/Cl0gp9v3kN

- Том Уоррен (@tomwarren) 13 мая 2024 года

Он также может распознавать эмоции по дыханию, выражению лица и другим визуальным признакам.

Клип разговора в реальном времени с GPT4-o, работающим на ChatGPT приложение

НОВОЕ: Вместо того чтобы просто преобразовывать речь в текст, GPT-4o может также понимать и обозначать другие особенности звука, такие как дыхание и эмоции. Не уверен, как это выражено в ответе модели.#openai https://t.co/CpvCkjI0iA pic.twitter.com/24C8rhMFAw

- Эндрю Гао (@itsandrewgao) 13 мая 2024 года

Умение GPT-4o распознавать эмоции, вероятно, вызовет споры, когда пыль уляжется.

Эмоционально когнитивный ИИ может развивать потенциально опасные варианты использования, основанные на подражании человеку, такие как глубокая подделка, социальная инженерия и т. д.

Еще один впечатляющий навык, продемонстрированный командой, - голосовая помощь при кодировании в режиме реального времени.

С помощью GPT-4o/ChatGPT В настольном приложении у вас может быть приятель-кодировщик (черный кружок), который говорит с вами и видит то, что видите вы!#openai анонсы! https://t.co/CpvCkjI0iA pic.twitter.com/Tfh81mBHCv

- Эндрю Гао (@itsandrewgao) 13 мая 2024 года

В одной из демонстраций даже было показано, как два экземпляра модели поют друг другу.

Эта демонстрация двух GPT-4o, поющих друг с другом, - одна из самых безумных вещей, которые я когда-либо видел. pic.twitter.com/UXFfbIpuF6

- Мэтт Шумер (@mattshumer_) 13 мая 2024 года

Общая суть OpenAIВ демонстрационных роликах компания стремится сделать мультимодальность ИИ действительно полезной в повседневных сценариях, бросая вызов таким инструментам, как Google Translate.

Еще один важный момент - это то, что эти демо-версии соответствуют реальности. OpenAI указал: "Все видео на этой странице - в режиме реального времени", возможно, намекая на Google, который сильно отредактировал свой Gemini демонстрационное видео преувеличивать свои мультимодальные способности.

Благодаря GPT-4o мультимодальные приложения ИИ могут превратиться из новинки, запрятанной глубоко в интерфейсах ИИ, в то, с чем обычные пользователи могут взаимодействовать ежедневно.

Хотя демонстрация была впечатляющей, это все еще демонстрация, и результаты, полученные от обычных пользователей "в дикой природе", действительно покажут, насколько компетентны эти функции.

Помимо обработки и перевода речи в реальном времени, которые сейчас находятся в центре всеобщего внимания, тот факт, что OpenAI делает эту новую модель свободной от ограничений.

WХотя GPT-4o - это *всего лишь* немного улучшенный GPT-4, он позволит любому человеку получить высококлассную модель искусственного интеллекта, уравнивая шансы миллионов людей по всему миру.

Вы можете посмотреть анонс и демонстрацию ниже:

Все, что мы знаем о GPT-4o

Вот краткое описание всего, что мы знаем о GPT-4o на сегодняшний день:

Мультимодальная интеграция: GPT-4o быстро обрабатывает и генерирует текстовые, аудио и графические данные, обеспечивая динамическое взаимодействие между различными форматами.
Ответы в режиме реального времени: Модель отличается впечатляющим временем отклика, сравнимым со скоростью реакции человека при разговоре, а время отклика на аудиозапись составляет всего 232 миллисекунды.
Язык и возможности кодирования: GPT-4o соответствует GPT-4 Turbo по производительности в задачах на английском языке и кодировании и превосходит его в обработке неанглийских текстов.
Аудиовизуальные улучшения: По сравнению с предыдущими моделями, GPT-4o демонстрирует превосходное понимание зрительных и звуковых задач, что повышает его способность взаимодействовать с мультимедийным контентом.
Естественные взаимодействия: В ходе демонстрации два GPT-4o исполнили песню, помогли подготовиться к собеседованию, сыграли в игры типа "камень-ножницы-бумага" и даже порадовали шутками про отца.
Снижение затрат для разработчиков: OpenAI снизила стоимость для разработчиков, использующих GPT-4o, на 50% и удвоила скорость обработки.
Эталонная производительность: Бенчмарки GPT-4o Превосходно справляется с многоязычными, аудио- и визуальными задачами, хотя независимые тесты подтверждают, что он отстает от GPT-4 в некоторых задачах по кодированию, математике и других "трудных задачах".

GPT-4o - это значимое объявление для OpenAI, particularly as its the most powerful free closed model available by a sizeable margin.

Это может означать наступление эры практичного, полезного мультимодального ИИ, которым люди начнут пользоваться массово.

Это станет огромным событием как для компании, так и для всей индустрии генеративного ИИ.

Все, что вам нужно знать о новой флагманской модели OpenAI, GPT-4o

GPT-4oаудиоперевод в режиме реального времени

Все, что мы знаем о GPT-4o

Присоединяйтесь к будущему

Сэм Джинс

СВЯЗАННЫЕ СТАТЬИ

Игровая индустрия переживает кризис среднего возраста - является ли ИИ ее будущим?

OpenAI представляет API реального времени и другие возможности для разработчиков

Губернатор Калифорнии Гэвин Ньюсом наложил вето на законопроект SB 1047 о безопасности искусственного интеллекта

Как Китай участвует в гонке ИИ? Технологические гиганты и стартапы расширяют границы

Все, что вам нужно знать о новой флагманской модели OpenAI, GPT-4o

GPT-4oаудиоперевод в режиме реального времени

Все, что мы знаем о GPT-4o

Присоединяйтесь к будущему

Сэм Джинс

СВЯЗАННЫЕ СТАТЬИ

Игровая индустрия переживает кризис среднего возраста - является ли ИИ ее будущим?

OpenAI представляет API реального времени и другие возможности для разработчиков

Губернатор Калифорнии Гэвин Ньюсом наложил вето на законопроект SB 1047 о безопасности искусственного интеллекта

Как Китай участвует в гонке ИИ? Технологические гиганты и стартапы расширяют границы

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDFБудьте впереди с DailyAI

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI