OpenAI только что продемонстрировала свою новую флагманскую базовую модель GPT-4o, обладающую невероятными возможностями распознавания речи и перевода.
В качестве генерального директора Сэм Altman сам заявил, что мы знали. OpenAIПоследнее "весеннее обновление" не было связано с GPT-5 или искусственный интеллект.
Но сегодня в 10 утра по тихоокеанскому времени сотни тысяч людей присоединились к прямой трансляции презентации новой модели, когда главный технический директор (CTO) Мира Мурати продемонстрировала ее преимущества перед предшественницей, GPT-4.
Ключевые объявления, сделанные на демонстрационной сессии, включают:
- GPT-4o (буква "o" означает "omni") намеревается заменить GPT-4, с OpenAI называя ее своей новой флагманской основополагающей моделью.
- Хотя в целом они похожи на GPT-4, GPT-4o обеспечивает превосходную многоязычную и аудиовизуальную обработку. Он может обрабатывать и переводить аудио практически в режиме реального времени. Более поздние тесты показали, что GPT-4o хуже GPT-4 в некоторых "сложных задачах".
- OpenAI делает GPT-4o Свободный доступ, с ограничениями. Пользователи-профи по-прежнему имеют приоритет и более высокий лимит сообщений.
- OpenAI также выпускает настольную версию ChatGPTИзначально только для Mac.
- Пользовательские GPT станут доступны и для бесплатных пользователей.
- GPT-4o и его голосовые функции будут постепенно распространяться в течение ближайших недель и месяцев.
GPT-4oаудиоперевод в режиме реального времени
Главная особенность GPT-4o - впечатляющие возможности обработки и перевода звука, которые работают практически в режиме реального времени.
Демонстрация показала, что ИИ участвует в удивительно естественных голосовых диалогах, предлагая мгновенный перевод, рассказывая истории и давая советы по кодированию.
Например, модель может проанализировать изображение меню на иностранном языке, перевести его и предоставить культурные знания и рекомендации.
OpenAI только что продемонстрировала свою новую модель GPT-4o, выполняющую переводы в режиме реального времени 🤯. pic.twitter.com/Cl0gp9v3kN
- Том Уоррен (@tomwarren) 13 мая 2024 года
Он также может распознавать эмоции по дыханию, выражению лица и другим визуальным признакам.
Клип разговора в реальном времени с GPT4-o, работающим на ChatGPT приложение
НОВОЕ: Вместо того чтобы просто преобразовывать речь в текст, GPT-4o может также понимать и обозначать другие особенности звука, такие как дыхание и эмоции. Не уверен, как это выражено в ответе модели.#openai https://t.co/CpvCkjI0iA pic.twitter.com/24C8rhMFAw
- Эндрю Гао (@itsandrewgao) 13 мая 2024 года
Умение GPT-4o распознавать эмоции, вероятно, вызовет споры, когда пыль уляжется.
Эмоционально когнитивный ИИ может развивать потенциально опасные варианты использования, основанные на подражании человеку, такие как глубокая подделка, социальная инженерия и т. д.
Еще один впечатляющий навык, продемонстрированный командой, - голосовая помощь при кодировании в режиме реального времени.
С помощью GPT-4o/ChatGPT В настольном приложении у вас может быть приятель-кодировщик (черный кружок), который говорит с вами и видит то, что видите вы!#openai анонсы! https://t.co/CpvCkjI0iA pic.twitter.com/Tfh81mBHCv
- Эндрю Гао (@itsandrewgao) 13 мая 2024 года
В одной из демонстраций даже было показано, как два экземпляра модели поют друг другу.
Эта демонстрация двух GPT-4o, поющих друг с другом, - одна из самых безумных вещей, которые я когда-либо видел. pic.twitter.com/UXFfbIpuF6
- Мэтт Шумер (@mattshumer_) 13 мая 2024 года
Общая суть OpenAIВ демонстрационных роликах компания стремится сделать мультимодальность ИИ действительно полезной в повседневных сценариях, бросая вызов таким инструментам, как Google Translate.
Еще один важный момент - это то, что эти демо-версии соответствуют реальности. OpenAI указал: "Все видео на этой странице - в режиме реального времени", возможно, намекая на Google, который сильно отредактировал свой Gemini демонстрационное видео преувеличивать свои мультимодальные способности.
Благодаря GPT-4o мультимодальные приложения ИИ могут превратиться из новинки, запрятанной глубоко в интерфейсах ИИ, в то, с чем обычные пользователи могут взаимодействовать ежедневно.
Хотя демонстрация была впечатляющей, это все еще демонстрация, и результаты, полученные от обычных пользователей "в дикой природе", действительно покажут, насколько компетентны эти функции.
Помимо обработки и перевода речи в реальном времени, которые сейчас находятся в центре всеобщего внимания, тот факт, что OpenAI делает эту новую модель свободной от ограничений.
WХотя GPT-4o - это *всего лишь* немного улучшенный GPT-4, он позволит любому человеку получить высококлассную модель искусственного интеллекта, уравнивая шансы миллионов людей по всему миру.
Вы можете посмотреть анонс и демонстрацию ниже:
Все, что мы знаем о GPT-4o
Вот краткое описание всего, что мы знаем о GPT-4o на сегодняшний день:
- Мультимодальная интеграция: GPT-4o быстро обрабатывает и генерирует текстовые, аудио и графические данные, обеспечивая динамическое взаимодействие между различными форматами.
- Ответы в режиме реального времени: Модель отличается впечатляющим временем отклика, сравнимым со скоростью реакции человека при разговоре, а время отклика на аудиозапись составляет всего 232 миллисекунды.
- Язык и возможности кодирования: GPT-4o соответствует GPT-4 Turbo по производительности в задачах на английском языке и кодировании и превосходит его в обработке неанглийских текстов.
- Аудиовизуальные улучшения: По сравнению с предыдущими моделями, GPT-4o демонстрирует превосходное понимание зрительных и звуковых задач, что повышает его способность взаимодействовать с мультимедийным контентом.
- Естественные взаимодействия: В ходе демонстрации два GPT-4o исполнили песню, помогли подготовиться к собеседованию, сыграли в игры типа "камень-ножницы-бумага" и даже порадовали шутками про отца.
- Снижение затрат для разработчиков: OpenAI снизила стоимость для разработчиков, использующих GPT-4o, на 50% и удвоила скорость обработки.
- Эталонная производительность: Бенчмарки GPT-4o Превосходно справляется с многоязычными, аудио- и визуальными задачами, хотя независимые тесты подтверждают, что он отстает от GPT-4 в некоторых задачах по кодированию, математике и других "трудных задачах".
GPT-4o - это значимое объявление для OpenAI, particularly as its the most powerful free closed model available by a sizeable margin.
Это может означать наступление эры практичного, полезного мультимодального ИИ, которым люди начнут пользоваться массово.
Это станет огромным событием как для компании, так и для всей индустрии генеративного ИИ.