OpenAI раскрывает новые функции голоса и изображения для ChatGPT

Компания OpenAI представила голосовые и графические функции для ChatGPT, которые будут запущены в ближайшие недели как в приложении, так и в браузере.

Справедливости ради стоит отметить, что OpenAI почил на лаврах с ChatGPT, который не обладает таким же уровнем функциональности, как конкуренты Claude от Anthropic и Bard от Google.

В начале года OpenAI добавила функцию поиска в браузере для ChatGPT, предоставив инструменту доступ к интернету, но она работала не очень хорошо и была удалено за потенциальное нарушение авторских прав при "распечатке" текстов с платных сайтов.

При этом GPT-4, безусловно, является самой сложной большой языковой моделью (LLM) из всех существующих, что позволяет OpenAI оставаться на вершине рейтинга генеративного ИИ.

Теперь OpenAI расширил функциональность чатбота, и ChatGPT остается в центре внимания, поскольку конкуренция в отрасли обостряется.

Что нового?

OpenAI добавляет в ChatGPT следующее:

Голосовое взаимодействие: Теперь пользователи могут напрямую обращаться к ChatGPT, а искусственный интеллект в свою очередь может ответить им, используя один из пяти синтезированных голосов. В основе этой голосовой функции лежит продвинутая модель преобразования текста в речь, которую OpenAI обучил на основе образцов голосов актеров. ChatGPT использует ШепотOpenAI - система распознавания речи с открытым исходным кодом.
Взаимодействие образов: Помимо голоса, пользователи теперь могут предоставлять ChatGPT изображения, добавляя визуальное измерение к разговору. Например, если пользователь поделится фотографией сломанного бытового прибора, ChatGPT сможет диагностировать проблему и предложить решение. На мобильных платформах был интегрирован инструмент рисования, позволяющий пользователям обводить или указывать конкретные области изображения, на которых будет фокусироваться ИИ. Для работы с изображениями используется мультимодальная версия моделей GPT-3.5 и GPT-4, которые были доработаны для интерпретации и осмысления визуальных данных.

С помощью этих новых дополнений пользователи смогут вести с чатботом диалог в режиме "спина к спине" и запрашивать у него конкретную информацию, в том числе о содержимом изображений.

Нет сомнений, что сообщество найдет интересные способы проверить пределы нового ChatGPT.

OpenAI разместила на сайте X следующую рекламную демонстрацию:

Используйте свой голос, чтобы вести разговор с ChatGPT в режиме "спина к спине". Поговорите с ним на ходу, попросите рассказать сказку на ночь или разрешить спор за обеденным столом.

Звук на 🔊. pic.twitter.com/3tuWzX0wtS

- OpenAI (@OpenAI) 25 сентября 2023 года

Риски и план развертывания

С новыми функциями появляются и новые риски. Например, голосовая технология может быть использована для выдачи себя за общественных деятелей. В качестве меры предосторожности OpenAI ограничила голосовую функцию только разговорным чатом.

Что касается изображений, OpenAI намеренно ограничила возможности ChatGPT по непосредственному анализу людей на фотографиях.

OpenAI планирует поэтапное внедрение, первыми доступ получат пользователи ChatGPT Plus и Enterprise.

Голосовая функция будет доступна в мобильных приложениях, а функции изображения - на всех платформах.

Анонс OpenAI вписывается в череду недавних и готовящихся к выпуску продуктов генеративного ИИ, включая инструменты от YouTube, Копилот Microsoft Набор инструментов и помощников искусственного интеллекта, а также значительный обновление Google Bard.

OpenAI раскрывает новые функции голоса и изображения для ChatGPT

Что нового?

Риски и план развертывания

Присоединяйтесь к будущему

Сэм Джинс

СВЯЗАННЫЕ СТАТЬИ

Microsoft выпускает Copilot "Wave 2" для ускорения производительности и производства контента

OpenAI представляет серию "o1", расширяющую границы разумного ИИ

Google анонсирует Gemma, открытый LLM, который можно запускать локально

Adobe запускает новый чат-бот PDF AI для Reader и Acrobat

OpenAI раскрывает новые функции голоса и изображения для ChatGPT

Что нового?

Риски и план развертывания

Присоединяйтесь к будущему

Сэм Джинс

СВЯЗАННЫЕ СТАТЬИ

Microsoft выпускает Copilot "Wave 2" для ускорения производительности и производства контента

OpenAI представляет серию "o1", расширяющую границы разумного ИИ

Google анонсирует Gemma, открытый LLM, который можно запускать локально

Adobe запускает новый чат-бот PDF AI для Reader и Acrobat

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDFБудьте впереди с DailyAI

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI