OpenAI раскрывает новые функции голоса и изображения для ChatGPT

25 сентября 2023 года

ChatGPT

Компания OpenAI представила голосовые и графические функции для ChatGPT, которые будут запущены в ближайшие недели как в приложении, так и в браузере.  

Справедливости ради стоит отметить, что OpenAI почил на лаврах с ChatGPT, который не обладает таким же уровнем функциональности, как конкуренты Claude от Anthropic и Bard от Google.

В начале года OpenAI добавила функцию поиска в браузере для ChatGPT, предоставив инструменту доступ к интернету, но она работала не очень хорошо и была удалено за потенциальное нарушение авторских прав при "распечатке" текстов с платных сайтов. 

При этом GPT-4, безусловно, является самой сложной большой языковой моделью (LLM) из всех существующих, что позволяет OpenAI оставаться на вершине рейтинга генеративного ИИ. 

Теперь OpenAI расширил функциональность чатбота, и ChatGPT остается в центре внимания, поскольку конкуренция в отрасли обостряется.

Что нового?

OpenAI добавляет в ChatGPT следующее:

  • Голосовое взаимодействие: Теперь пользователи могут напрямую обращаться к ChatGPT, а искусственный интеллект в свою очередь может ответить им, используя один из пяти синтезированных голосов. В основе этой голосовой функции лежит продвинутая модель преобразования текста в речь, которую OpenAI обучил на основе образцов голосов актеров. ChatGPT использует ШепотOpenAI - система распознавания речи с открытым исходным кодом.
  • Взаимодействие образов: Помимо голоса, пользователи теперь могут предоставлять ChatGPT изображения, добавляя визуальное измерение к разговору. Например, если пользователь поделится фотографией сломанного бытового прибора, ChatGPT сможет диагностировать проблему и предложить решение. На мобильных платформах был интегрирован инструмент рисования, позволяющий пользователям обводить или указывать конкретные области изображения, на которых будет фокусироваться ИИ. Для работы с изображениями используется мультимодальная версия моделей GPT-3.5 и GPT-4, которые были доработаны для интерпретации и осмысления визуальных данных.

С помощью этих новых дополнений пользователи смогут вести с чатботом диалог в режиме "спина к спине" и запрашивать у него конкретную информацию, в том числе о содержимом изображений.

Нет сомнений, что сообщество найдет интересные способы проверить пределы нового ChatGPT.

OpenAI разместила на сайте X следующую рекламную демонстрацию:

Риски и план развертывания

С новыми функциями появляются и новые риски. Например, голосовая технология может быть использована для выдачи себя за общественных деятелей. В качестве меры предосторожности OpenAI ограничила голосовую функцию только разговорным чатом.

Что касается изображений, OpenAI намеренно ограничила возможности ChatGPT по непосредственному анализу людей на фотографиях. 

OpenAI планирует поэтапное внедрение, первыми доступ получат пользователи ChatGPT Plus и Enterprise. 

Голосовая функция будет доступна в мобильных приложениях, а функции изображения - на всех платформах.

Анонс OpenAI вписывается в череду недавних и готовящихся к выпуску продуктов генеративного ИИ, включая инструменты от YouTube, Копилот Microsoft Набор инструментов и помощников искусственного интеллекта, а также значительный обновление Google Bard.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Сэм Джинс

Сэм - писатель в области науки и техники, работавший в различных AI-стартапах. Когда он не пишет, его можно найти за чтением медицинских журналов или копанием в коробках с виниловыми пластинками.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения