OpenAI представляет API реального времени и другие возможности для разработчиков

На мероприятии Dev Day компания OpenAI не представила никаких новых моделей, но новые функции API порадуют разработчиков, которые захотят использовать свои модели для создания мощных приложений.

У OpenAI было несколько тяжелых недель: ее технический директор Мира Мурати и другие ведущие исследователи присоединились к постоянно растущему списку бывших сотрудников. Компания испытывает растущее давление со стороны других флагманов, включая модели с открытым исходным кодом, которые предлагают разработчикам более дешевые и высокопроизводительные варианты.

Среди новых возможностей, представленных OpenAI, - API Realtime (в бета-версии), тонкая настройка зрения и такие инструменты повышения эффективности, как кэширование подсказок и дистилляция моделей.

API реального времени

API Realtime - самая интересная новая функция, хотя и в бета-версии. Он позволяет разработчикам создавать в своих приложениях речевой опыт с низкой задержкой без использования отдельных моделей для распознавания речи и преобразования текста в речь.

Благодаря этому API разработчики теперь могут создавать приложения, позволяющие общаться в реальном времени с искусственным интеллектом, например, с голосовыми помощниками или инструментами для изучения языков, всего через один вызов API. Это не совсем тот бесшовный опыт, который предлагает расширенный голосовой режим GPT-4o, но он близок к этому.

Правда, стоит он недешево: примерно $0,06 за минуту входного аудиосигнала и $0,24 за минуту выходного.

Новый Realtime API от OpenAI невероятно...

Посмотрите, как он заказывает 400 клубничек, фактически позвонив в магазин с помощью twillio. Все с помощью голоса. 🍓🎤 pic.twitter.com/J2BBoL9yFv

- Тай (@FieroTy) 1 октября 2024 года

Тонкая настройка зрения

Тонкая настройка зрения в API позволяет разработчикам улучшить способность своих моделей понимать изображения и взаимодействовать с ними. Благодаря тонкой настройке GPT-4o на основе изображений разработчики могут создавать приложения, превосходящие по качеству такие задачи, как визуальный поиск или обнаружение объектов.

Эту функцию уже используют такие компании, как Grab, которая повысила точность своего картографического сервиса, настроив модель для распознавания дорожных знаков на снимках с уровня улиц.

OpenAI также привел пример того, как GPT-4o может генерировать дополнительный контент для веб-сайта после того, как он будет настроен на стилистическое соответствие существующему контенту сайта.

Кэширование подсказок

Для повышения эффективности затрат OpenAI представила кэширование подсказок - инструмент, позволяющий снизить стоимость и время задержки часто используемых вызовов API. Повторное использование недавно обработанных данных позволяет разработчикам сократить расходы на 50% и уменьшить время отклика. Эта функция особенно полезна для приложений, требующих длительных разговоров или повторяющегося контекста, таких как чат-боты и инструменты обслуживания клиентов.

Использование кэшированных входов может сэкономить до 50% на стоимости входных токенов.

Сравнение цен на кэшированные и некэшированные входные токены для API OpenAI. Источник: OpenAI

Модель дистилляции

Дистилляция моделей позволяет разработчикам точно настраивать более мелкие и экономичные модели, используя результаты более крупных и функциональных моделей. Это принципиально важно, поскольку раньше для дистилляции требовалось множество взаимосвязанных этапов и инструментов, что отнимало много времени и приводило к ошибкам.

До появления в OpenAI интегрированной функции Model Distillation разработчикам приходилось вручную организовывать различные части процесса, такие как генерация данных из больших моделей, подготовка наборов данных для тонкой настройки и измерение производительности с помощью различных инструментов.

Разработчики теперь могут автоматически сохранять выходные пары из больших моделей, таких как GPT-4o, и использовать эти пары для точной настройки меньших моделей, таких как GPT-4o-mini. Весь процесс создания набора данных, тонкой настройки и оценки может быть выполнен более структурированным, автоматизированным и эффективным способом.

Оптимизация процесса разработки, снижение задержек и затрат сделают модель GPT-4o от OpenAI привлекательной для разработчиков, желающих быстро развернуть мощные приложения. Будет интересно посмотреть, какие приложения станут возможными благодаря мультимодальным функциям.

OpenAI представляет API реального времени и другие возможности для разработчиков

API реального времени

Тонкая настройка зрения

Кэширование подсказок

Модель дистилляции

Присоединяйтесь к будущему

Юджин ван дер Ватт

СВЯЗАННЫЕ СТАТЬИ

Губернатор Калифорнии Гэвин Ньюсом наложил вето на законопроект SB 1047 о безопасности искусственного интеллекта

Как Китай участвует в гонке ИИ? Технологические гиганты и стартапы расширяют границы

OpenAI наконец-то выпустила голосовой помощник ChatGPT для платных пользователей

Амбиции ОАЭ в области искусственного интеллекта подвергнутся решающему испытанию на переговорах в Белом доме

OpenAI представляет API реального времени и другие возможности для разработчиков

API реального времени

Тонкая настройка зрения

Кэширование подсказок

Модель дистилляции

Присоединяйтесь к будущему

Юджин ван дер Ватт

СВЯЗАННЫЕ СТАТЬИ

Губернатор Калифорнии Гэвин Ньюсом наложил вето на законопроект SB 1047 о безопасности искусственного интеллекта

Как Китай участвует в гонке ИИ? Технологические гиганты и стартапы расширяют границы

OpenAI наконец-то выпустила голосовой помощник ChatGPT для платных пользователей

Амбиции ОАЭ в области искусственного интеллекта подвергнутся решающему испытанию на переговорах в Белом доме

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDFБудьте впереди с DailyAI

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI