OpenAI представляет API реального времени и другие возможности для разработчиков

2 октября 2024 года

  • OpenAI объявила о нескольких новых функциях для разработчиков, использующих ее API
  • API Realtime обеспечит работу приложений с низкой задержкой и голосовое взаимодействие, подобное режиму Advanced Voice Mode.
  • Другие функции позволяют удешевить вызовы API, выполнить тонкую настройку зрения и настроить меньшие модели на большие.

На мероприятии Dev Day компания OpenAI не представила никаких новых моделей, но новые функции API порадуют разработчиков, которые захотят использовать свои модели для создания мощных приложений.

У OpenAI было несколько тяжелых недель: ее технический директор Мира Мурати и другие ведущие исследователи присоединились к постоянно растущему списку бывших сотрудников. Компания испытывает растущее давление со стороны других флагманов, включая модели с открытым исходным кодом, которые предлагают разработчикам более дешевые и высокопроизводительные варианты.

Среди новых возможностей, представленных OpenAI, - API Realtime (в бета-версии), тонкая настройка зрения и такие инструменты повышения эффективности, как кэширование подсказок и дистилляция моделей.

API реального времени

API Realtime - самая интересная новая функция, хотя и в бета-версии. Он позволяет разработчикам создавать в своих приложениях речевой опыт с низкой задержкой без использования отдельных моделей для распознавания речи и преобразования текста в речь.

Благодаря этому API разработчики теперь могут создавать приложения, позволяющие общаться в реальном времени с искусственным интеллектом, например, с голосовыми помощниками или инструментами для изучения языков, всего через один вызов API. Это не совсем тот бесшовный опыт, который предлагает расширенный голосовой режим GPT-4o, но он близок к этому.

Правда, стоит он недешево: примерно $0,06 за минуту входного аудиосигнала и $0,24 за минуту выходного.

Тонкая настройка зрения

Тонкая настройка зрения в API позволяет разработчикам улучшить способность своих моделей понимать изображения и взаимодействовать с ними. Благодаря тонкой настройке GPT-4o на основе изображений разработчики могут создавать приложения, превосходящие по качеству такие задачи, как визуальный поиск или обнаружение объектов.

Эту функцию уже используют такие компании, как Grab, которая повысила точность своего картографического сервиса, настроив модель для распознавания дорожных знаков на снимках с уровня улиц.

OpenAI также привел пример того, как GPT-4o может генерировать дополнительный контент для веб-сайта после того, как он будет настроен на стилистическое соответствие существующему контенту сайта.

Кэширование подсказок

Для повышения эффективности затрат OpenAI представила кэширование подсказок - инструмент, позволяющий снизить стоимость и время задержки часто используемых вызовов API. Повторное использование недавно обработанных данных позволяет разработчикам сократить расходы на 50% и уменьшить время отклика. Эта функция особенно полезна для приложений, требующих длительных разговоров или повторяющегося контекста, таких как чат-боты и инструменты обслуживания клиентов.

Использование кэшированных входов может сэкономить до 50% на стоимости входных токенов.

Сравнение цен на кэшированные и некэшированные входные токены для API OpenAI. Источник: OpenAI

Модель дистилляции

Дистилляция моделей позволяет разработчикам точно настраивать более мелкие и экономичные модели, используя результаты более крупных и функциональных моделей. Это принципиально важно, поскольку раньше для дистилляции требовалось множество взаимосвязанных этапов и инструментов, что отнимало много времени и приводило к ошибкам.

До появления в OpenAI интегрированной функции Model Distillation разработчикам приходилось вручную организовывать различные части процесса, такие как генерация данных из больших моделей, подготовка наборов данных для тонкой настройки и измерение производительности с помощью различных инструментов.

Разработчики теперь могут автоматически сохранять выходные пары из больших моделей, таких как GPT-4o, и использовать эти пары для точной настройки меньших моделей, таких как GPT-4o-mini. Весь процесс создания набора данных, тонкой настройки и оценки может быть выполнен более структурированным, автоматизированным и эффективным способом.

Оптимизация процесса разработки, снижение задержек и затрат сделают модель GPT-4o от OpenAI привлекательной для разработчиков, желающих быстро развернуть мощные приложения. Будет интересно посмотреть, какие приложения станут возможными благодаря мультимодальным функциям.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения