На мероприятии Dev Day компания OpenAI не представила никаких новых моделей, но новые функции API порадуют разработчиков, которые захотят использовать свои модели для создания мощных приложений.
У OpenAI было несколько тяжелых недель: ее технический директор Мира Мурати и другие ведущие исследователи присоединились к постоянно растущему списку бывших сотрудников. Компания испытывает растущее давление со стороны других флагманов, включая модели с открытым исходным кодом, которые предлагают разработчикам более дешевые и высокопроизводительные варианты.
Среди новых возможностей, представленных OpenAI, - API Realtime (в бета-версии), тонкая настройка зрения и такие инструменты повышения эффективности, как кэширование подсказок и дистилляция моделей.
API реального времени
API Realtime - самая интересная новая функция, хотя и в бета-версии. Он позволяет разработчикам создавать в своих приложениях речевой опыт с низкой задержкой без использования отдельных моделей для распознавания речи и преобразования текста в речь.
Благодаря этому API разработчики теперь могут создавать приложения, позволяющие общаться в реальном времени с искусственным интеллектом, например, с голосовыми помощниками или инструментами для изучения языков, всего через один вызов API. Это не совсем тот бесшовный опыт, который предлагает расширенный голосовой режим GPT-4o, но он близок к этому.
Правда, стоит он недешево: примерно $0,06 за минуту входного аудиосигнала и $0,24 за минуту выходного.
Новый Realtime API от OpenAI невероятно...
Посмотрите, как он заказывает 400 клубничек, фактически позвонив в магазин с помощью twillio. Все с помощью голоса. 🍓🎤 pic.twitter.com/J2BBoL9yFv
- Тай (@FieroTy) 1 октября 2024 года
Тонкая настройка зрения
Тонкая настройка зрения в API позволяет разработчикам улучшить способность своих моделей понимать изображения и взаимодействовать с ними. Благодаря тонкой настройке GPT-4o на основе изображений разработчики могут создавать приложения, превосходящие по качеству такие задачи, как визуальный поиск или обнаружение объектов.
Эту функцию уже используют такие компании, как Grab, которая повысила точность своего картографического сервиса, настроив модель для распознавания дорожных знаков на снимках с уровня улиц.
OpenAI также привел пример того, как GPT-4o может генерировать дополнительный контент для веб-сайта после того, как он будет настроен на стилистическое соответствие существующему контенту сайта.
Кэширование подсказок
Для повышения эффективности затрат OpenAI представила кэширование подсказок - инструмент, позволяющий снизить стоимость и время задержки часто используемых вызовов API. Повторное использование недавно обработанных данных позволяет разработчикам сократить расходы на 50% и уменьшить время отклика. Эта функция особенно полезна для приложений, требующих длительных разговоров или повторяющегося контекста, таких как чат-боты и инструменты обслуживания клиентов.
Использование кэшированных входов может сэкономить до 50% на стоимости входных токенов.
Модель дистилляции
Дистилляция моделей позволяет разработчикам точно настраивать более мелкие и экономичные модели, используя результаты более крупных и функциональных моделей. Это принципиально важно, поскольку раньше для дистилляции требовалось множество взаимосвязанных этапов и инструментов, что отнимало много времени и приводило к ошибкам.
До появления в OpenAI интегрированной функции Model Distillation разработчикам приходилось вручную организовывать различные части процесса, такие как генерация данных из больших моделей, подготовка наборов данных для тонкой настройки и измерение производительности с помощью различных инструментов.
Разработчики теперь могут автоматически сохранять выходные пары из больших моделей, таких как GPT-4o, и использовать эти пары для точной настройки меньших моделей, таких как GPT-4o-mini. Весь процесс создания набора данных, тонкой настройки и оценки может быть выполнен более структурированным, автоматизированным и эффективным способом.
Оптимизация процесса разработки, снижение задержек и затрат сделают модель GPT-4o от OpenAI привлекательной для разработчиков, желающих быстро развернуть мощные приложения. Будет интересно посмотреть, какие приложения станут возможными благодаря мультимодальным функциям.