Microsoft выпускает Phi-3 Mini, миниатюрный, но мощный LM

Microsoft выпустила Phi-3 Mini, миниатюрную языковую модель, которая является частью стратегии компании по разработке легких, специфичных для конкретных функций моделей ИИ.

В процессе развития языковых моделей увеличивались параметры, наборы обучающих данных и контекстные окна. Масштабирование размеров этих моделей обеспечивало более мощные возможности, но за это приходилось платить.

Традиционный подход к обучению LLM заключается в том, что он потребляет огромные объемы данных, что требует огромных вычислительных ресурсов. Обучение LLM, например GPT-4, по оценкам, заняло около 3 месяцев и стоило более $21 млн.

GPT-4 - отличное решение для задач, требующих сложных рассуждений, но излишество для более простых задач, таких как создание контента или чатбота для продаж. Это все равно что использовать швейцарский армейский нож, когда вам нужен всего лишь простой нож для писем.

При параметрах всего 3,8 ББ Phi-3 Mini совсем крошечный. Тем не менее Microsoft утверждает, что это идеальное легкое и недорогое решение для таких задач, как резюмирование документа, извлечение информации из отчетов, написание описаний продуктов или постов в социальных сетях.

По данным бенчмарка MMLU, Phi-3 Mini и еще не вышедшие модели Phi опережают такие крупные модели, как Mistral 7B и Джемма 7B.

Результаты моделей Phi-3 в бенчмарке Massive Multitask Language Understanding (MMLU) по сравнению с другими моделями аналогичного размера. Источник: Microsoft

По словам Microsoft, Phi-3-small (7B параметров) и Phi-3-medium (14B параметров) будут доступны в Azure AI Model Catalog "в ближайшее время".

Большие модели, такие как GPT-4, по-прежнему являются золотым стандартом, и мы можем ожидать, что GPT-5 будет еще больше.

SLM, подобные Phi-3 Mini, обладают рядом важных преимуществ, которых нет у более крупных моделей. SLM дешевле в настройке, требуют меньше вычислений и могут работать на устройстве даже в условиях отсутствия доступа к Интернету.

Развертывание SLM на границе обеспечивает меньшую задержку и максимальную конфиденциальность, поскольку нет необходимости отправлять данные в облако и обратно.

Перед вами Себастьен Бубек, вице-президент по исследованиям GenAI в Microsoft AI, с демонстрацией Phi-3 Mini. Он очень быстрый и впечатляющий для такой маленькой модели.

phi-3 уже здесь, и это... хорошо :-).

Я сделал короткую демонстрацию, чтобы дать вам представление о том, на что способен phi-3-mini (3.8B). Оставайтесь с нами и следите за открытыми весами и другими объявлениями завтра утром!

(И, конечно, эта статья была бы неполной без обычной таблицы бенчмарков). pic.twitter.com/AWA7Km59rp

- Себастьен Бубек (@SebastienBubeck) 23 апреля 2024 года

Курируемые синтетические данные

Phi-3 Mini - это результат отказа от идеи, что огромные объемы данных - единственный способ обучить модель.

Себастьен Бубек, вице-президент Microsoft по исследованиям в области генеративного ИИ, спрашивает: "Вместо того чтобы тренироваться на сырых веб-данных, почему бы вам не искать данные исключительно высокого качества?"

Эксперт по машинному обучению Microsoft Research Ронен Элдан читал своей дочери сказки на ночь, когда ему стало интересно, сможет ли языковая модель обучаться, используя только те слова, которые понимает четырехлетний ребенок.

Это привело к эксперименту, в ходе которого они создали набор данных, начинающийся с 3 000 слов. Используя только этот ограниченный словарный запас, они побудили LLM создать миллионы коротких детских историй, которые были собраны в набор данных под названием TinyStories.

Затем исследователи использовали TinyStories для обучения чрезвычайно маленькой модели с 10 миллионами параметров, которая впоследствии смогла генерировать "беглые рассказы с идеальной грамматикой".

Они продолжили итерации и масштабирование этого подхода к созданию синтетических данных, чтобы создать более сложные, но тщательно контролируемые и отфильтрованные синтетические наборы данных, которые в итоге были использованы для обучения Phi-3 Mini.

В результате получилась миниатюрная модель, которая будет более доступна по цене и при этом обеспечит производительность, сравнимую с GPT-3.5.

Более компактные, но более способные модели позволят компаниям отказаться от использования по умолчанию крупных LLM, таких как GPT-4. Вскоре мы также можем увидеть решения, в которых LLM выполняет тяжелую работу, но делегирует более простые задачи легким моделям.

Microsoft выпускает Phi-3 Mini, миниатюрный, но мощный LM

Курируемые синтетические данные

Присоединяйтесь к будущему

Юджин ван дер Ватт

СВЯЗАННЫЕ СТАТЬИ

OpenAI анонсирует "SearchGPT", чтобы попытаться остаться в первых рядах

Meta выпускает модели Llama 3.1, придерживаясь открытой стратегии

Сенат проверяет безопасность и управление OpenAI после заявлений информаторов

ИИ Google предсказывает погоду, используя лишь малую часть вычислительной мощности

Microsoft выпускает Phi-3 Mini, миниатюрный, но мощный LM

Курируемые синтетические данные

Присоединяйтесь к будущему

Юджин ван дер Ватт

СВЯЗАННЫЕ СТАТЬИ

OpenAI анонсирует "SearchGPT", чтобы попытаться остаться в первых рядах

Meta выпускает модели Llama 3.1, придерживаясь открытой стратегии

Сенат проверяет безопасность и управление OpenAI после заявлений информаторов

ИИ Google предсказывает погоду, используя лишь малую часть вычислительной мощности

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDFБудьте впереди с DailyAI

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI