Microsoft выпускает Phi-3 Mini, миниатюрный, но мощный LM

24 апреля 2024 года
  • Microsoft выпустила Phi-3 Mini, первый представитель нового семейства малых языковых моделей (SLM)
  • Phi-3 Mini имеет всего 3,8 ББ параметров, но работает лучше, чем модели вдвое большего размера
  • Microsoft утверждает, что SLM - это идеальное решение для выполнения специфических функций, снижения затрат и автономного использования.

Microsoft выпустила Phi-3 Mini, миниатюрную языковую модель, которая является частью стратегии компании по разработке легких, специфичных для конкретных функций моделей ИИ.

В процессе развития языковых моделей увеличивались параметры, наборы обучающих данных и контекстные окна. Масштабирование размеров этих моделей обеспечивало более мощные возможности, но за это приходилось платить.

Традиционный подход к обучению LLM заключается в том, что он потребляет огромные объемы данных, что требует огромных вычислительных ресурсов. Обучение LLM, например GPT-4, по оценкам, заняло около 3 месяцев и стоило более $21 млн.

GPT-4 - отличное решение для задач, требующих сложных рассуждений, но излишество для более простых задач, таких как создание контента или чатбота для продаж. Это все равно что использовать швейцарский армейский нож, когда вам нужен всего лишь простой нож для писем.

При параметрах всего 3,8 ББ Phi-3 Mini совсем крошечный. Тем не менее Microsoft утверждает, что это идеальное легкое и недорогое решение для таких задач, как резюмирование документа, извлечение информации из отчетов, написание описаний продуктов или постов в социальных сетях.

По данным бенчмарка MMLU, Phi-3 Mini и еще не вышедшие модели Phi опережают такие крупные модели, как Mistral 7B и Джемма 7B.

Результаты моделей Phi-3 в бенчмарке Massive Multitask Language Understanding (MMLU) по сравнению с другими моделями аналогичного размера. Источник: Microsoft

По словам Microsoft, Phi-3-small (7B параметров) и Phi-3-medium (14B параметров) будут доступны в Azure AI Model Catalog "в ближайшее время".

Большие модели, такие как GPT-4, по-прежнему являются золотым стандартом, и мы можем ожидать, что GPT-5 будет еще больше.

SLM, подобные Phi-3 Mini, обладают рядом важных преимуществ, которых нет у более крупных моделей. SLM дешевле в настройке, требуют меньше вычислений и могут работать на устройстве даже в условиях отсутствия доступа к Интернету.

Развертывание SLM на границе обеспечивает меньшую задержку и максимальную конфиденциальность, поскольку нет необходимости отправлять данные в облако и обратно.

Перед вами Себастьен Бубек, вице-президент по исследованиям GenAI в Microsoft AI, с демонстрацией Phi-3 Mini. Он очень быстрый и впечатляющий для такой маленькой модели.

Курируемые синтетические данные

Phi-3 Mini - это результат отказа от идеи, что огромные объемы данных - единственный способ обучить модель.

Себастьен Бубек, вице-президент Microsoft по исследованиям в области генеративного ИИ, спрашивает: "Вместо того чтобы тренироваться на сырых веб-данных, почему бы вам не искать данные исключительно высокого качества?"

Эксперт по машинному обучению Microsoft Research Ронен Элдан читал своей дочери сказки на ночь, когда ему стало интересно, сможет ли языковая модель обучаться, используя только те слова, которые понимает четырехлетний ребенок.

Это привело к эксперименту, в ходе которого они создали набор данных, начинающийся с 3 000 слов. Используя только этот ограниченный словарный запас, они побудили LLM создать миллионы коротких детских историй, которые были собраны в набор данных под названием TinyStories.

Затем исследователи использовали TinyStories для обучения чрезвычайно маленькой модели с 10 миллионами параметров, которая впоследствии смогла генерировать "беглые рассказы с идеальной грамматикой".

Они продолжили итерации и масштабирование этого подхода к созданию синтетических данных, чтобы создать более сложные, но тщательно контролируемые и отфильтрованные синтетические наборы данных, которые в итоге были использованы для обучения Phi-3 Mini.

В результате получилась миниатюрная модель, которая будет более доступна по цене и при этом обеспечит производительность, сравнимую с GPT-3.5.

Более компактные, но более способные модели позволят компаниям отказаться от использования по умолчанию крупных LLM, таких как GPT-4. Вскоре мы также можем увидеть решения, в которых LLM выполняет тяжелую работу, но делегирует более простые задачи легким моделям.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×
 
 

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI


 

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".



 
 

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения