Смесь экспертов и разреженность - горячие темы ИИ с пояснениями

12 декабря 2023 года

Выпуск более компактных и эффективных моделей ИИ, таких как революционная модель Mixtral 8x7B компании Mistral, привел к тому, что понятия "смесь экспертов" (MoE) и "разреженность" стали актуальными темами.

Эти термины перешли из области сложных исследовательских работ по ИИ в новостные статьи, сообщающие о быстром совершенствовании больших языковых моделей (Large Language Models, LLM).

К счастью, не нужно быть специалистом по изучению данных, чтобы иметь общее представление о том, что такое MoE и Sparsity и почему эти понятия имеют большое значение.

Смесь экспертов

LLM, такие как GPT-3, основаны на архитектуре плотных сетей. Эти модели состоят из слоев нейронных сетей, где каждый нейрон в слое связан с каждым нейроном в предыдущем и последующем слоях.

Все нейроны задействованы как во время обучения, так и во время умозаключений - процесса генерации ответа на ваш запрос. Эти модели отлично подходят для решения широкого круга задач, но потребляют много вычислительной мощности, поскольку каждая часть сети участвует в обработке входных данных.

Модель, основанная на архитектуре MoE, разбивает слои на определенное количество "экспертов", где каждый эксперт представляет собой нейронную сеть, предварительно обученную на определенные функции. Поэтому, когда вы видите модель под названием Mixtral 8x7B, это означает, что она имеет 8 экспертных слоев по 7 миллиардов параметров каждый.

Каждого эксперта готовят к тому, чтобы он хорошо разбирался в узком аспекте общей проблемы, подобно специалистам в какой-либо области.

После получения запроса сеть Gating Network разбивает запрос на различные лексемы и решает, какой эксперт лучше всего подходит для его обработки. Затем результаты работы каждого эксперта объединяются для получения окончательного результата.

Думайте о MoE как о группе мастеров с очень специфическим набором навыков для ремонта вашего дома. Вместо того чтобы нанимать разнорабочего (плотная сеть), который сделает все, вы просите сантехника Джона сделать сантехнику, а электрика Питера - электрику.

Эти модели быстрее обучаются, потому что вам не нужно обучать всю модель, чтобы она выполняла все действия.

Модели MoE также отличаются более быстрым выводом по сравнению с плотными моделями с тем же числом параметров. Именно поэтому Mixtral 8x7B с общим числом параметров 56 миллиардов может сравниться или превзойти GPT-3.5, имеющий 175 миллиардов параметров.

Ходят слухи, что GPT-4 использует архитектуру MoE с 16 экспертами, в то время как Близнецы Используется плотная архитектура.

Sparsity

Разреженность относится к идее уменьшения количества активных элементов в модели, таких как нейроны или веса, без существенного снижения ее производительности.

Если входные данные для моделей ИИ, например текст или изображения, содержат много нулей, техника разреженного представления данных позволяет не тратить усилия на хранение нулей.

В разреженной нейронной сети весовые коэффициенты, или сила связи между нейронами, часто равны нулю. Разреженность обрезает, или удаляет, эти веса, чтобы они не учитывались при обработке. Модель MoE также является естественной разреженной, поскольку в ней один эксперт может заниматься обработкой, в то время как остальные сидят без дела.

Sparsity может привести к созданию моделей, которые требуют меньше вычислений и хранения данных. Модели ИИ, которые в конечном итоге будут работать на вашем устройстве, будут в значительной степени опираться на Sparsity.

Можно представить себе Sparsity как поход в библиотеку за ответом на вопрос. Если в библиотеке миллиарды книг, вы можете открыть каждую из них и в конце концов найти нужные ответы в некоторых из них. Именно это и делает модель без разреженности.

Если мы избавимся от большого количества книг, содержащих в основном пустые страницы или неактуальную информацию, нам будет легче найти книги, имеющие отношение к нашему вопросу, и мы откроем меньше книг и быстрее найдем ответ.

Если вам нравится быть в курсе последних разработок в области ИИ, то ожидайте, что MoE и Sparsity будут упоминаться чаще. LLM скоро станет намного меньше и быстрее.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения