Новый подход может ускорить создание больших языковых моделей в 300 раз

6 декабря 2023 года

Ученые из ETH Zurich обнаружили, что большие языковые модели (LLM) должны использовать лишь небольшую часть своих нейронов для индивидуальных умозаключений. Их новый подход обещает сделать работу LLM намного быстрее.

Чтобы понять, как им удалось ускорить работу моделей ИИ, нам нужно получить приблизительное представление о некоторых технических аспектах, составляющих языковую модель ИИ.

Модели искусственного интеллекта, такие как GPT или Llama, состоят из сетей с прямой передачей данных - разновидности искусственных нейронных сетей.

Сети с прямолинейным движением (FF) обычно организованы в виде слоев, каждый слой нейронов получает входные данные от предыдущего слоя и отправляет свой выход в следующий слой.

Для этого используется плотное матричное умножение (DMM), которое требует, чтобы каждый нейрон в FF выполнял вычисления на всех входах предыдущего слоя. И именно поэтому Nvidia продает так много своих графических процессоров потому что этот процесс требует много вычислительной мощности.

Исследователи Для ускорения этого процесса используются сети с быстрой перемоткой (Fast Feedforward Networks, FFF). В FFF каждый слой нейронов разбивается на блоки, а затем выбираются только самые важные блоки на основе входных данных. Этот процесс похож на выполнение условного матричного умножения (CMM).

Это означает, что вместо всех нейронов слоя в вычислениях участвует лишь очень небольшая часть.

Подумайте об этом, как о сортировке кучи почты, чтобы найти письмо, предназначенное именно вам. Вместо того чтобы читать имя и адрес на каждом письме, вы можете сначала отсортировать их по почтовому индексу, а затем сосредоточиться только на тех, которые относятся к вашему району.

Таким же образом FFF определяют лишь несколько нейронов, необходимых для каждого вычисления, что приводит к тому, что по сравнению с традиционными FF требуется лишь небольшая часть обработки.

Насколько быстрее?

Исследователи протестировали свой метод на варианте модели BERT от Google, который они назвали UltraFastBERT. UltraFastBERT состоит из 4095 нейронов, но избирательно задействует только 12 нейронов для выводов каждого слоя.

Это означает, что UltraFastBERT требует около 0,03% нейронов для обработки информации во время умозаключений, в то время как обычному BERT потребуется 100% нейронов для вычислений.

Теоретически это означает, что UltraFastBERT будет в 341 раз быстрее, чем BERT или GPT-3.

Почему мы говорим "теоретически", когда исследователи уверяют нас, что их метод работает? Потому что им пришлось создать программное обходное решение, чтобы заставить свой FFF работать с BERT, и в ходе реального тестирования они добились лишь 78-кратного повышения скорости.

Это секрет

В исследовательской работе поясняется, что "плотное матричное умножение - самая оптимизированная математическая операция в истории вычислительной техники. Огромные усилия были приложены к разработке памяти, чипов, наборов инструкций и программных процедур, которые выполняют ее как можно быстрее. Многие из этих достижений... хранятся в тайне и доступны конечному пользователю только через мощные, но ограниченные интерфейсы программирования".

По сути, они говорят, что инженеры, которые придумали наиболее эффективные способы обработки математических данных, необходимых для традиционных сетей FF, держат свое низкоуровневое программное обеспечение и алгоритмы в секрете и не позволяют вам взглянуть на их код.

Если бы разработчики графических процессоров Intel или Nvidia обеспечили низкоуровневый доступ к коду для реализации FFF-сетей в моделях ИИ, то 341-кратное повышение скорости могло бы стать реальностью.

Но будут ли они это делать? Если бы вы могли разработать свои GPU так, чтобы люди могли купить на 99,7% меньше, чтобы выполнить тот же объем обработки, вы бы это сделали? Экономика еще скажет свое слово, но сети FFF могут стать следующим гигантским скачком в ИИ.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения