Будущее обучения с помощью искусственного интеллекта: Переломный подход DisTrO

27 августа 2024 года

  • Исследовательская группа Nous Research разработала оптимизатор обучения ИИ под названием DisTrO
  • DisTrO позволяет обучать модели ИИ с помощью коммерческого оборудования через обычное интернет-соединение
  • Децентрализованное обучение больших моделей может снизить зависимость от дорогостоящих центров обработки данных на GPU

Исследовательская группа прикладного ИИ Nous Research разработала оптимизатор для обучения ИИ-моделей, который может кардинально изменить способ обучения ИИ-моделей будущего.

Традиционно для обучения модели искусственного интеллекта требуются массивные центры обработки данных, оснащенные графическими процессорами, такими как NVIDIA H100, и высокоскоростными межсоединениями для синхронизации градиента и обновления параметров между GPU.

Каждый этап обучения требует обмена огромными объемами данных между тысячами графических процессоров. Необходимая пропускная способность означает, что эти GPU должны быть жестко соединены и находиться физически близко друг к другу. С помощью DisTrO компания Nous Research, возможно, нашла способ полностью изменить эту ситуацию.

В процессе обучения модели алгоритм-оптимизатор настраивает параметры модели так, чтобы минимизировать функцию потерь. Функция потерь измеряет разницу между предсказаниями модели и фактическими результатами, и цель состоит в том, чтобы максимально уменьшить эту потерю путем итеративного обучения.

DisTrO-AdamW это разновидность популярного алгоритма-оптимизатора AdamW. DisTrO расшифровывается как "Distributed Training Over-the-Internet" и намекает на то, что делает его таким особенным.

DisTrO-AdamW значительно сокращает объем межпроцессорной связи, необходимой при обучении больших нейронных сетей. При этом не снижается скорость сходимости и точность процесса обучения.

В ходе эмпирических тестов DisTrO-AdamW удалось добиться 857-кратного сокращения межпроцессорного обмена данными. Это означает, что подход DisTrO может обучать модели с сопоставимой точностью и скоростью, но без использования дорогостоящего оборудования с высокой пропускной способностью.

Например, при предварительном обучении 1,2 миллиарда LLM DisTrO-AdamW сравнялся по производительности с традиционными методами, сократив при этом требуемую пропускную способность с 74,4 ГБ до всего 86,8 МБ на шаг обучения.

Последствия для обучения искусственному интеллекту

Влияние DisTrO на ландшафт ИИ может быть огромным. Снижая накладные расходы на связь, DisTrO позволяет децентрализованно обучать большие модели. Вместо центра обработки данных с тысячами графических процессоров и высокоскоростными коммутаторами вы можете обучать модель на распределенном коммерческом оборудовании, подключенном через интернет.

Можно организовать сообщество людей, предоставляющих доступ к своему вычислительному оборудованию для обучения модели. Представьте себе миллионы простаивающих ПК или резервных установок для майнинга биткоинов, работающих вместе для обучения модели с открытым исходным кодом. DisTrO делает это возможным, причем время обучения модели и ее точность практически не пострадали.

В Nous Research признаются, что не знают, почему их подход работает так хорошо, и необходимо провести дополнительные исследования, чтобы понять, подходит ли он для более крупных моделей.

Если это произойдет, обучение массивных моделей может перестать быть монополизированным большими технологическими компаниями, имеющими средства для создания крупных центров обработки данных. Это также может оказать большое влияние, уменьшив воздействие на окружающую среду центров обработки данных, потребляющих много энергии и воды.

Концепция децентрализованного обучения может также сделать некоторые аспекты нормативных актов, таких как Законопроект SB 1047, предложенный в Калифорнии спорный. Законопроект предусматривает дополнительные проверки безопасности для моделей, стоимость подготовки которых превышает $100 млн.

С помощью DisTrO сообщество анонимных людей с распределенным оборудованием может создать собственный "суперкомпьютер" для обучения модели. Это также может свести на нет US усилия правительства, направленные на то, чтобы остановить Китай от импорта самых мощных графических процессоров NVIDIA.

В мире, где искусственный интеллект приобретает все большее значение, DisTrO предлагает заглянуть в будущее, где разработка этих мощных инструментов будет более инклюзивной, устойчивой и широкомасштабной.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения