Исследовательская группа прикладного ИИ Nous Research разработала оптимизатор для обучения ИИ-моделей, который может кардинально изменить способ обучения ИИ-моделей будущего.
Традиционно для обучения модели искусственного интеллекта требуются массивные центры обработки данных, оснащенные графическими процессорами, такими как NVIDIA H100, и высокоскоростными межсоединениями для синхронизации градиента и обновления параметров между GPU.
Каждый этап обучения требует обмена огромными объемами данных между тысячами графических процессоров. Необходимая пропускная способность означает, что эти GPU должны быть жестко соединены и находиться физически близко друг к другу. С помощью DisTrO компания Nous Research, возможно, нашла способ полностью изменить эту ситуацию.
В процессе обучения модели алгоритм-оптимизатор настраивает параметры модели так, чтобы минимизировать функцию потерь. Функция потерь измеряет разницу между предсказаниями модели и фактическими результатами, и цель состоит в том, чтобы максимально уменьшить эту потерю путем итеративного обучения.
DisTrO-AdamW это разновидность популярного алгоритма-оптимизатора AdamW. DisTrO расшифровывается как "Distributed Training Over-the-Internet" и намекает на то, что делает его таким особенным.
DisTrO-AdamW значительно сокращает объем межпроцессорной связи, необходимой при обучении больших нейронных сетей. При этом не снижается скорость сходимости и точность процесса обучения.
В ходе эмпирических тестов DisTrO-AdamW удалось добиться 857-кратного сокращения межпроцессорного обмена данными. Это означает, что подход DisTrO может обучать модели с сопоставимой точностью и скоростью, но без использования дорогостоящего оборудования с высокой пропускной способностью.
Например, при предварительном обучении 1,2 миллиарда LLM DisTrO-AdamW сравнялся по производительности с традиционными методами, сократив при этом требуемую пропускную способность с 74,4 ГБ до всего 86,8 МБ на шаг обучения.
Что, если бы вы могли использовать все вычислительные мощности мира для обучения общей модели ИИ с открытым исходным кодом?
Предварительный отчет: https://t.co/b1XgJylsnV
Компания Nous Research опубликовала предварительный отчет о семействе программ DisTrO (Distributed Training Over-the-Internet)... pic.twitter.com/h2gQJ4m7lB
- Nous Research (@NousResearch) 26 августа 2024 года
Последствия для обучения искусственному интеллекту
Влияние DisTrO на ландшафт ИИ может быть огромным. Снижая накладные расходы на связь, DisTrO позволяет децентрализованно обучать большие модели. Вместо центра обработки данных с тысячами графических процессоров и высокоскоростными коммутаторами вы можете обучать модель на распределенном коммерческом оборудовании, подключенном через интернет.
Можно организовать сообщество людей, предоставляющих доступ к своему вычислительному оборудованию для обучения модели. Представьте себе миллионы простаивающих ПК или резервных установок для майнинга биткоинов, работающих вместе для обучения модели с открытым исходным кодом. DisTrO делает это возможным, причем время обучения модели и ее точность практически не пострадали.
В Nous Research признаются, что не знают, почему их подход работает так хорошо, и необходимо провести дополнительные исследования, чтобы понять, подходит ли он для более крупных моделей.
Если это произойдет, обучение массивных моделей может перестать быть монополизированным большими технологическими компаниями, имеющими средства для создания крупных центров обработки данных. Это также может оказать большое влияние, уменьшив воздействие на окружающую среду центров обработки данных, потребляющих много энергии и воды.
Концепция децентрализованного обучения может также сделать некоторые аспекты нормативных актов, таких как Законопроект SB 1047, предложенный в Калифорнии спорный. Законопроект предусматривает дополнительные проверки безопасности для моделей, стоимость подготовки которых превышает $100 млн.
С помощью DisTrO сообщество анонимных людей с распределенным оборудованием может создать собственный "суперкомпьютер" для обучения модели. Это также может свести на нет US усилия правительства, направленные на то, чтобы остановить Китай от импорта самых мощных графических процессоров NVIDIA.
В мире, где искусственный интеллект приобретает все большее значение, DisTrO предлагает заглянуть в будущее, где разработка этих мощных инструментов будет более инклюзивной, устойчивой и широкомасштабной.