Новые графические процессоры NVIDIA H100 установили новые рекорды в задачах обучения искусственному интеллекту, побив при этом несколько рекордов.
Компания MLPerf была основана консорциумом исследователей, ученых и других специалистов, которые создали бенчмарки для проверки скорости развертывания и запуска моделей ИИ. По сути, MLPerf - это серия тестов, предназначенных для измерения скорости и эффективности аппаратного, программного и сервисного обеспечения машинного обучения (ML).
Компания Nvidia, мировой лидер в области аппаратных средств искусственного интеллекта, провела тестирование кластер из 3 584 графических процессоров H100 чтобы использовать свою огромную скорость.
Кластер, разработанный совместно с ИИ-стартапом Inflection AI и управляемый CoreWeave, провайдером облачных услуг, специализирующимся на рабочих нагрузках на базе GPU, выполнил обучающий тест на основе модели GPT-3 менее чем за 11 минут.
Другими словами, кластер обучил модель, эквивалентную GPT-3, с примерно 175 млрд параметров примерно за то же время, которое требуется, чтобы сварить кофе или выгулять собаку. Хотя мы не знаем, сколько времени потребовалось OpenAI для обучения GPT-3, это точно не 11 минут.
Графические процессоры H100 установили рекорды в 8 других тестах MLPerf, продемонстрировав свою мощь и универсальность. Вот некоторые из результатов:
- Большая языковая модель (GPT-3): 10,9 мин.
- Обработка естественного языка (BERT): 0,13 минуты (8 секунд)
- Рекомендация (DLRMv2): 1,61 мин.
- Обнаружение объектов, тяжелый вес (Mask R-CNN): 1.47 мин.
- Обнаружение объектов, легкий вес (RetinaNet): 1,51 мин.
- Классификация изображений (ResNet-50 v1.5): 0,18 минуты (11 секунд)
- Сегментация изображений (3D U-Net): 0,82 минуты (49 секунд)
- Распознавание речи (RNN-T): 1,65 мин.
В своей последней версии бенчмарка, получившей название v3.0, MLPerf также обновила тест для рекомендательных систем - алгоритмов, которые предлагают пользователям товары или услуги на основе их прошлого поведения.
В новом тесте используется больший набор данных и более современная модель искусственного интеллекта, чтобы лучше воспроизвести проблемы, с которыми сталкиваются поставщики услуг. Nvidia - единственная компания, представившая результаты в этом бенчмарке.
Бенчмаркинг MLPerf
MLCommonsконсорциум, занимающийся вопросами искусственного интеллекта и технологий, недавно объявил о новых результатах своих бенчмаркинговых тестов в области искусственного интеллекта.
Основной бенчмарк называется v3.0, он оценивает эффективность обучения моделей машинного обучения. Другой раунд, названный Tiny v1.1, исследует приложения МЛ для сверхкомпактных устройств с низким энергопотреблением.
В раунде MLPerf v3.0 приняли участие такие компании, как ASUSTek, Azure, Dell, Fujitsu, GIGABYTE, H3C, IEI, Intel & Habana Labs, Krai, Lenovo, NVIDIA, NVIDIA + CoreWeave, Quanta Cloud Technology, Supermicro и xFusion.
В целом модели показали прирост производительности до 1,54 раза за последние 6 месяцев или 33-49 раз с момента первого раунда, v0.5В 2019 году, иллюстрируя темпы прогресса в системах машинного обучения.
Nvidia получила скальп в раунде v3.0 благодаря своим сверхвысокопроизводительным чипам H100, которые они, вероятно, сохранят в обозримом будущем.