Meta выпускает модели Llama 3.1, придерживаясь открытой стратегии

24 июля 2024 года

  • Компания Meta выпустила модели Llama 3.1, включая версию с параметрами 405B, самую большую в мире открытую модель.
  • Meta утверждает, что ее обновленные модели превосходят GPT-4o и Claude 3.5 Sonnet в нескольких бенчмарках.
  • Модели будут доступны с открытым исходным кодом и через партнеров, таких как NVIDIA, AWS, Azure и другие.

Компания Meta выпустила обновленные модели Llama 3.1 в версиях 8B, 70B и 405B и заявила о своей приверженности идее Марка Цукерберга об открытом исходном коде для будущего ИИ.

Новые модели семейства Meta Llama имеют расширенную длину контекста 128k и поддерживают восемь языков.

Компания Meta утверждает, что ее долгожданная модель 405B демонстрирует "непревзойденную гибкость, контроль и самые современные возможности, которые соперничают с лучшими моделями с закрытым исходным кодом". Компания также утверждает, что Llama 3.1 405B - это "самая большая и самая мощная в мире модель фундамента с открытым исходным кодом".

Учитывая, что на обучение все более крупных моделей тратятся огромные вычислительные затраты, было много предположений о том, что флагманская модель 405B компании Meta может стать ее первой платной моделью.

Llama 3.1 405B была обучена на более чем 15 триллионах токенов с использованием 16 000 процессоров NVIDIA H100, что, вероятно, обошлось в сотни миллионов долларов.

В запись в блогеГенеральный директор Meta Марк Цукерберг подтвердил мнение компании о том, что ИИ с открытым исходным кодом - это путь вперед, и что выпуск Llama 3.1 - это следующий шаг "к тому, чтобы ИИ с открытым исходным кодом стал промышленным стандартом".

Модели Llama 3.1 можно бесплатно загрузить, модифицировать и настраивать с помощью набора сервисов от Amazon, Databricks и NVIDIA.

Модели также доступны у поставщиков облачных услуг, включая AWS, Azure, Google, Oracle.

Производительность

Компания Meta утверждает, что протестировала свои модели на более чем 150 эталонных наборах данных и опубликовала результаты для наиболее распространенных эталонов, чтобы показать, как ее новые модели конкурируют с другими ведущими моделями.

Llama 3.1 405B не так уж много отделяет от GPT-4o и Claude 3.5 Sonnet. Вот цифры для модели 405B, а затем для более компактных версий 8B и 70B.

Сравнение Llama 3.1 405B с другими ведущими моделями. Источник: Meta
Сравнение Llama 3.1 405B с другими ведущими моделями. Источник: Meta

Meta также провела "обширную оценку на людях, сравнив Llama 3.1 с конкурирующими моделями в реальных сценариях".

Эти цифры зависят от того, насколько пользователи сами решают, какой ответ им больше нравится в той или иной модели.

Человеческая оценка Llama 3.1 405B отражает то же равенство, что и эталонные показатели.

Результаты человеческой оценки Llama 3.1 405B в сравнении с GPT-4, GPT-4o и Claude 3.5 Sonnet. Источник: Meta

Meta утверждает, что ее модель действительно открыта, поскольку веса модели Llama 3.1 также доступны для загрузки, хотя данные для обучения не были предоставлены. Компания также внесла изменения в лицензию, чтобы разрешить использовать модели Llama для улучшения других моделей ИИ.

Свобода дорабатывать, изменять и использовать модели Llama без ограничений. критики открытого исходного кода ИИ вызывает тревогу.

Цукерберг утверждает, что подход с открытым исходным кодом - лучший способ избежать непреднамеренного вреда. Если модель ИИ открыта для тщательного изучения, то, по его словам, у нее меньше шансов развить опасное эмерджентное поведение, которое мы могли бы пропустить в закрытых моделях.

Когда речь заходит о возможности умышленного нанесения вреда, Цукерберг говорит: "Пока у всех есть доступ к моделям схожего поколения, чему способствует открытый исходный код, правительства и учреждения с большими вычислительными ресурсами смогут проверять плохих игроков с меньшими вычислительными ресурсами".

Говоря о риске доступа государственных противников, таких как Китай, к моделям Meta, Цукерберг говорит, что усилия, направленные на то, чтобы они не попали в руки китайцев, не сработают.

"Наши противники прекрасно владеют навыками шпионажа, похитить модели, умещающиеся на флешке, довольно просто, а большинство технологических компаний работают далеко не так, чтобы это было сложнее", - пояснил он.

Ажиотаж по поводу того, что модель ИИ с открытым исходным кодом, такая как Llama 3.1 405B, будет противостоять большим закрытым моделям, вполне оправдан.

Но если учесть, что на очереди GPT-5 и Claude 3.5 Opus, то эти результаты бенчмарка могут оказаться не самыми лучшими.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения