Компания Meta выпустила обновленные модели Llama 3.1 в версиях 8B, 70B и 405B и заявила о своей приверженности идее Марка Цукерберга об открытом исходном коде для будущего ИИ.
Новые модели семейства Meta Llama имеют расширенную длину контекста 128k и поддерживают восемь языков.
Компания Meta утверждает, что ее долгожданная модель 405B демонстрирует "непревзойденную гибкость, контроль и самые современные возможности, которые соперничают с лучшими моделями с закрытым исходным кодом". Компания также утверждает, что Llama 3.1 405B - это "самая большая и самая мощная в мире модель фундамента с открытым исходным кодом".
Учитывая, что на обучение все более крупных моделей тратятся огромные вычислительные затраты, было много предположений о том, что флагманская модель 405B компании Meta может стать ее первой платной моделью.
Llama 3.1 405B была обучена на более чем 15 триллионах токенов с использованием 16 000 процессоров NVIDIA H100, что, вероятно, обошлось в сотни миллионов долларов.
В запись в блогеГенеральный директор Meta Марк Цукерберг подтвердил мнение компании о том, что ИИ с открытым исходным кодом - это путь вперед, и что выпуск Llama 3.1 - это следующий шаг "к тому, чтобы ИИ с открытым исходным кодом стал промышленным стандартом".
Модели Llama 3.1 можно бесплатно загрузить, модифицировать и настраивать с помощью набора сервисов от Amazon, Databricks и NVIDIA.
Модели также доступны у поставщиков облачных услуг, включая AWS, Azure, Google, Oracle.
Начиная с сегодняшнего дня, открытые исходные коды занимают лидирующие позиции. Представляем Llama 3.1: Наши самые функциональные модели.
Сегодня мы выпускаем коллекцию новых моделей Llama 3.1, включая долгожданную модель 405B. В этих моделях улучшены возможности рассуждений, увеличен объем 128К токенов... pic.twitter.com/1iKpBJuReD
- AI at Meta (@AIatMeta) 23 июля 2024 года
Производительность
Компания Meta утверждает, что протестировала свои модели на более чем 150 эталонных наборах данных и опубликовала результаты для наиболее распространенных эталонов, чтобы показать, как ее новые модели конкурируют с другими ведущими моделями.
Llama 3.1 405B не так уж много отделяет от GPT-4o и Claude 3.5 Sonnet. Вот цифры для модели 405B, а затем для более компактных версий 8B и 70B.
Meta также провела "обширную оценку на людях, сравнив Llama 3.1 с конкурирующими моделями в реальных сценариях".
Эти цифры зависят от того, насколько пользователи сами решают, какой ответ им больше нравится в той или иной модели.
Человеческая оценка Llama 3.1 405B отражает то же равенство, что и эталонные показатели.
Meta утверждает, что ее модель действительно открыта, поскольку веса модели Llama 3.1 также доступны для загрузки, хотя данные для обучения не были предоставлены. Компания также внесла изменения в лицензию, чтобы разрешить использовать модели Llama для улучшения других моделей ИИ.
Свобода дорабатывать, изменять и использовать модели Llama без ограничений. критики открытого исходного кода ИИ вызывает тревогу.
Цукерберг утверждает, что подход с открытым исходным кодом - лучший способ избежать непреднамеренного вреда. Если модель ИИ открыта для тщательного изучения, то, по его словам, у нее меньше шансов развить опасное эмерджентное поведение, которое мы могли бы пропустить в закрытых моделях.
Когда речь заходит о возможности умышленного нанесения вреда, Цукерберг говорит: "Пока у всех есть доступ к моделям схожего поколения, чему способствует открытый исходный код, правительства и учреждения с большими вычислительными ресурсами смогут проверять плохих игроков с меньшими вычислительными ресурсами".
Говоря о риске доступа государственных противников, таких как Китай, к моделям Meta, Цукерберг говорит, что усилия, направленные на то, чтобы они не попали в руки китайцев, не сработают.
"Наши противники прекрасно владеют навыками шпионажа, похитить модели, умещающиеся на флешке, довольно просто, а большинство технологических компаний работают далеко не так, чтобы это было сложнее", - пояснил он.
Ажиотаж по поводу того, что модель ИИ с открытым исходным кодом, такая как Llama 3.1 405B, будет противостоять большим закрытым моделям, вполне оправдан.
Но если учесть, что на очереди GPT-5 и Claude 3.5 Opus, то эти результаты бенчмарка могут оказаться не самыми лучшими.