Meta выпускает модели Llama 3.1, придерживаясь открытой стратегии

Компания Meta выпустила обновленные модели Llama 3.1 в версиях 8B, 70B и 405B и заявила о своей приверженности идее Марка Цукерберга об открытом исходном коде для будущего ИИ.

Новые модели семейства Meta Llama имеют расширенную длину контекста 128k и поддерживают восемь языков.

Компания Meta утверждает, что ее долгожданная модель 405B демонстрирует "непревзойденную гибкость, контроль и самые современные возможности, которые соперничают с лучшими моделями с закрытым исходным кодом". Компания также утверждает, что Llama 3.1 405B - это "самая большая и самая мощная в мире модель фундамента с открытым исходным кодом".

Учитывая, что на обучение все более крупных моделей тратятся огромные вычислительные затраты, было много предположений о том, что флагманская модель 405B компании Meta может стать ее первой платной моделью.

Llama 3.1 405B была обучена на более чем 15 триллионах токенов с использованием 16 000 процессоров NVIDIA H100, что, вероятно, обошлось в сотни миллионов долларов.

В запись в блогеГенеральный директор Meta Марк Цукерберг подтвердил мнение компании о том, что ИИ с открытым исходным кодом - это путь вперед, и что выпуск Llama 3.1 - это следующий шаг "к тому, чтобы ИИ с открытым исходным кодом стал промышленным стандартом".

Модели Llama 3.1 можно бесплатно загрузить, модифицировать и настраивать с помощью набора сервисов от Amazon, Databricks и NVIDIA.

Модели также доступны у поставщиков облачных услуг, включая AWS, Azure, Google, Oracle.

Начиная с сегодняшнего дня, открытые исходные коды занимают лидирующие позиции. Представляем Llama 3.1: Наши самые функциональные модели.

Сегодня мы выпускаем коллекцию новых моделей Llama 3.1, включая долгожданную модель 405B. В этих моделях улучшены возможности рассуждений, увеличен объем 128К токенов... pic.twitter.com/1iKpBJuReD

- AI at Meta (@AIatMeta) 23 июля 2024 года

Производительность

Компания Meta утверждает, что протестировала свои модели на более чем 150 эталонных наборах данных и опубликовала результаты для наиболее распространенных эталонов, чтобы показать, как ее новые модели конкурируют с другими ведущими моделями.

Llama 3.1 405B не так уж много отделяет от GPT-4o и Claude 3.5 Sonnet. Вот цифры для модели 405B, а затем для более компактных версий 8B и 70B.

Сравнение Llama 3.1 405B с другими ведущими моделями. Источник: Meta

Meta также провела "обширную оценку на людях, сравнив Llama 3.1 с конкурирующими моделями в реальных сценариях".

Эти цифры зависят от того, насколько пользователи сами решают, какой ответ им больше нравится в той или иной модели.

Человеческая оценка Llama 3.1 405B отражает то же равенство, что и эталонные показатели.

Результаты человеческой оценки Llama 3.1 405B в сравнении с GPT-4, GPT-4o и Claude 3.5 Sonnet. Источник: Meta

Meta утверждает, что ее модель действительно открыта, поскольку веса модели Llama 3.1 также доступны для загрузки, хотя данные для обучения не были предоставлены. Компания также внесла изменения в лицензию, чтобы разрешить использовать модели Llama для улучшения других моделей ИИ.

Свобода дорабатывать, изменять и использовать модели Llama без ограничений. критики открытого исходного кода ИИ вызывает тревогу.

Цукерберг утверждает, что подход с открытым исходным кодом - лучший способ избежать непреднамеренного вреда. Если модель ИИ открыта для тщательного изучения, то, по его словам, у нее меньше шансов развить опасное эмерджентное поведение, которое мы могли бы пропустить в закрытых моделях.

Когда речь заходит о возможности умышленного нанесения вреда, Цукерберг говорит: "Пока у всех есть доступ к моделям схожего поколения, чему способствует открытый исходный код, правительства и учреждения с большими вычислительными ресурсами смогут проверять плохих игроков с меньшими вычислительными ресурсами".

Говоря о риске доступа государственных противников, таких как Китай, к моделям Meta, Цукерберг говорит, что усилия, направленные на то, чтобы они не попали в руки китайцев, не сработают.

"Наши противники прекрасно владеют навыками шпионажа, похитить модели, умещающиеся на флешке, довольно просто, а большинство технологических компаний работают далеко не так, чтобы это было сложнее", - пояснил он.

Ажиотаж по поводу того, что модель ИИ с открытым исходным кодом, такая как Llama 3.1 405B, будет противостоять большим закрытым моделям, вполне оправдан.

Но если учесть, что на очереди GPT-5 и Claude 3.5 Opus, то эти результаты бенчмарка могут оказаться не самыми лучшими.

Meta выпускает модели Llama 3.1, придерживаясь открытой стратегии

Производительность

Присоединяйтесь к будущему

Юджин ван дер Ватт

СВЯЗАННЫЕ СТАТЬИ

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

Meta выпускает модели Llama 3.1, придерживаясь открытой стратегии

Производительность

Присоединяйтесь к будущему

Юджин ван дер Ватт

СВЯЗАННЫЕ СТАТЬИ

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDFБудьте впереди с DailyAI

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI