Meta lance les modèles Llama 3.1 et maintient sa stratégie d'ouverture

24 juillet 2024

  • Meta a publié ses modèles Llama 3.1, dont une version paramétrée 405B, le plus grand modèle ouvert au monde.
  • Meta affirme que ses modèles améliorés sont plus performants que GPT-4o et Claude 3.5 Sonnet dans de nombreux benchmarks.
  • Les modèles seront disponibles en open source et via des partenaires tels que NVIDIA, AWS, Azure et d'autres.

Meta a publié ses modèles Llama 3.1 mis à jour en versions 8B, 70B et 405B et s'est engagé dans la vision open source de Mark Zuckerberg pour l'avenir de l'IA.

Les nouveaux modèles de la famille Llama de Meta sont dotés d'une longueur de contexte étendue à 128k et d'une prise en charge de huit langues.

Meta affirme que son modèle 405B, très attendu, fait preuve d'une "flexibilité inégalée, d'un contrôle et de capacités de pointe qui rivalisent avec les meilleurs modèles à source fermée". Meta affirme également que Llama 3.1 405B est "le modèle de fondation le plus grand et le plus performant au monde disponible en libre accès".

Avec des coûts informatiques exorbitants pour former des modèles de plus en plus grands, il y a eu beaucoup de spéculations sur le fait que le modèle phare 405B de Meta pourrait être son premier modèle payant.

Llama 3.1 405B a été formé sur plus de 15 billions de jetons à l'aide de 16 000 NVIDIA H100, ce qui a probablement coûté des centaines de millions de dollars.

Dans un article de blogMark Zuckerberg, PDG de Meta, a réaffirmé le point de vue de l'entreprise selon lequel l'IA open source est la voie à suivre et que la sortie de Llama 3.1 est la prochaine étape "vers l'IA open source devenant la norme de l'industrie".

Les modèles Llama 3.1 peuvent être téléchargés gratuitement et modifiés ou affinés à l'aide d'une série de services fournis par Amazon, Databricks et NVIDIA.

Les modèles sont également disponibles auprès des fournisseurs de services en nuage, notamment AWS, Azure, Google et Oracle.

Performance

Meta déclare avoir testé ses modèles sur plus de 150 ensembles de données de référence et a publié les résultats pour les points de référence les plus courants afin de montrer comment ses nouveaux modèles se situent par rapport à d'autres modèles de premier plan.

Peu de choses séparent le Llama 3.1 405B du GPT-4o et du Claude 3.5 Sonnet. Voici les chiffres pour le modèle 405B et les versions plus petites 8B et 70B.

Comparaison des performances du Llama 3.1 405B avec celles d'autres modèles de premier plan. Source : Meta
Comparaison des performances du Llama 3.1 405B avec celles d'autres modèles de premier plan. Source : Meta

Meta a également réalisé "des évaluations humaines approfondies qui comparent Llama 3.1 à des modèles concurrents dans des scénarios réels".

Ces chiffres reposent sur le fait que les utilisateurs décident s'ils préfèrent la réponse d'un modèle ou d'un autre.

L'évaluation humaine du Llama 3.1 405B reflète une parité similaire à celle que révèlent les chiffres de référence.

Résultats de l'évaluation humaine du Llama 3.1 405B comparés à ceux du GPT-4, du GPT-4o et du Claude 3.5 Sonnet. Source : Meta

Meta affirme que son modèle est véritablement ouvert puisque les poids du modèle Llama 3.1 sont également disponibles au téléchargement, bien que les données d'apprentissage n'aient pas été partagées. L'entreprise a également modifié sa licence pour permettre l'utilisation des modèles Llama afin d'améliorer d'autres modèles d'IA.

La liberté d'affiner, de modifier et d'utiliser les modèles de lamas sans restrictions aura pour effet d'améliorer la qualité de la vie. les critiques de l'open source L'IA tire la sonnette d'alarme.

M. Zuckerberg estime qu'une approche "open source" est le meilleur moyen d'éviter les dommages involontaires. Si un modèle d'IA est soumis à un examen minutieux, il est moins susceptible de développer un comportement émergent dangereux que l'on ne verrait pas dans des modèles fermés.

En ce qui concerne le risque de préjudice intentionnel, Zuckerberg déclare : "Tant que tout le monde a accès à des générations similaires de modèles - ce que l'open source favorise - les gouvernements et les institutions disposant de plus de ressources informatiques seront en mesure de contrôler les mauvais acteurs disposant de moins de ressources informatiques".

En ce qui concerne le risque que des États adversaires comme la Chine accèdent aux modèles Meta, M. Zuckerberg affirme que les efforts déployés pour empêcher que ces modèles ne tombent entre les mains de la Chine ne fonctionneront pas.

"Nos adversaires sont très doués pour l'espionnage, il est relativement facile de voler des modèles qui tiennent sur une clé USB, et la plupart des entreprises technologiques sont loin d'opérer d'une manière qui rendrait la chose plus difficile", a-t-il expliqué.

L'enthousiasme suscité par un modèle d'IA open source tel que Llama 3.1 405B, qui s'attaque aux grands modèles fermés, est justifié.

Cependant, avec les rumeurs de GPT-5 et de Claude 3.5 Opus qui se profilent à l'horizon, ces résultats de référence risquent de ne pas vieillir très bien.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation