Meta a publié ses modèles Llama 3.1 mis à jour en versions 8B, 70B et 405B et s'est engagé dans la vision open source de Mark Zuckerberg pour l'avenir de l'IA.
Les nouveaux modèles de la famille Llama de Meta sont dotés d'une longueur de contexte étendue à 128k et d'une prise en charge de huit langues.
Meta affirme que son modèle 405B, très attendu, fait preuve d'une "flexibilité inégalée, d'un contrôle et de capacités de pointe qui rivalisent avec les meilleurs modèles à source fermée". Meta affirme également que Llama 3.1 405B est "le modèle de fondation le plus grand et le plus performant au monde disponible en libre accès".
Avec des coûts informatiques exorbitants pour former des modèles de plus en plus grands, il y a eu beaucoup de spéculations sur le fait que le modèle phare 405B de Meta pourrait être son premier modèle payant.
Llama 3.1 405B a été formé sur plus de 15 billions de jetons à l'aide de 16 000 NVIDIA H100, ce qui a probablement coûté des centaines de millions de dollars.
Dans un article de blogMark Zuckerberg, PDG de Meta, a réaffirmé le point de vue de l'entreprise selon lequel l'IA open source est la voie à suivre et que la sortie de Llama 3.1 est la prochaine étape "vers l'IA open source devenant la norme de l'industrie".
Les modèles Llama 3.1 peuvent être téléchargés gratuitement et modifiés ou affinés à l'aide d'une série de services fournis par Amazon, Databricks et NVIDIA.
Les modèles sont également disponibles auprès des fournisseurs de services en nuage, notamment AWS, Azure, Google et Oracle.
À partir d'aujourd'hui, l'open source ouvre la voie. Voici Llama 3.1 : Nos modèles les plus performants à ce jour.
Nous publions aujourd'hui une collection de nouveaux modèles Llama 3.1, dont le très attendu 405B. Ces modèles offrent des capacités de raisonnement améliorées, un contexte de... pic.twitter.com/1iKpBJuReD
- AI at Meta (@AIatMeta) 23 juillet 2024
Performance
Meta déclare avoir testé ses modèles sur plus de 150 ensembles de données de référence et a publié les résultats pour les points de référence les plus courants afin de montrer comment ses nouveaux modèles se situent par rapport à d'autres modèles de premier plan.
Peu de choses séparent le Llama 3.1 405B du GPT-4o et du Claude 3.5 Sonnet. Voici les chiffres pour le modèle 405B et les versions plus petites 8B et 70B.
Meta a également réalisé "des évaluations humaines approfondies qui comparent Llama 3.1 à des modèles concurrents dans des scénarios réels".
Ces chiffres reposent sur le fait que les utilisateurs décident s'ils préfèrent la réponse d'un modèle ou d'un autre.
L'évaluation humaine du Llama 3.1 405B reflète une parité similaire à celle que révèlent les chiffres de référence.
Meta affirme que son modèle est véritablement ouvert puisque les poids du modèle Llama 3.1 sont également disponibles au téléchargement, bien que les données d'apprentissage n'aient pas été partagées. L'entreprise a également modifié sa licence pour permettre l'utilisation des modèles Llama afin d'améliorer d'autres modèles d'IA.
La liberté d'affiner, de modifier et d'utiliser les modèles de lamas sans restrictions aura pour effet d'améliorer la qualité de la vie. les critiques de l'open source L'IA tire la sonnette d'alarme.
M. Zuckerberg estime qu'une approche "open source" est le meilleur moyen d'éviter les dommages involontaires. Si un modèle d'IA est soumis à un examen minutieux, il est moins susceptible de développer un comportement émergent dangereux que l'on ne verrait pas dans des modèles fermés.
En ce qui concerne le risque de préjudice intentionnel, Zuckerberg déclare : "Tant que tout le monde a accès à des générations similaires de modèles - ce que l'open source favorise - les gouvernements et les institutions disposant de plus de ressources informatiques seront en mesure de contrôler les mauvais acteurs disposant de moins de ressources informatiques".
En ce qui concerne le risque que des États adversaires comme la Chine accèdent aux modèles Meta, M. Zuckerberg affirme que les efforts déployés pour empêcher que ces modèles ne tombent entre les mains de la Chine ne fonctionneront pas.
"Nos adversaires sont très doués pour l'espionnage, il est relativement facile de voler des modèles qui tiennent sur une clé USB, et la plupart des entreprises technologiques sont loin d'opérer d'une manière qui rendrait la chose plus difficile", a-t-il expliqué.
L'enthousiasme suscité par un modèle d'IA open source tel que Llama 3.1 405B, qui s'attaque aux grands modèles fermés, est justifié.
Cependant, avec les rumeurs de GPT-5 et de Claude 3.5 Opus qui se profilent à l'horizon, ces résultats de référence risquent de ne pas vieillir très bien.