Microsoft lance le Phi-3 Mini, un LM minuscule mais puissant

24 avril 2024

  • Microsoft présente Phi-3 Mini, le premier de sa nouvelle famille de petits modèles linguistiques (SLM)
  • Le Phi-3 Mini ne comporte que 3,8 milliards de paramètres, mais ses performances sont supérieures à celles de modèles deux fois plus grands.
  • Microsoft affirme que les SLM sont des solutions idéales pour des fonctions spécifiques, des coûts réduits et une utilisation hors ligne.

Microsoft a lancé Phi-3 Mini, un minuscule modèle de langage qui s'inscrit dans la stratégie de l'entreprise visant à développer des modèles d'IA légers et spécifiques à certaines fonctions.

La progression des modèles de langage s'est traduite par des paramètres, des ensembles de données d'apprentissage et des fenêtres contextuelles de plus en plus grands. L'augmentation de la taille de ces modèles a permis d'obtenir des capacités plus puissantes, mais à un certain coût.

L'approche traditionnelle de la formation d'un LLM consiste à lui faire consommer des quantités massives de données, ce qui nécessite d'énormes ressources informatiques. On estime que la formation d'un LLM tel que le GPT-4, par exemple, a pris environ 3 mois et a coûté plus de $21m.

Le GPT-4 est une excellente solution pour les tâches qui nécessitent un raisonnement complexe, mais il est excessif pour des tâches plus simples comme la création de contenu ou un chatbot de vente. C'est comme si vous utilisiez un couteau suisse alors que vous n'avez besoin que d'un simple coupe-papier.

Avec seulement 3,8 milliards de paramètres, la Phi-3 Mini est minuscule. Pourtant, Microsoft affirme qu'il s'agit d'une solution idéale, légère et peu coûteuse, pour des tâches telles que le résumé d'un document, l'extraction d'informations à partir de rapports et la rédaction de descriptions de produits ou de messages sur les réseaux sociaux.

Les chiffres du benchmark MMLU montrent que le Phi-3 Mini et les modèles Phi plus grands, qui n'ont pas encore été publiés, battent des modèles plus grands comme le Phi-3 Mini et le Phi-3 Mini. Mistral 7B et Gemma 7B.

Performances des modèles Phi-3 sur le benchmark Massive Multitask Language Understanding (MMLU) par rapport à d'autres modèles de taille similaire. Source : Microsoft

Microsoft indique que Phi-3-small (7B paramètres) et Phi-3-medium (14B paramètres) seront disponibles dans le Azure AI Model Catalog "prochainement".

Les grands modèles comme le GPT-4 restent la référence et nous pouvons probablement nous attendre à ce que le GPT-5 soit encore plus grand.

Les SLM comme le Phi-3 Mini offrent des avantages importants que les modèles plus grands n'ont pas. Les SLM sont moins chers à ajuster, nécessitent moins de calculs et peuvent fonctionner sur l'appareil même dans les situations où aucun accès à l'internet n'est disponible.

Le déploiement d'un SLM à la périphérie permet de réduire la latence et de maximiser la confidentialité, car il n'est pas nécessaire d'envoyer les données dans les deux sens vers le nuage.

Voici Sebastien Bubeck, vice-président de la recherche GenAI chez Microsoft AI, avec une démonstration du Phi-3 Mini. Il est super rapide et impressionnant pour un si petit modèle.

Données synthétiques sélectionnées

Phi-3 Mini est le résultat de l'abandon de l'idée que d'énormes quantités de données sont le seul moyen de former un modèle.

Sébastien Bubeck, vice-président de Microsoft chargé de la recherche sur l'IA générative, a posé la question suivante : "Au lieu de s'entraîner sur des données web brutes, pourquoi ne pas rechercher des données d'une qualité extrêmement élevée ?"

Ronen Eldan, expert en apprentissage automatique de Microsoft Research, lisait des histoires à sa fille lorsqu'il s'est demandé si un modèle de langage pouvait apprendre en utilisant uniquement des mots qu'un enfant de 4 ans peut comprendre.

Cela a conduit à une expérience où ils ont créé un ensemble de données commençant par 3 000 mots. En utilisant uniquement ce vocabulaire limité, ils ont incité un LLM à créer des millions de petites histoires pour enfants qui ont été compilées dans un ensemble de données appelé TinyStories.

Les chercheurs ont ensuite utilisé TinyStories pour entraîner un modèle extrêmement petit de 10 millions de paramètres, qui a ensuite été capable de générer des "récits fluides avec une grammaire parfaite".

Ils ont continué à itérer et à développer cette approche de génération de données synthétiques pour créer des ensembles de données synthétiques plus avancés, mais soigneusement conservés et filtrés, qui ont finalement été utilisés pour entraîner Phi-3 Mini.

Le résultat est un petit modèle qui sera plus abordable à utiliser tout en offrant des performances comparables à celles du GPT-3.5.

Des modèles plus petits mais plus performants permettront aux entreprises de s'éloigner des grands LLM tels que GPT-4. Nous pourrions aussi bientôt voir des solutions où un LLM s'occupe des tâches lourdes mais délègue les tâches plus simples à des modèles plus légers.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation