Salesforce, éditeur de logiciels d'entreprise, a dévoilé deux modèles d'IA compacts qui remettent en question le paradigme "plus c'est gros, mieux c'est" dans le domaine de l'IA.
Malgré leur taille compacte, les modèles xLAM à 1 et 7 milliards de paramètres sont plus performants que de nombreux modèles plus grands dans les tâches d'appel de fonctions.
Ces tâches impliquent qu'un système d'intelligence artificielle interprète et traduise une demande en langage naturel en appels de fonctions spécifiques ou en demandes d'API.
Par exemple, si vous demandez à un système d'IA de "trouver des vols vers New York pour le week-end prochain à moins de $500", le modèle doit comprendre cette demande, identifier les fonctions pertinentes (par exemple, search_flights, filter_by_price) et les exécuter avec les paramètres corrects.
"Nous démontrons que les modèles formés avec nos ensembles de données, même avec seulement 7B paramètres, peuvent atteindre des performances de pointe sur le Berkeley Function-Calling Benchmark, surpassant plusieurs modèles GPT-4", écrivent les chercheurs dans leur article.
"De plus, notre modèle 1B atteint des performances exceptionnelles, surpassant le GPT-3.5-Turbo et le Claude-3 Haiku".
Les Benchmark d'appel de fonction Berkeleyréférencé dans l'étude, est un cadre d'évaluation conçu pour évaluer les capacités d'appel de fonctions des modèles d'IA.
Chiffres clés de l'enquête L'étude comprend:
- Le modèle xLAM-7B (7 milliards de paramètres) s'est classé au 6e rang du Berkeley Function-Calling Leaderboard, surpassant GPT-4 et Gemini-1.5-Pro.
- Le petit modèle xLAM-1B a surpassé les grands modèles tels que Claude-3 Haiku et GPT-3.5-Turbo, faisant preuve d'une efficacité exceptionnelle.
Ce qui rend cette performance particulièrement impressionnante, c'est la taille du modèle par rapport à ses concurrents :
- xLAM-1B: 1 milliard de paramètres
- xLAM-7B: 7 milliards de paramètres
- GPT-3: 175 milliards de paramètres
- GPT-4: Estimation de 1,7 trillion de paramètres
- Claude-3 Opus: Non divulgué, mais probablement des centaines de milliards
- Gemini Ultra: Non divulgué, estimé similaire à GPT-4
Cela montre qu'une conception efficace et des données de formation de haute qualité peuvent être plus importantes que la taille.
Voici Salesforce Einstein "Tiny Giant". Notre modèle à 1B paramètres xLAM-1B est désormais le meilleur micro-modèle pour l'appel de fonction, surpassant des modèles 7 fois plus grands, y compris GPT-3.5&. Claude. L'IA agentique sur appareil est arrivée. Félicitations à Salesforce Research !
Papier : https://t.co/SrntYvgxR5... pic.twitter.com/pPgIzk82xT
- Marc Benioff (@Benioff) 3 juillet 2024
Pour former le modèle spécifiquement à l'appel de fonction, l'équipe de Salesforce a développé APIGen, un pipeline permettant de créer des ensembles de données diversifiés et de haute qualité pour les tâches d'appel de fonction.
APIGen fonctionne par échantillonnage à partir d'une vaste bibliothèque de 3 673 API exécutables réparties dans 21 catégories, créant ainsi des scénarios réalistes à partir desquels l'IA peut apprendre.
Les applications potentielles des capacités de xLAM-1B comprennent des systèmes de gestion de la relation client (CRM) améliorés, que Salesforce développe, des assistants numériques plus performants, des interfaces améliorées pour les appareils domestiques intelligents, un traitement efficace de l'IA pour les véhicules autonomes et une traduction linguistique en temps réel sur les appareils périphériques.
Ces modèles xLAM incitent les chercheurs à repenser leur architecture d'IA et leurs approches de formation en démontrant que des modèles plus petits et plus efficaces peuvent rivaliser avec des modèles plus grands.
Comme l'a expliqué Marc Benioff, PDG de Salesforce, Tiny Giant met en évidence le potentiel de l'"IA agentique sur l'appareil", parfaite pour les smartphones et les appareils IoT.
L'avenir de l'IA ne se résume pas à des modèles toujours plus grands, mais à des modèles plus intelligents et plus efficaces, capables d'apporter des fonctionnalités avancées à un plus grand nombre d'appareils et d'applications.