Salesforce, en virksomhedssoftwarevirksomhed, har afsløret to kompakte AI-modeller, der udfordrer "større er bedre"-paradigmet inden for AI.
På trods af deres kompakte størrelse klarer xLAM-modellerne med 1 og 7 milliarder parametre sig bedre end mange større modeller i opgaver med funktionsopkald.
Disse opgaver involverer et AI-system, der fortolker og oversætter en anmodning på naturligt sprog til specifikke funktionskald eller API-anmodninger.
Hvis du f.eks. beder et AI-system om at "finde fly til New York i næste weekend under $500", skal modellen forstå denne anmodning, identificere de relevante funktioner (f.eks. search_flights, filter_by_price) og udføre dem med de korrekte parametre.
"Vi viser, at modeller, der er trænet med vores kuraterede datasæt, selv med kun 7B parametre, kan opnå state-of-the-art performance på Berkeley Function-Calling Benchmark og overgå flere GPT-4-modeller", skriver forskerne i deres artikel.
"Desuden opnår vores 1B-model en enestående ydeevne, der overgår GPT-3.5-Turbo og Claude-3 Haiku."
Den Berkeley-benchmark for funktionskaldsom der henvises til i undersøgelsen, er en evalueringsramme, der er designet til at vurdere AI-modellers evne til at kalde funktioner.
Vigtige statistikker fra undersøgelsen omfatter:
- xLAM-7B-modellen (7 milliarder parametre) blev nummer 6 på Berkeley Function-Calling Leaderboard og klarede sig bedre end GPT-4 og Gemini-1.5-Pro.
- Den mindre xLAM-1B-model udkonkurrerede større modeller som Claude-3 Haiku og GPT-3.5-Turbo og demonstrerede enestående effektivitet.
Det, der gør denne præstation særligt imponerende, er modellens størrelse i forhold til konkurrenterne:
- xLAM-1B: 1 milliard parametre
- xLAM-7B: 7 milliarder parametre
- GPT-3: 175 milliarder parametre
- GPT-4: Anslået 1,7 billioner parametre
- Claude-3 Opus: Ikke oplyst, men sandsynligvis hundredvis af milliarder
- Gemini Ultra: Ikke oplyst, anslås at svare til GPT-4
Det viser, at effektivt design og træningsdata af høj kvalitet kan være vigtigere end blot størrelsen.
Mød Salesforce Einsteins "lille kæmpe". Vores 1B-parametermodel xLAM-1B er nu den bedste mikromodel til funktionskald og overgår modeller, der er 7 gange større end den, herunder GPT-3.5 og Claude. Agentisk AI på enheden er her. Tillykke til Salesforce Research!
Papir: https://t.co/SrntYvgxR5... pic.twitter.com/pPgIzk82xT
- Marc Benioff (@Benioff) 3. juli 2024
For at træne modellen specifikt til funktionsopkald udviklede Salesforce-teamet APIGen, en pipeline til at skabe forskellige datasæt af høj kvalitet til funktionsopkaldsopgaver.
APIGen fungerer ved at udtage prøver fra et stort bibliotek med 3.673 eksekverbare API'er i 21 kategorier, hvilket skaber realistiske scenarier, som AI'en kan lære af.
Potentielle anvendelser af xLAM-1B's evner omfatter forbedrede CRM-systemer (Customer Relationship Management), som Salesforce udvikler, mere effektive digitale assistenter, forbedrede grænseflader til smart home-enheder, effektiv AI-behandling til selvkørende køretøjer og sprogoversættelse i realtid på edge-enheder.
Disse xLAM-modeller udfordrer forskere til at gentænke deres AI-arkitektur og træningsmetoder ved at vise, at mindre, mere effektive modeller kan konkurrere med større modeller.
Som Salesforce CEO Marc Benioff forklarede, fremhæver Tiny Giant potentialet for "on-device agentic AI", perfekt til smartphones og IoT-enheder.
Fremtiden for AI vil ikke bare involvere stadig større modeller, men også smartere og mere effektive modeller, der kan give avancerede funktioner til en bredere vifte af enheder og applikationer.