Salesforce, et programvareselskap for bedrifter, har avduket to kompakte AI-modeller som utfordrer "større er bedre"-paradigmet innen AI.
Til tross for sin kompakte størrelse utkonkurrerer xLAM-modellene med 1 og 7 milliarder parametere mange større modeller når det gjelder funksjonsoppringing.
Disse oppgavene innebærer at et AI-system tolker og oversetter en forespørsel på naturlig språk til spesifikke funksjonskall eller API-forespørsler.
Hvis du for eksempel ber et AI-system om å "finne flyreiser til New York neste helg under $500", må modellen forstå denne forespørselen, identifisere de relevante funksjonene (f.eks. search_flights, filter_by_price) og utføre dem med de riktige parameterne.
"Vi viser at modeller som er trent med våre kuraterte datasett, selv med bare 7B parametere, kan oppnå topp ytelse på Berkeley Function-Calling Benchmark, og utkonkurrere flere GPT-4-modeller", skriver forskerne i artikkelen.
"1B-modellen vår oppnår dessuten eksepsjonell ytelse, og overgår GPT-3.5-Turbo og Claude-3 Haiku."
Den Berkeley Benchmark for funksjonsoppkallinger et evalueringsrammeverk som er utviklet for å vurdere AI-modellenes evne til å kalle opp funksjoner.
Nøkkelstatistikk fra studien inkluderer:
- xLAM-7B-modellen (7 milliarder parametere) ble rangert som nummer 6 på Berkeley Function-Calling Leaderboard, og utkonkurrerte GPT-4 og Gemini-1.5-Pro.
- Den mindre xLAM-1B-modellen utkonkurrerte større modeller som Claude-3 Haiku og GPT-3.5-Turbo, og demonstrerte eksepsjonell effektivitet.
Det som gjør denne prestasjonen spesielt imponerende, er modellens størrelse sammenlignet med konkurrentene:
- xLAM-1B: 1 milliard parametere
- xLAM-7B: 7 milliarder parametere
- GPT-3: 175 milliarder parametere
- GPT-4: Anslått 1,7 billioner parametere
- Claude-3 Opus: Ikke oppgitt, men sannsynligvis hundrevis av milliarder
- Gemini Ultra: Ikke oppgitt, antatt lik GPT-4
Dette viser at effektiv design og treningsdata av høy kvalitet kan være viktigere enn ren størrelse.
Møt Salesforce Einstein "Tiny Giant". Vår 1B-parametermodell xLAM-1B er nå den beste mikromodellen for funksjonsanrop, og utkonkurrerer modeller som er 7 ganger større enn den, inkludert GPT-3.5 & Claude. Agentisk AI på enheten er her. Gratulerer Salesforce Research!
Papir: https://t.co/SrntYvgxR5... pic.twitter.com/pPgIzk82xT
- Marc Benioff (@Benioff) 3. juli 2024
For å trene opp modellen spesifikt for funksjonsoppkalling utviklet Salesforce-teamet APIGen, en pipeline for å skape ulike datasett av høy kvalitet for funksjonsoppkallingsoppgaver.
APIGen bruker et stort bibliotek med 3673 kjørbare API-er i 21 kategorier for å skape realistiske scenarier som den kunstige intelligensen kan lære av.
Potensielle bruksområder for xLAM-1Bs egenskaper er blant annet forbedrede CRM-systemer (Customer Relationship Management), som Salesforce utvikler, mer kapable digitale assistenter, forbedrede grensesnitt for smarthusenheter, effektiv AI-prosessering for selvkjørende kjøretøy og språkoversettelse i sanntid på edge-enheter.
Disse xLAM-modellene utfordrer forskere til å tenke nytt om AI-arkitektur og opplæringsmetoder ved å vise at mindre, mer effektive modeller kan konkurrere med større modeller.
Som Salesforce-sjef Marc Benioff forklarte, fremhever Tiny Giant potensialet for "agentisk AI på enheten", perfekt for smarttelefoner og IoT-enheter.
Fremtidens AI vil ikke bare innebære stadig større modeller, men også smartere og mer effektive modeller som kan gi avanserte funksjoner til et bredere spekter av enheter og bruksområder.