Salesforce, ett mjukvaruföretag för företag, har presenterat två kompakta AI-modeller som utmanar "större är bättre"-paradigmet inom AI.
Trots sin kompakta storlek överträffar xLAM-modellerna med 1 och 7 miljarder parametrar många större modeller i uppgifter som rör funktionskallning.
Dessa uppgifter innebär att ett AI-system tolkar och översätter en förfrågan på naturligt språk till specifika funktionsanrop eller API-förfrågningar.
Om du till exempel ber ett AI-system att "hitta flyg till New York för nästa helg under $500" måste modellen förstå denna begäran, identifiera de relevanta funktionerna (t.ex. search_flights, filter_by_price) och utföra dem med rätt parametrar.
"Vi visar att modeller som tränats med våra sammanställda dataset, även med bara 7B parametrar, kan uppnå topprestanda på Berkeley Function-Calling Benchmark och överträffa flera GPT-4-modeller", skriver forskarna i sin artikel.
"Dessutom uppnår vår 1B-modell exceptionella prestanda och överträffar GPT-3.5-Turbo och Claude-3 Haiku."
Den Berkeley Benchmark för funktionsuppringningsom refereras till i studien, är ett utvärderingsramverk som utformats för att bedöma AI-modellers förmåga att kalla på funktioner.
Nyckelstatistik från studien omfattar:
- xLAM-7B-modellen (7 miljarder parametrar) rankades på 6:e plats på Berkeley Function-Calling Leaderboard och överträffade GPT-4 och Gemini-1.5-Pro.
- Den mindre xLAM-1B-modellen överträffade större modeller som Claude-3 Haiku och GPT-3.5-Turbo, vilket visar på en exceptionell effektivitet.
Det som gör denna prestation särskilt imponerande är modellens storlek jämfört med konkurrenterna:
- xLAM-1B: 1 miljard parametrar
- xLAM-7B: 7 miljarder parametrar
- GPT-3: 175 miljarder parametrar
- GPT-4: Uppskattningsvis 1,7 biljoner parametrar
- Claude-3 Opus: Okänt, men sannolikt hundratals miljarder
- Gemini Ultra: Okänd, uppskattas likna GPT-4
Detta visar att effektiv design och högkvalitativa träningsdata kan vara viktigare än ren storlek.
Möt Salesforce Einstein "Tiny Giant". Vår 1B-parametermodell xLAM-1B är nu den bästa mikromodellen för funktionsanrop och överträffar modeller som är 7 gånger större än den, inklusive GPT-3.5 & Claude. Agentisk AI på enheten är här. Grattis Salesforce Research!
Papper: https://t.co/SrntYvgxR5... pic.twitter.com/pPgIzk82xT
- Marc Benioff (@Benioff) 3 juli 2024
För att träna modellen specifikt för funktionskallning utvecklade Salesforce-teamet APIGen, en pipeline för att skapa olika, högkvalitativa dataset för funktionskallningsuppgifter.
APIGen arbetar genom att göra urval från ett stort bibliotek med 3.673 körbara API:er i 21 kategorier, vilket skapar realistiska scenarier som AI:n kan lära sig av.
Potentiella tillämpningar av xLAM-1B:s kapacitet inkluderar förbättrade CRM-system (Customer Relationship Management), som Salesforce utvecklar, mer kapabla digitala assistenter, förbättrade gränssnitt för smarta hem, effektiv AI-bearbetning för autonoma fordon och språköversättning i realtid på Edge-enheter.
Dessa xLAM-modeller utmanar forskare att ompröva sin AI-arkitektur och sina träningsmetoder genom att visa att mindre, mer effektiva modeller kan konkurrera med större modeller.
Som Salesforce CEO Marc Benioff förklarade, visar Tiny Giant potentialen för "agentic AI on-device", perfekt för smartphones och IoT-enheter.
Framtiden för AI kommer inte bara att innebära allt större modeller utan smartare och effektivare modeller som kan ge avancerade funktioner till ett bredare utbud av enheter och applikationer.