Salesforce, un'azienda di software aziendale, ha presentato due modelli compatti di intelligenza artificiale che sfidano il paradigma "più grande è meglio" nell'IA.
Nonostante le dimensioni compatte, i modelli xLAM a 1 e 7 miliardi di parametri hanno prestazioni superiori a molti modelli più grandi in compiti di chiamata di funzioni.
Questi compiti prevedono che un sistema di intelligenza artificiale interpreti e traduca una richiesta in linguaggio naturale in specifiche chiamate di funzione o richieste API.
Ad esempio, se si chiede a un sistema di intelligenza artificiale di "trovare voli per New York per il prossimo fine settimana al di sotto di $500", il modello deve comprendere questa richiesta, identificare le funzioni pertinenti (ad esempio, search_flights, filter_by_price) ed eseguirle con i parametri corretti.
"Dimostriamo che i modelli addestrati con i nostri set di dati curati, anche con soli 7B parametri, possono raggiungere prestazioni all'avanguardia nel Berkeley Function-Calling Benchmark, superando più modelli GPT-4", scrivono i ricercatori nel loro articolo.
"Inoltre, il nostro modello 1B raggiunge prestazioni eccezionali, superando GPT-3.5-Turbo e Claude-3 Haiku".
Il Benchmark per la chiamata di funzioni di Berkeley, a cui si fa riferimento nello studio, è un framework di valutazione progettato per valutare le capacità di chiamata di funzione dei modelli di IA.
Statistiche chiave del studio includono:
- Il modello xLAM-7B (7 miliardi di parametri) si è classificato al sesto posto nella classifica delle funzioni di Berkeley, superando GPT-4 e Gemini-1.5-Pro.
- Il modello più piccolo xLAM-1B ha superato modelli più grandi come Claude-3 Haiku e GPT-3.5-Turbo, dimostrando un'efficienza eccezionale.
A rendere particolarmente impressionante questo risultato sono le dimensioni del modello rispetto alla concorrenza:
- xLAM-1B: 1 miliardo di parametri
- xLAM-7B: 7 miliardi di parametri
- GPT-3: 175 miliardi di parametri
- GPT-4: Stima di 1,7 trilioni di parametri
- Claude-3 Opus: Non è stato rivelato, ma probabilmente si tratta di centinaia di miliardi.
- Gemelli Ultra: Non rivelato, stimato simile al GPT-4
Questo dimostra che una progettazione efficiente e dati di addestramento di alta qualità possono essere più importanti delle dimensioni.
Ecco a voi il "Piccolo Gigante" di Salesforce Einstein. Il nostro modello a 1B parametri xLAM-1B è ora il miglior micro-modello per le chiamate di funzione, superando modelli di dimensioni 7 volte superiori, tra cui GPT-3.5 & Claude. L'IA agenziale su dispositivo è arrivata. Congratulazioni a Salesforce Research!
Carta: https://t.co/SrntYvgxR5... pic.twitter.com/pPgIzk82xT
- Marc Benioff (@Benioff) 3 luglio 2024
Per addestrare il modello specificamente per il richiamo di funzioni, il team di Salesforce ha sviluppato APIGen, una pipeline per la creazione di set di dati diversificati e di alta qualità per le attività di richiamo di funzioni.
APIGen funziona campionando da una vasta libreria di 3.673 API eseguibili in 21 categorie, creando scenari realistici da cui l'IA può imparare.
Le potenziali applicazioni delle capacità di xLAM-1B includono il miglioramento dei sistemi di gestione delle relazioni con i clienti (CRM), sviluppati da Salesforce, assistenti digitali più capaci, interfacce migliorate per i dispositivi domestici intelligenti, un'efficiente elaborazione dell'intelligenza artificiale per i veicoli autonomi e la traduzione linguistica in tempo reale sui dispositivi edge.
Questi modelli xLAM sfidano i ricercatori a ripensare l'architettura dell'IA e gli approcci all'addestramento, dimostrando che modelli più piccoli ed efficienti possono competere con quelli più grandi.
Come ha spiegato Marc Benioff, CEO di Salesforce, Tiny Giant mette in luce il potenziale dell'"intelligenza artificiale on-device", perfetta per gli smartphone e i dispositivi IoT.
Il futuro dell'intelligenza artificiale non sarà solo quello di modelli sempre più grandi, ma anche di modelli più intelligenti ed efficienti, in grado di offrire funzionalità avanzate a una gamma più ampia di dispositivi e applicazioni.