Meta ha rilasciato i modelli Llama 3.1 aggiornati nelle versioni 8B, 70B e 405B e si è impegnata nella visione open source di Mark Zuckerberg per il futuro dell'IA.
Le nuove aggiunte alla famiglia di modelli Llama di Meta sono dotate di una lunghezza di contesto estesa a 128k e del supporto di otto lingue.
Meta afferma che il suo attesissimo modello 405B dimostra "flessibilità, controllo e capacità all'avanguardia senza pari, in grado di rivaleggiare con i migliori modelli closed source". Meta sostiene inoltre che Llama 3.1 405B è "il modello di fondazione open source più grande e più capace al mondo".
Con costi di calcolo da capogiro spesi per addestrare modelli sempre più grandi, si è speculato molto sul fatto che il modello di punta 405B di Meta potrebbe essere il suo primo modello a pagamento.
Llama 3.1 405B è stato addestrato su oltre 15 trilioni di token utilizzando 16.000 NVIDIA H100, con un probabile costo di centinaia di milioni di dollari.
In un post sul blogMark Zuckerberg, CEO di Meta, ha ribadito la posizione dell'azienda secondo cui l'IA open source è la strada da seguire e che il rilascio di Llama 3.1 è il prossimo passo "verso l'IA open source che diventerà lo standard del settore".
I modelli Llama 3.1 sono liberi di essere scaricati e modificati o perfezionati con una suite di servizi di Amazon, Databricks e NVIDIA.
I modelli sono disponibili anche sui fornitori di servizi cloud, tra cui AWS, Azure, Google e Oracle.
Da oggi l'open source è in prima linea. Presentazione di Llama 3.1: I nostri modelli più capaci finora.
Oggi rilasciamo una serie di nuovi modelli Llama 3.1, tra cui il tanto atteso 405B. Questi modelli offrono migliori capacità di ragionamento, un contesto più ampio di 128K... pic.twitter.com/1iKpBJuReD
- AI a Meta (@AIatMeta) 23 luglio 2024
Prestazioni
Meta afferma di aver testato i suoi modelli su oltre 150 set di dati di riferimento e di aver rilasciato i risultati per i benchmark più comuni per mostrare come i suoi nuovi modelli si posizionano rispetto ad altri modelli leader.
Non c'è molto che separa Llama 3.1 405B da GPT-4o e Claude 3.5 Sonnet. Ecco i dati relativi al modello 405B e alle versioni più piccole 8B e 70B.
Meta ha anche eseguito "ampie valutazioni umane che confrontano Llama 3.1 con modelli concorrenti in scenari reali".
Questi dati si basano sul fatto che gli utenti decidono se preferiscono la risposta di un modello o di un altro.
La valutazione umana di Llama 3.1 405B riflette la stessa parità che i dati di benchmark rivelano.
Meta afferma che il suo modello è veramente aperto, in quanto anche i pesi del modello Llama 3.1 sono disponibili per il download, sebbene i dati di addestramento non siano stati condivisi. L'azienda ha inoltre modificato la licenza per consentire l'utilizzo dei modelli Llama per migliorare altri modelli di intelligenza artificiale.
La libertà di mettere a punto, modificare e utilizzare i modelli Llama senza restrizioni avrà critici dell'open source L'intelligenza artificiale fa suonare un campanello d'allarme.
Zuckerberg sostiene che un approccio open source è il modo migliore per evitare danni involontari. Se un modello di intelligenza artificiale è aperto al controllo, secondo Zuckerberg, è meno probabile che sviluppi comportamenti emergenti pericolosi che altrimenti sfuggirebbero a modelli chiusi.
Per quanto riguarda il potenziale di danno intenzionale, Zuckerberg afferma: "Finché tutti avranno accesso a generazioni simili di modelli - cosa che l'open source promuove - i governi e le istituzioni con maggiori risorse di calcolo saranno in grado di controllare i cattivi attori con meno calcolo".
Per quanto riguarda il rischio che avversari statali come la Cina accedano ai modelli Meta, Zuckerberg afferma che gli sforzi per tenerli fuori dalle mani dei cinesi non funzioneranno.
"I nostri avversari sono bravissimi nello spionaggio, rubare modelli che stanno in una chiavetta è relativamente facile, e la maggior parte delle aziende tecnologiche è ben lontana dall'operare in modo tale da rendere più difficile questa operazione", ha spiegato.
L'entusiasmo per un modello di intelligenza artificiale open source come Llama 3.1 405B che affronta i grandi modelli chiusi è giustificato.
Ma con i sussurri di GPT-5 e Claude 3.5 Opus in attesa, i risultati di questi benchmark potrebbero non invecchiare molto bene.