Meta rilascia i modelli Llama 3.1 e mantiene una strategia aperta

24 luglio 2024

  • Meta ha rilasciato i modelli Llama 3.1, tra cui una versione con parametri 405B, il modello aperto più grande al mondo.
  • Meta afferma che i suoi modelli aggiornati superano GPT-4o e Claude 3.5 Sonnet in diversi benchmark
  • I modelli saranno disponibili come open source e tramite partner come NVIDIA, AWS, Azure e altri.

Meta ha rilasciato i modelli Llama 3.1 aggiornati nelle versioni 8B, 70B e 405B e si è impegnata nella visione open source di Mark Zuckerberg per il futuro dell'IA.

Le nuove aggiunte alla famiglia di modelli Llama di Meta sono dotate di una lunghezza di contesto estesa a 128k e del supporto di otto lingue.

Meta afferma che il suo attesissimo modello 405B dimostra "flessibilità, controllo e capacità all'avanguardia senza pari, in grado di rivaleggiare con i migliori modelli closed source". Meta sostiene inoltre che Llama 3.1 405B è "il modello di fondazione open source più grande e più capace al mondo".

Con costi di calcolo da capogiro spesi per addestrare modelli sempre più grandi, si è speculato molto sul fatto che il modello di punta 405B di Meta potrebbe essere il suo primo modello a pagamento.

Llama 3.1 405B è stato addestrato su oltre 15 trilioni di token utilizzando 16.000 NVIDIA H100, con un probabile costo di centinaia di milioni di dollari.

In un post sul blogMark Zuckerberg, CEO di Meta, ha ribadito la posizione dell'azienda secondo cui l'IA open source è la strada da seguire e che il rilascio di Llama 3.1 è il prossimo passo "verso l'IA open source che diventerà lo standard del settore".

I modelli Llama 3.1 sono liberi di essere scaricati e modificati o perfezionati con una suite di servizi di Amazon, Databricks e NVIDIA.

I modelli sono disponibili anche sui fornitori di servizi cloud, tra cui AWS, Azure, Google e Oracle.

Prestazioni

Meta afferma di aver testato i suoi modelli su oltre 150 set di dati di riferimento e di aver rilasciato i risultati per i benchmark più comuni per mostrare come i suoi nuovi modelli si posizionano rispetto ad altri modelli leader.

Non c'è molto che separa Llama 3.1 405B da GPT-4o e Claude 3.5 Sonnet. Ecco i dati relativi al modello 405B e alle versioni più piccole 8B e 70B.

Llama 3.1 405B a confronto con altri modelli leader. Fonte: Meta
Llama 3.1 405B a confronto con altri modelli leader. Fonte: Meta

Meta ha anche eseguito "ampie valutazioni umane che confrontano Llama 3.1 con modelli concorrenti in scenari reali".

Questi dati si basano sul fatto che gli utenti decidono se preferiscono la risposta di un modello o di un altro.

La valutazione umana di Llama 3.1 405B riflette la stessa parità che i dati di benchmark rivelano.

Risultati della valutazione umana di Llama 3.1 405B rispetto a GPT-4, GPT-4o e Claude 3.5 Sonnet. Fonte: Meta

Meta afferma che il suo modello è veramente aperto, in quanto anche i pesi del modello Llama 3.1 sono disponibili per il download, sebbene i dati di addestramento non siano stati condivisi. L'azienda ha inoltre modificato la licenza per consentire l'utilizzo dei modelli Llama per migliorare altri modelli di intelligenza artificiale.

La libertà di mettere a punto, modificare e utilizzare i modelli Llama senza restrizioni avrà critici dell'open source L'intelligenza artificiale fa suonare un campanello d'allarme.

Zuckerberg sostiene che un approccio open source è il modo migliore per evitare danni involontari. Se un modello di intelligenza artificiale è aperto al controllo, secondo Zuckerberg, è meno probabile che sviluppi comportamenti emergenti pericolosi che altrimenti sfuggirebbero a modelli chiusi.

Per quanto riguarda il potenziale di danno intenzionale, Zuckerberg afferma: "Finché tutti avranno accesso a generazioni simili di modelli - cosa che l'open source promuove - i governi e le istituzioni con maggiori risorse di calcolo saranno in grado di controllare i cattivi attori con meno calcolo".

Per quanto riguarda il rischio che avversari statali come la Cina accedano ai modelli Meta, Zuckerberg afferma che gli sforzi per tenerli fuori dalle mani dei cinesi non funzioneranno.

"I nostri avversari sono bravissimi nello spionaggio, rubare modelli che stanno in una chiavetta è relativamente facile, e la maggior parte delle aziende tecnologiche è ben lontana dall'operare in modo tale da rendere più difficile questa operazione", ha spiegato.

L'entusiasmo per un modello di intelligenza artificiale open source come Llama 3.1 405B che affronta i grandi modelli chiusi è giustificato.

Ma con i sussurri di GPT-5 e Claude 3.5 Opus in attesa, i risultati di questi benchmark potrebbero non invecchiare molto bene.

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Eugene van der Watt

Eugene proviene da un background di ingegneria elettronica e ama tutto ciò che è tecnologico. Quando si prende una pausa dal consumo di notizie sull'intelligenza artificiale, lo si può trovare al tavolo da biliardo.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni