Google, OpenAI e Mistral hanno rilasciato nuove versioni dei loro modelli di intelligenza artificiale all'avanguardia in sole 12 ore.
Anche Meta sta per unirsi alla festa con il suo prossimo modello Llama 3 e il tanto atteso GPT-5 di OpenAI è in preparazione.
Quella che era nata come una categoria di nicchia dominata da ChatGPT è ora inondata di alternative che trascendono le Big Tech e la divisione tra open e closed-source.
Google Gemini Pro 1.5
Gemini Pro 1.5 di Google ha fatto il primo colpo, introducendo progressi nella comprensione del contesto lungo che sfidano Claude 3 Opus, che detiene gli assi in quella categoria.
Il nostro modello AI di nuova generazione Gemini 1.5 Pro è ora disponibile in anteprima pubblica su @GoogleCloud's #VertexAI piattaforma.
La sua finestra a contesto lungo sta già aiutando le aziende ad analizzare grandi quantità di dati, a creare agenti di assistenza clienti dotati di intelligenza artificiale e altro ancora. → https://t.co/CLMN3wNmeP pic.twitter.com/RpRVUul3eg
- Google DeepMind (@GoogleDeepMind) 9 aprile 2024
Con la capacità di elaborare fino a 1 milione di token, Gemini Pro 1.5 è in grado di gestire simultaneamente grandi quantità di informazioni, tra cui 700.000 parole, un'ora di video o 11 ore di audio.
La sua architettura Mixture-of-Experts (MoE) migliora l'efficienza e le prestazioni utilizzando modelli specializzati per compiti specifici.
La gamma di modelli Gemini di Google è piuttosto complessa, ma questo è il modello più capace per le attività tipiche.
Google permette inoltre agli sviluppatori di effettuare 50 richieste gratuite all'API ogni giorno, che secondo una persona su X costerebbero fino a $1.400.
Attualmente, Gemini 1.5 Pro è disponibile in 180 paesi.
Nuova versione di GPT-4 Turbo
OpenAI ha poi rilasciato una nuova versione, GPT-4 Turbo, con un'elaborazione matematica e visiva superiore.
Come si legge in un post di X, "GPT-4 Turbo con Vision è ora generalmente disponibile nell'API. Le richieste di Vision possono ora utilizzare anche la modalità JSON e la chiamata di funzione".
GPT-4 Turbo con Vision è ora generalmente disponibile nell'API. Le richieste di Vision possono ora utilizzare anche la modalità JSON e la chiamata di funzione.https://t.co/cbvJjij3uL
Di seguito sono riportati alcuni modi in cui gli sviluppatori costruiscono con la visione. Lasciate il vostro in una risposta 🧵
- Sviluppatori OpenAI (@OpenAIDevs) 9 aprile 2024
OpenAI prevede di rilasciare presto GPT -5, così come il suo modello text-to-video Sora, che al momento non ha concorrenti degni di nota (anche se le cose cambieranno).
Mixtral 8x22B
Tuttavia, forse la sorpresa più grande è arrivata da Maestraleche ha audacemente pubblicato il suo modello Mixtral 8x22B come file da 281 GB liberamente scaricabile via torrent.
magnet:?xt=urn:btih:9238b09245d0d8cd915be09927769d5f7584c1c9&dn=mixtral-8x22b&tr=udp%3A%2F%https://t.co/2UepcMGLGd%3A1337%2Fannounce&tr=http%3A%2F%https://t.co/OdtBUsbeV5%3A1337%2Fannounce
- Mistral AI (@MistralAI) 10 aprile 2024
Con ben 176 miliardi di parametri e una lunghezza del contesto di 65.000 token, questo modello open-source su licenza Apache 2.0 dovrebbe superare il precedente modello Mixtral 8x7B di Mistral, che aveva già superato concorrenti come Llama 2 70B in vari benchmark.
L'architettura MoE avanzata di Mixtral 8x22B consente un calcolo efficiente e prestazioni migliori rispetto alle iterazioni precedenti.
Meta Llama 3 è in arrivo
Per non rimanere indietro, le notizie suggeriscono che Meta potrebbe rilasciare una versione ridotta del suo attesissimo modello Llama 3 già la prossima settimana, mentre il modello completo open-source è ancora previsto per luglio.
Llama 3 dovrebbe essere disponibile in varie dimensioni, da modelli molto piccoli che competono con Claude Haiku o Gemini Nano a modelli più grandi, completamente reattivi e capaci di ragionare, in grado di rivaleggiare con GPT-4 o Claude 3 Opus.
Modello di moltiplicazione
L'ecosistema dell'intelligenza artificiale generativa, un tempo dominato da ChatGPT, è ora invaso da alternative.
Praticamente tutte le principali aziende tecnologiche sono coinvolte, direttamente o attraverso ingenti investimenti. E con l'ingresso nella mischia di ogni giocatore, la speranza che una sola fazione possa dominare il mercato si sta affievolendo.
Stiamo anche assistendo alla riduzione del divario tra i modelli closed-source di OpenAI, Anthropic, Google, ecc. e le alternative closed-source di Mistral, Meta e altri.
I modelli open-source sono ancora piuttosto inaccessibili alla popolazione, ma anche questo aspetto è destinato a cambiare.
Quindi, questi modelli rappresentano un vero progresso nell'apprendimento automatico o solo un'evoluzione dello stesso ma migliore? Dipende da chi lo chiede.
Alcuni, come Elon Musk, prevedono che l'intelligenza artificiale supererà quella umana entro un anno.
Altri, come lo scienziato capo di Meta Yann LeCun, sostengono che l'intelligenza artificiale è molto indietro rispetto a noi per quanto riguarda qualsiasi misura solida dell'intelligenza.
LeCun spiegato a febbraio riguardo agli attuali LLM: "In pratica, non possono inventare cose nuove. Rigurgiteranno all'incirca tutto ciò su cui sono stati addestrati da dati pubblici, il che significa che è possibile ottenerli da Google. La gente ha detto: "Oh mio Dio, dobbiamo regolamentare i LLM perché saranno così pericolosi". Questo non è vero".
Meta mira a creare un'intelligenza artificiale "guidata dagli oggetti" che comprenda meglio il mondo e cerchi di pianificare e ragionare su di esso.
"Stiamo lavorando duramente per capire come far sì che questi modelli non si limitino a parlare, ma ragionino, pianifichino..."... di avere memoria". ha spiegato Joelle Pineau, vicepresidente della ricerca sull'intelligenza artificiale di Meta.
Il direttore operativo di OpenAI, Brad Lightcap, ha dichiarato che la sua azienda si sta concentrando sul miglioramento della capacità dell'intelligenza artificiale di ragionare e di gestire compiti più complessi.
"Inizieremo a vedere IA in grado di svolgere compiti più complessi in modo più sofisticato", ha affermato in occasione di un recente evento, "credo che nel tempo... vedremo i modelli orientarsi verso compiti più lunghi e più complessi, e questo richiede implicitamente un miglioramento della loro capacità di ragionamento".
Mentre il 2024 si avvicina all'estate, la comunità dell'IA e la società in generale osserveranno con attenzione quali sviluppi rivoluzionari emergeranno dai laboratori di questi giganti della tecnologia.
Alla fine dell'anno sarà una selezione piuttosto colorata.