Google ha lanciato la sua famiglia Gemini di modelli di intelligenza artificiale multimodale, un'operazione drammatica in un settore ancora provato dagli eventi di OpenAI.
Gemini è una famiglia di modelli multimodali in grado di elaborare e comprendere una miscela di testo, immagini, audio e video.
Sundar Pichai, CEO di Google, e Demis Hassabis, CEO di Google DeepMind, esprimono grandi aspettative per Gemini. Google prevede di integrarlo in tutti i suoi prodotti e servizi, tra cui la ricerca, Maps e Chrome.
Siamo entusiasti di annunciare 𝗚𝗲𝗺𝗶𝗻𝗶: @Googleil modello di intelligenza artificiale più grande e più capace.
Costruito per essere nativamente multimodale, è in grado di comprendere e operare su testo, codice, audio, immagini e video, raggiungendo prestazioni all'avanguardia in molti compiti. 🧵 https://t.co/mwHZTDTBuG pic.twitter.com/zfLlCGuzmV
- Google DeepMind (@GoogleDeepMind) 6 dicembre 2023
Gemini vanta una multimodalità completa, elaborando e interagendo con testo, immagini, video e audio. Mentre siamo abituati all'elaborazione del testo e delle immagini, l'audio e il video aprono nuove strade, offrendo nuovi modi di gestire i rich media.
Hassabis osserva: "Questi modelli capiscono meglio il mondo che li circonda".
Pichai ha sottolineato la connessione del modello con i prodotti e i servizi di Google, affermando: "Una delle cose potenti di questo momento è che si può lavorare su una tecnologia di base e migliorarla, e questo si ripercuote immediatamente sui nostri prodotti".
I Gemelli assumeranno tre forme diverse, che sono:
- Gemini Nano: Una versione più leggera, pensata per i dispositivi Android, che consente di utilizzare le funzionalità offline e native.
- Gemini Pro: Una versione più avanzata, destinata ad alimentare numerosi servizi di intelligenza artificiale di Google, tra cui Bard.
- Gemini Ultra: L'iterazione più potente, progettata principalmente per i data center e le applicazioni aziendali, è prevista per il prossimo anno.
In termini di prestazioni, Google sostiene che Gemini supera GPT-4 in 30 su 32 benchmark, eccellendo in particolare nella comprensione e nell'interazione con video e audio. Queste prestazioni sono attribuite alla progettazione di Gemini come modello multisensoriale fin dall'inizio.
Bard ottiene il suo più grande aggiornamento con una versione specificamente messa a punto di Gemini Pro.
Da oggi sarà molto più capace di fare cose come:
🔘 Comprensione
🔘 Riassunto
🔘 Ragionamento
🔘 Codifica
🔘 PianificazioneE altro ancora. ↓ https://t.co/TJR12OioxU
- Google DeepMind (@GoogleDeepMind) 6 dicembre 2023
Inoltre, Google ha voluto sottolineare l'efficienza di Gemini.
Addestrata sulle Tensor Processing Unit (TPU) di Google, è più veloce ed economica dei modelli precedenti. Oltre a Gemini, Google sta lanciando TPU v5p per i data center, migliorando l'efficienza dell'esecuzione di modelli su larga scala.
Gemini è l'assassino di ChatGPT?
Google è chiaramente ottimista su Gemini. All'inizio dell'anno, un 'perdita' di Semi Analysis ha suggerito che Gemini potrebbe sbaragliare la concorrenza, vedendo Google passare da membro periferico del settore dell'IA generativa a protagonista davanti a OpenAI.
Oltre alla sua multimodalità, Gemini è presumibilmente il primo modello a superare gli esperti umani nel test di comprensione linguistica multitask massiva (MMLU), che verifica la conoscenza del mondo e la capacità di risolvere problemi in 57 materie, come matematica, fisica, storia, legge, medicina ed etica.
Pichai ha dichiarato che il lancio di Gemini annuncia una "nuova era" nell'IA, sottolineando come Gemini beneficerà dell'ampio catalogo di prodotti di Google.
L'integrazione con i motori di ricerca è particolarmente interessante, in quanto Google domina questo spazio e ha a disposizione i vantaggi dell'indice di ricerca più completo al mondo.
Il rilascio di Gemini pone Google in una posizione di rilievo nella corsa all'intelligenza artificiale e le persone saranno impegnate a testarlo contro GPT-4.
Test e analisi dei benchmark Gemini
In un post sul blogGoogle ha pubblicato i risultati dei benchmark che dimostrano come Gemini Ultra abbia battuto GPT-4 nella maggior parte dei test. Vanta anche capacità di codifica avanzate, con prestazioni eccellenti in benchmark di codifica come HumanEval e Natural2Code.
Ecco i dati di benchmark. Tenete presente che queste misure utilizzano la versione Gemini Ultra non ancora rilasciata. Gemini non può essere considerato un killer di ChatGPT fino al prossimo anno. E potete scommettere che OpenAI si muoverà per contrastare Gemini il prima possibile.
Prestazioni del benchmark testo/NLP
Conoscenze generali:
- MMLU (Massive Multitask Language Understanding):
- Gemini Ultra: 90.0% (Catena del pensiero a 32 esempi)
- GPT-4: 86,4% (5 colpi, riferito)
Ragionamento:
- Big-Bench Hard (insieme di compiti impegnativi che richiedono un ragionamento in più fasi):
- Gemini Ultra: 83,6% (3 colpi)
- GPT-4: 83.1% (3 colpi, API)
- DROP (Comprensione della lettura, punteggio F1):
- Gemini Ultra: 82,4 (scatti variabili)
- GPT-4: 80,9 (3 colpi, riferito)
- HellaSwag (ragionamento di senso comune per le attività quotidiane):
- Gemini Ultra: 87,8% (10 colpi)
- GPT-4: 95,3% (10 colpi, segnalati)
Matematica:
- GSM8K (manipolazioni aritmetiche di base, compresi i problemi matematici della scuola elementare):
- Gemini Ultra: 94,4% (maggioranza a 32 esemplari)
- GPT-4: 92.0% (Catena del Pensiero a 5 colpi, riferito)
- MATH (problemi matematici impegnativi, tra cui algebra, geometria, precalcolo e altri):
- Gemini Ultra: 53.2% (4 colpi)
- GPT-4: 52,9% (4 colpi, API)
Codice:
- HumanEval (generazione di codice Python):
- Gemini Ultra: 74,4% (0 colpi, test interno)
- GPT-4: 67,0% (0 colpi, segnalato)
- Natural2Code (generazione di codice in Python, nuovo set di dati non disponibile, simile a HumanEval, non trapelato sul web):
- Gemini Ultra: 74,9% (0 colpi)
- GPT-4: 73,9% (0 colpi, API)
Prestazioni del benchmark multimodale
Le capacità multimodali del modello Gemini AI di Google sono confrontate anche con il GPT-4V di OpenAI.
Comprensione ed elaborazione delle immagini:
- MMMU (Multi-discipline College-level Reasoning Problems):
- Gemini Ultra: 59,4% (passaggio a 0 scatti@1, solo pixel)
- GPT-4V: 56,8% (passaggio a 0 colpi@1)
- VQAv2 (Natural Image Understanding):
- Gemini Ultra: 77,8% (0 scatti, solo pixel)
- GPT-4V: 77,2% (0 colpi)
- TextVQA (OCR su immagini naturali):
- Gemini Ultra: 82,3% (0 scatti, solo pixel)
- GPT-4V: 78,0% (0 colpi)
- DocVQA (comprensione dei documenti):
- Gemini Ultra: 90,9% (0 colpi, solo pixel)
- GPT-4V: 88,4% (0 scatti, solo pixel)
- Infografica VQA (comprensione dell'infografica):
- Gemini Ultra: 80,3% (0 scatti, solo pixel)
- GPT-4V: 75,1% (0 scatti, solo pixel)
- MathVista (Ragionamento matematico in contesti visivi):
- Gemini Ultra: 53.0% (0 scatti, solo pixel)
- GPT-4V: 49,9% (0 colpi)
Elaborazione video:
- VATEX (sottotitoli in inglese, punteggio CIDEr):
- Gemini Ultra: 62,7 (4 colpi)
- DeepMind Flamingo: 56,0 (4 colpi)
- Test di percezione MCQA (Video Question Answering):
- Gemini Ultra: 54,7% (0 colpi)
- SeViLA: 46,3% (0 colpi)
Elaborazione audio:
- CoVoST 2 (traduzione vocale automatica, 21 lingue, punteggio BLEU):
- Gemini Pro: 40,1
- Whisper v2: 29.1
- FLEURS (Automatic Speech Recognition, 62 Languages, Word Error Rate):
- Gemini Pro: 7,6% (più basso è meglio)
- Sussurro v3: 17.6%
L'impegno etico di Google
In un post sul blogGoogle ha sottolineato il suo impegno verso pratiche di IA responsabili ed etiche.
Secondo Google, Gemini è stato sottoposto a test più rigorosi rispetto a qualsiasi altra IA di Google, valutando fattori quali la parzialità, la tossicità, le minacce alla sicurezza informatica e il potenziale di abuso. Le tecniche di contraddittorio hanno contribuito a far emergere tempestivamente i problemi. Esperti esterni hanno poi sottoposto i modelli a stress-test e "red-team" per identificare ulteriori punti deboli.
Google afferma che la responsabilità e la sicurezza rimarranno prioritarie in un contesto di rapidi progressi dell'IA. L'azienda ha contribuito a lanciare gruppi di settore per stabilire le migliori pratiche, tra cui MLCommons e il Secure AI Framework (SAIF).
Google si impegna a continuare a collaborare con ricercatori, governi e organizzazioni della società civile a livello globale.
Uscita Gemini Ultra
Per ora, Google limita l'accesso alla sua iterazione più potente, Gemini Ultra, in arrivo all'inizio del prossimo anno.
Prima di ciò, sviluppatori ed esperti selezionati sperimenteranno Ultra per fornire un feedback. Il lancio coinciderà con una nuova piattaforma di modelli AI all'avanguardia, o come Google chiama un'"esperienza", denominata Bard Advanced.
Gemini per gli sviluppatori
A partire dal 13 dicembre, gli sviluppatori e i clienti aziendali potranno accedere a Gemini Pro attraverso l'API Gemini, disponibile in Google AI Studio o Google Cloud Vertex AI.
Google AI Studio: Google AI Studio è uno strumento facile da usare e basato sul web, progettato per aiutare gli sviluppatori a prototipare e lanciare applicazioni utilizzando una chiave API. Questa risorsa gratuita è ideale per chi si trova nelle fasi iniziali dello sviluppo di un'applicazione.
Vertex AI: Piattaforma AI più completa, Vertex AI offre servizi completamente gestiti. Si integra perfettamente con Google Cloud, offrendo anche sicurezza aziendale, privacy e conformità alle normative sulla governance dei dati.
Oltre a queste piattaforme, gli sviluppatori Android potranno accedere a Gemini Nano per le attività sul dispositivo. Sarà disponibile per l'integrazione tramite AICore. Questa nuova funzionalità di sistema debutterà in Android 14, a partire dai dispositivi Pixel 8 Pro.
Google detiene gli assi, per ora
OpenAI e Google si distinguono per un aspetto importante: Google sviluppa internamente una serie di altri strumenti e prodotti, compresi quelli utilizzati da miliardi di persone ogni giorno.
Stiamo ovviamente parlando di Android, Chrome, Gmail, Google Workplace e Google Search.
OpenAI, grazie all'alleanza con Microsoft, ha opportunità simili attraverso Copilot, che però deve ancora decollare.
E se vogliamo essere onesti, probabilmente Google detiene il controllo di queste categorie di prodotti.
Google ha proseguito nella corsa all'intelligenza artificiale, ma si può essere certi che questo non farà altro che alimentare la spinta di OpenAI verso il GPT-5 e l'AGI.