Google lancia il guanto di sfida con Gemini, il suo nuovo modello linguistico di grandi dimensioni (LLM).
Sviluppato principalmente da Google DeepMind, il progetto Gemini segna un'imminente resa dei conti con ChatGPT di OpenAI.
Le informazioni ha riferito che Google ha concesso l'accesso anticipato a Gemini a un gruppo selezionato di sviluppatori, il che implica l'imminente rilascio di una versione beta.
Poiché Google unisce le sue ingenti risorse ai laboratori di ricerca Brain e DeepMind, il potenziale impatto di Gemini sul settore dell'IA potrebbe essere enorme.
Mentre OpenAI ha fatto irruzione sulla scena dell'AI e si è impadronito del controllo degli utenti pubblici con ChatGPT, Google è sostenuta da decenni di ricerca sull'IA e possiede notevoli set di dati proprietari.
Il CEO di Google Sundar Pichai ha presentato Gemini durante la conferenza degli sviluppatori Google I/O nel maggio 2023. Ha dichiarato che Gemini è stato progettato "da zero per essere multimodale", combinando i punti di forza del sistema AlphaGo di DeepMind con potenti capacità di modellazione linguistica.
Demis Hassabis, CEO di DeepMind, ha aggiunto un ulteriore contesto, affermando che Gemini non è un singolo modello, ma piuttosto una "serie di modelli" e che probabilmente lavorerà con testo, immagini e forse anche con parlato e audio.
Questo è simile alla direzione di Google Bard, che incorpora la funzionalità di immagine per gentile concessione di Google Lens.
Secondo Pichai, i miglioramenti futuri potrebbero includere funzioni come "la memoria e la pianificazione che potrebbero consentire di svolgere attività che richiedono un ragionamento".
Jeffrey Dean, Chief Scientist di Google, ha rivelato che Gemini utilizzerà la nuova infrastruttura di IA di Google, Pathways, per scalare l'addestramento su diversi set di dati.
Dean ha accennato al fatto che il sistema potrebbe potenzialmente superare le dimensioni del GPT-3 di OpenAI, che contiene oltre 175 miliardi di parametri, ma questo significherebbe che Gemini rimane una generazione indietro rispetto al GPT-4.
Tuttavia, il numero di parametri non è tutto, e Gemini potrebbe distinguersi dagli altri LLM in altri modi.
Per esempio, oltre a lavorare con più tipi di dati, Hassabis ha indicato che Gemini può effettuare una convalida incrociata delle informazioni con Google Search.
Reazione del settore
Hassabis ha rivelato che Gemini sta mostrando "risultati iniziali molto promettenti" in una conferenza di settembre. intervista al Time.
Un rapporto di Semi-analisi afferma che Gemini supera i 430 miliardi di parametri, un numero significativamente più alto rispetto alla stima di 200 miliardi di GPT-3. Il numero di parametri di GPT-4 è sconosciuto, anche se secondo alcune analisi si aggirerebbe intorno ai mille miliardi.
Il post di Semi Analysis sostiene inoltre che Gemini "distruggerà" i flop di pre-addestramento del GPT-4 di 5 volte, e prevede di batterlo di 20 volte. Anche se si tratta di ipotesi, ciò significa che Gemini è computazionalmente molto più potente del GPT-4.
Nel post si legge: "Se Google abbia il coraggio di rendere pubblici questi modelli senza indebolire la sua creatività o il suo modello di business esistente è un altro discorso".
Come ha detto Sundar Pichai, nel giro di pochi anni i chatbot di oggi "sembreranno banali" al confronto.
Tuttavia, non si sa se Gemini riuscirà a mettere in crisi il dominio della GPT-4.