Google heeft zijn Gemini-familie van multimodale AI-modellen gelanceerd, een dramatisch spel in een industrie die nog steeds lijdt onder de gebeurtenissen op OpenAI.
Gemini is een multimodale familie van modellen die een mix van tekst, afbeeldingen, audio en video kunnen verwerken en begrijpen.
Sundar Pichai, CEO van Google, en Demis Hassabis, CEO van Google DeepMind, hebben hoge verwachtingen van Gemini. Google is van plan om het te integreren in de uitgebreide producten en diensten van Google, waaronder search, Maps en Chrome.
Met veel plezier kondigen we 𝗚𝗲𝗺𝗶𝗻𝗶 aan: @Googlehet grootste en meest capabele AI-model.
Het is gebouwd om van nature multimodaal te zijn, het kan tekst, code, audio, beeld en video begrijpen en er mee werken - en het bereikt state-of-the-art prestaties in vele taken. 🧵 https://t.co/mwHZTDTBuG pic.twitter.com/zfLlCGuzmV
- Google DeepMind (@GoogleDeepMind) 6 december 2023
Gemini beschikt over uitgebreide multimodaliteit en verwerkt en interageert met tekst, afbeeldingen, video en audio. Terwijl we gewend zijn geraakt aan het verwerken van tekst en afbeeldingen, slaan audio en video nieuwe wegen in en bieden spannende nieuwe manieren om rijke media te verwerken.
Hassabis merkt op: "Deze modellen begrijpen de wereld om hen heen gewoon beter."
Pichai benadrukte de verbondenheid van het model met Google-producten en -services, door te zeggen: "Een van de krachtige dingen van dit moment is dat je kunt werken aan één onderliggende technologie en die beter kunt maken, en het stroomt meteen door onze producten heen."
Tweelingen neemt drie verschillende vormen aan:
- Gemini Nano: Een lichtere versie op maat van Android-toestellen, met offline en native functionaliteiten.
- Gemini Pro: Een geavanceerdere versie, die klaar is om talloze AI-diensten van Google aan te sturen, waaronder Bard.
- Gemini Ultra: De krachtigste iteratie, voornamelijk ontworpen voor datacenters en bedrijfstoepassingen, staat gepland voor release volgend jaar.
Op het gebied van prestaties claimt Google dat Gemini beter presteert dan GPT-4 in 30 van de 32 benchmarks, waarbij het vooral uitblinkt in het begrijpen van en communiceren met video en audio. Deze prestaties worden toegeschreven aan Gemini's ontwerp als een multisensorisch model vanaf het begin.
Bard krijgt zijn grootste upgrade tot nu toe met een specifiek getunede versie van Gemini Pro.
Vanaf vandaag zal het veel beter in staat zijn om dingen te doen zoals:
Begrip
Samenvatten
Redeneren
Codering
PlanningEn meer. ↓ https://t.co/TJR12OioxU
- Google DeepMind (@GoogleDeepMind) 6 december 2023
Daarnaast wilde Google graag de efficiëntie van Gemini benadrukken.
Het is getraind op Google's eigen Tensor Processing Units (TPU's) en is sneller en kosteneffectiever dan voorgaande modellen. Naast Gemini lanceert Google TPU v5p voor datacenters, waarmee de efficiëntie van grootschalige modellen wordt verbeterd.
Is Gemini de moordenaar van ChatGPT?
Google is duidelijk enthousiast over Gemini. Eerder dit jaar werd een 'lek' door Semi Analysis suggereerde dat Gemini de concurrentie uit het water zou kunnen blazen, waardoor Google zou opklimmen van een perifeer lid van de generatieve AI-industrie tot de hoofdrolspeler vóór OpenAI.
Naast de multimodaliteit is Gemini naar verluidt het eerste model dat beter presteert dan menselijke experts in de MMLU-benchmark (massive multitask language understanding), die de kennis van de wereld en het probleemoplossend vermogen test in 57 onderwerpen, zoals wiskunde, natuurkunde, geschiedenis, rechten, geneeskunde en ethiek.
Pichai zegt dat de lancering van Gemini een "nieuw tijdperk" inluidt op het gebied van AI en benadrukt hoe Gemini zal profiteren van de uitgebreide productcatalogus van Google.
Zoekmachine-integratie is vooral interessant omdat Google domineert deze ruimte en heeft de voordelen van de meest uitgebreide zoekindex ter wereld binnen handbereik.
De release van Gemini plaatst Google stevig in de voortdurende AI-race en mensen zullen alles op alles zetten om het te testen tegen GPT-4.
Gemini benchmarktests en analyse
In een blogpostGoogle heeft benchmarkresultaten gepubliceerd die laten zien hoe Gemini Ultra GPT-4 verslaat in de meeste tests. Het beschikt ook over geavanceerde coderingsmogelijkheden, met uitstekende prestaties in coderingsbenchmarks zoals HumanEval en Natural2Code.
Hier zijn de benchmarkgegevens. Houd er rekening mee dat deze metingen gebruik maken van de nog niet uitgebrachte Gemini Ultra-versie. Gemini kan pas volgend jaar als ChatGPT-killer worden beschouwd. En je kunt erop wedden dat OpenAI zo snel mogelijk in actie komt tegen Gemini.
Tekst/NLP-benchmarkprestaties
Algemene kennis:
- MMLU (Massive Multitask Language Understanding):
- Gemini Ultra: 90.0% (Gedachtenketting op 32 voorbeelden)
- GPT-4: 86.4% (5-schots, gerapporteerd)
Redenering:
- Big-Bench Hard (Diverse reeks uitdagende taken die redeneren in meerdere stappen vereisen):
- Gemini Ultra: 83,6% (3-schots)
- GPT-4: 83.1% (3 schoten, API)
- DROP (Begrijpend lezen, F1 Score):
- Gemini Ultra: 82,4 (variabele opnamen)
- GPT-4: 80,9 (3-schots, gerapporteerd)
- HellaSwag (Gezond verstand bij alledaagse taken):
- Gemini Ultra: 87.8% (10-schots)
- GPT-4: 95.3% (10-schots, gerapporteerd)
Wiskunde:
- GSM8K (rekenkundige basisbewerkingen inclusief wiskundeproblemen op de basisschool):
- Gemini Ultra: 94.4% (meerderheid bij 32 voorbeelden)
- GPT-4: 92.0% (5-schots Denkketen, gerapporteerd)
- MATH (Uitdagende wiskundeproblemen zoals algebra, meetkunde, pre-calculus en andere):
- Gemini Ultra: 53.2% (4-schots)
- GPT-4: 52,9% (4-schots, API)
Code:
- HumanEval (Python-code genereren):
- Gemini Ultra: 74,4% (0-schots, interne test)
- GPT-4: 67.0% (0-schots, gerapporteerd)
- Natural2Code (Python code generatie, nieuwe dataset, HumanEval-achtig, niet uitgelekt op het web):
- Gemini Ultra: 74.9% (0-schots)
- GPT-4: 73,9% (0-schots, API)
Multimodale benchmarkprestaties
De multimodale mogelijkheden van Google's Gemini AI-model worden ook vergeleken met OpenAI's GPT-4V.
Beeldbegrip en -verwerking:
- MMMU (Multi-disciplinaire redeneerproblemen op universitair niveau):
- Gemini Ultra: 59.4% (0-shot pass@1, alleen pixels)
- GPT-4V: 56.8% (0-schots pass@1)
- VQAv2 (Natural Image Understanding):
- Gemini Ultra: 77.8% (0-opname, alleen pixels)
- GPT-4V: 77.2% (0-schots)
- TextVQA (OCR op natuurlijke afbeeldingen):
- Gemini Ultra: 82.3% (0-opname, alleen pixels)
- GPT-4V: 78.0% (0-schots)
- DocVQA (Document Understanding):
- Gemini Ultra: 90.9% (0-opname, alleen pixels)
- GPT-4V: 88,4% (0-opname, alleen pixels)
- Infographic VQA (Infographic Understanding):
- Gemini Ultra: 80.3% (0-opname, alleen pixels)
- GPT-4V: 75.1% (0-schot, alleen pixel)
- MathVista (wiskundig redeneren in visuele contexten):
- Gemini Ultra: 53.0% (0-opname, alleen pixel)
- GPT-4V: 49,9% (0-schots)
Video verwerking:
- VATEX (Engelse Video Captioning, CIDEr Score):
- Gemini Ultra: 62,7 (4-schots)
- DeepMind Flamingo: 56,0 (4-schots)
- Waarnemingstest MCQA (Video Question Answering):
- Gemini Ultra: 54.7% (0-schots)
- SeViLA: 46.3% (0-schots)
Audioverwerking:
- CoVoST 2 (Automatische Spraakvertaling, 21 Talen, BLEU Score):
- Gemini Pro: 40,1
- Fluister v2: 29.1
- FLEURS (automatische spraakherkenning, 62 talen, woordfoutpercentage):
- Gemini Pro: 7.6% (lager is beter)
- Fluister v3: 17.6%
Google's ethische toewijding
In een blogpostbenadrukte Google zijn toewijding aan verantwoordelijke en ethische AI-praktijken.
Volgens Google is Gemini strenger getest dan welke eerdere AI van Google dan ook, waarbij factoren zoals vooringenomenheid, toxiciteit, cyberbeveiligingsrisico's en mogelijke misbruiken zijn beoordeeld. Met behulp van contradictoire technieken werden problemen in een vroeg stadium aan het licht gebracht. Externe experts hebben vervolgens de modellen aan stresstests onderworpen en 'red-teams' samengesteld om extra blinde vlekken te identificeren.
Google stelt dat verantwoordelijkheid en veiligheid prioriteiten zullen blijven temidden van de snelle vooruitgang van AI. Het bedrijf heeft geholpen bij het opzetten van industriegroepen om best practices vast te stellen, waaronder MLCommons en het Secure AI Framework (SAIF).
Google belooft wereldwijd te blijven samenwerken met onderzoekers, overheden en maatschappelijke organisaties.
Gemini Ultra release
Voorlopig beperkt Google de toegang tot zijn krachtigste model, Gemini Ultra, dat begin volgend jaar verschijnt.
Voorafgaand zullen geselecteerde ontwikkelaars en experts met Ultra experimenteren om feedback te geven. De lancering zal samenvallen met een nieuw geavanceerd AI-modelplatform, of zoals Google een 'ervaring' noemt, genaamd Bard Advanced.
Gemini voor ontwikkelaars
Vanaf 13 december krijgen ontwikkelaars en zakelijke klanten toegang tot Gemini Pro via de Gemini API, beschikbaar in Google AI Studio of Google Cloud Vertex AI.
Google AI Studio: Google AI Studio is een gebruiksvriendelijke, webgebaseerde tool die is ontworpen om ontwikkelaars te helpen bij het prototypen en lanceren van toepassingen met behulp van een API-sleutel. Dit gratis hulpmiddel is ideaal voor mensen die zich in de beginfase van app-ontwikkeling bevinden.
Vertex AI: Vertex AI is een uitgebreider AI-platform en biedt volledig beheerde services. Het integreert naadloos met Google Cloud en biedt ook bedrijfsbeveiliging, privacy en naleving van regelgeving voor gegevensbeheer.
Naast deze platformen krijgen Android-ontwikkelaars toegang tot Gemini Nano voor on-device taken. Het zal beschikbaar zijn voor integratie via AICore. Deze nieuwe systeemmogelijkheid zal debuteren in Android 14, te beginnen met Pixel 8 Pro-apparaten.
Google heeft voorlopig de touwtjes in handen
OpenAI en Google verschillen in één groot opzicht: Google ontwikkelt intern stapels andere tools en producten, waaronder de tools die dagelijks door miljarden mensen worden gebruikt.
We hebben het natuurlijk over Android, Chrome, Gmail, Google Workplace en Google Search.
OpenAI, via zijn alliantie met Microsoft, heeft vergelijkbare mogelijkheden via Copilot, maar dat moet nog echt van de grond komen.
En als we eerlijk zijn, heeft Google waarschijnlijk de overhand in deze productcategorieën.
Google is doorgegaan in de AI-race, maar je kunt er zeker van zijn dat dit OpenAI alleen maar zal aanwakkeren in de richting van GPT-5 en AGI.