Google har lanserat sin Gemini-familj av multimodala AI-modeller, en dramatisk satsning i en bransch som fortfarande skakas av händelserna på OpenAI.
Gemini är en multimodal familj av modeller som kan bearbeta och förstå en blandning av text, bilder, ljud och video.
Sundar Pichai, Googles VD, och Demis Hassabis, VD för Google DeepMind, uttrycker höga förväntningar på Gemini. Google planerar att integrera det i Googles omfattande produkter och tjänster, inklusive sök, Maps och Chrome.
Vi är glada över att kunna meddela 𝗚𝗲𝗺𝗶𝗻𝗶: @Googlevärldens största och mest kapabla AI-modell.
Den är byggd för att vara multimodal och kan förstå och arbeta med text, kod, ljud, bild och video - och uppnår topprestanda för många uppgifter. 🧵 https://t.co/mwHZTDTBuG pic.twitter.com/zfLlCGuzmV
- Google DeepMind (@GoogleDeepMind) 6 december 2023
Gemini har omfattande multimodalitet och kan bearbeta och interagera med text, bilder, video och ljud. Medan vi har vant oss vid text- och bildbehandling bryter ljud och video ny mark och erbjuder spännande nya sätt att hantera rich media.
Hassabis konstaterar: "De här modellerna förstår helt enkelt mer om sin omvärld."
Pichai betonade modellens koppling till Googles produkter och tjänster och sa: "En av de kraftfulla sakerna med det här ögonblicket är att du kan arbeta på en underliggande teknik och göra den bättre och det flyter omedelbart över våra produkter."
Gemini kommer att ta tre olika former, de är:
- Gemini Nano: En lättare version skräddarsydd för Android-enheter, som möjliggör offline- och native-funktioner.
- Gemini Pro: En mer avancerad version som ska driva många av Googles AI-tjänster, bland annat Bard.
- Gemini Ultra: Den mest kraftfulla iterationen, som främst är utformad för datacenter och företagsapplikationer, planeras att lanseras nästa år.
När det gäller prestanda hävdar Google att Gemini överträffar GPT-4 i 30 av 32 benchmarks och utmärker sig särskilt när det gäller att förstå och interagera med video och ljud. Denna prestanda tillskrivs Geminis design som en multisensorisk modell från början.
Bard får sin största uppgradering hittills med en särskilt anpassad version av Gemini Pro.
Från och med idag kommer den att vara mycket mer kapabel till saker som:
🔘 Förståelse
🔘 Sammanfattande
🔘 Resonemang
🔘 Kodning
🔘 PlaneringOch mer därtill. ↓ https://t.co/TJR12OioxU
- Google DeepMind (@GoogleDeepMind) 6 december 2023
Dessutom var Google angelägna om att lyfta fram Geminis effektivitet.
Den är tränad på Googles egna TPU:er (Tensor Processing Units) och är snabbare och mer kostnadseffektiv än tidigare modeller. Parallellt med Gemini lanserar Google TPU v5p för datacenter, vilket förbättrar effektiviteten i att köra storskaliga modeller.
Är Gemini ChatGPT-dödaren?
Google är tydligt hausse om Gemini. Tidigare under året, en "läckage" genom semianalys föreslog att Gemini skulle kunna blåsa konkurrenterna ur vattnet och se Google stiga från en perifer medlem av den generativa AI-industrin till huvudpersonen före OpenAI.
Förutom sin multimodalitet påstås Gemini vara den första modellen som överträffar mänskliga experter på MMLU (massive multitask language understanding), ett benchmark som testar världskunskap och problemlösningsförmåga inom 57 ämnen som matematik, fysik, historia, juridik, medicin och etik.
Pichai säger att lanseringen av Gemini förebådar en "ny era" inom AI och betonar hur Gemini kommer att dra nytta av Googles omfattande produktkatalog.
Integrering av sökmotorer är särskilt intressant, eftersom Google dominerar detta område och har fördelarna med världens mest omfattande sökindex till hands.
Lanseringen av Gemini placerar Google i det pågående AI-racet, och folk kommer att vara helt ute efter att testa det mot GPT-4.
Tester och analyser av Gemini benchmarks
I en BlogginläggGoogle publicerade benchmarkresultat som visar hur Gemini Ultra slår GPT-4 i de flesta tester. Den har också avancerade kodningsfunktioner, med enastående prestanda i kodningsbenchmarks som HumanEval och Natural2Code.
Här är jämförelsedata. Var medveten om att dessa åtgärder använder den outgivna Gemini Ultra-versionen. Gemini kan inte betraktas som en ChatGPT-dödare förrän nästa år. Och du kan satsa på att OpenAI flyttar för att motverka Gemini ASAP.
Text/NLP jämförelseprestanda
Allmän kunskap:
- MMLU (Massive Multitask Language Understanding):
- Gemini Ultra: 90.0% (Tankekedja med 32 exempel)
- GPT-4: 86,4% (5-skott, rapporterat)
Motivering:
- Big-Bench Hard (Olika typer av utmanande uppgifter som kräver resonemang i flera steg):
- Gemini Ultra: 83,6% (3 skott)
- GPT-4: 83,1% (3-skott, API)
- DROP (läsförståelse, F1-poäng):
- Gemini Ultra: 82,4 (variabla skott)
- GPT-4: 80,9 (3-skott, rapporterat)
- HellaSwag (Sunda resonemang för vardagliga uppgifter):
- Gemini Ultra: 87,8% (10-skott)
- GPT-4: 95,3% (10 skott, rapporterade)
Matte:
- GSM8K (grundläggande aritmetiska manipulationer inklusive matematiska problem i grundskolan):
- Gemini Ultra: 94,4% (majoritet vid 32 exempel)
- GPT-4: 92.0% (5-skott Chain of Thought, rapporterad)
- MATH (Utmanande matematiska problem, inklusive algebra, geometri, prekalkylering m.m.):
- Gemini Ultra: 53.2% (4 skott)
- GPT-4: 52,9% (4 skott, API)
Kod:
- HumanEval (generering av Python-kod):
- Gemini Ultra: 74,4% (0-skott, internt test)
- GPT-4: 67,0% (0-skott, rapporterat)
- Natural2Code (generering av Python-kod, nytt dataset, HumanEval-liknande, inte läckt ut på webben):
- Gemini Ultra: 74,9% (0-skott)
- GPT-4: 73,9% (0-skott, API)
Multimodal referensprestanda
De multimodala funktionerna i Googles Gemini AI-modell jämförs också med OpenAI:s GPT-4V.
Förståelse och bearbetning av bilder:
- MMMU (Multi-discipline College-level Reasoning Problems):
- Gemini Ultra: 59,4% (0-skott pass@1, endast pixel)
- GPT-4V: 56,8% (0-skott pass@1)
- VQAv2 (naturlig bildförståelse):
- Gemini Ultra: 77,8% (0-skott, endast pixel)
- GPT-4V: 77,2% (0-skott)
- TextVQA (OCR på naturliga bilder):
- Gemini Ultra: 82,3% (0-skott, endast pixel)
- GPT-4V: 78.0% (0-skott)
- DocVQA (Dokumentförståelse):
- Gemini Ultra: 90,9% (0-shot, endast pixel)
- GPT-4V: 88,4% (0-shot, endast pixel)
- Infographic VQA (Infographic Understanding):
- Gemini Ultra: 80.3% (0-skott, endast pixel)
- GPT-4V: 75.1% (0-shot, endast pixel)
- MathVista (Matematiska resonemang i visuella sammanhang):
- Gemini Ultra: 53.0% (0-skott, endast pixel)
- GPT-4V: 49,9% (0-skott)
Videobearbetning:
- VATEX (engelsk videoundertextning, CIDEr Score):
- Gemini Ultra: 62,7 (4 skott)
- DeepMind Flamingo: 56,0 (4 skott)
- Perceptionstest MCQA (Video Question Answering):
- Gemini Ultra: 54,7% (0-skott)
- SeViLA: 46,3% (0-skott)
Ljudbehandling:
- CoVoST 2 (automatisk talöversättning, 21 språk, BLEU-poäng):
- Gemini Pro: 40,1
- Whisper v2: 29,1
- FLEURS (automatisk taligenkänning, 62 språk, ordfelsprocent):
- Gemini Pro: 7,6% (lägre är bättre)
- Whisper v3: 17,6%
Googles etiska åtagande
I en Blogginläggunderströk Google sitt engagemang för ansvarsfulla och etiska AI-metoder.
Enligt Google genomgick Gemini mer rigorösa tester än någon tidigare Google AI, och bedömde faktorer som partiskhet, toxicitet, cybersäkerhetshot och potential för missbruk. Adversariala tekniker hjälpte till att upptäcka problem tidigt. Externa experter stresstestade och "red-teamade" sedan modellerna för att identifiera ytterligare blinda fläckar.
Google säger att ansvar och säkerhet kommer att förbli prioriterade områden i den snabba utvecklingen inom AI. Företaget hjälpte till att starta branschgrupper för att fastställa bästa praxis, bland annat MLCommons och Secure AI Framework (SAIF).
Google lovar fortsatt samarbete med forskare, myndigheter och organisationer i det civila samhället över hela världen.
Gemini Ultra-utgåva
För närvarande begränsar Google tillgången till den mest kraftfulla modellversionen, Gemini Ultra, som kommer i början av nästa år.
Innan dess kommer utvalda utvecklare och experter att experimentera med Ultra för att ge feedback. Lanseringen kommer att sammanfalla med en ny banbrytande AI-modellplattform, eller som Google kallar en "upplevelse", som heter Bard Advanced.
Gemini för utvecklare
Från och med den 13 december får utvecklare och företagskunder tillgång till Gemini Pro via Gemini API, som finns tillgängligt i Google AI Studio eller Google Cloud Vertex AI.
Google AI Studio: Google AI Studio är ett användarvänligt, webbaserat verktyg som är utformat för att hjälpa utvecklare att ta fram prototyper och lansera applikationer med hjälp av en API-nyckel. Den här kostnadsfria resursen är idealisk för dem som befinner sig i de inledande stadierna av apputvecklingen.
Vertex AI: Vertex AI är en mer omfattande AI-plattform och erbjuder helt hanterade tjänster. Den integreras sömlöst med Google Cloud och erbjuder även företagssäkerhet, integritet och efterlevnad av datastyrningsregler.
Utöver dessa plattformar kommer Android-utvecklare att kunna få tillgång till Gemini Nano för uppgifter på enheten. Den kommer att vara tillgänglig för integration via AICore. Den här nya systemkapaciteten kommer att debutera i Android 14, med början i Pixel 8 Pro-enheter.
Google har esset i rockärmen, än så länge
OpenAI och Google skiljer sig åt på ett viktigt sätt: Google utvecklar en mängd andra verktyg och produkter internt, inklusive de som används av miljarder människor varje dag.
Vi talar naturligtvis om Android, Chrome, Gmail, Google Workplace och Google Search.
OpenAI, genom sin allians med Microsoft, har liknande möjligheter genom Copilot, men det har ännu inte riktigt tagit fart.
Och om vi ska vara ärliga så är det nog Google som styr i alla dessa produktkategorier.
Google har tryckt på i AI-racet, men du kan vara säker på att detta bara kommer att driva OpenAIs drivkraft mot GPT-5 och AGI.