Google frigiver sin banebrydende Gemini-familie af multimodale modeller

Google har lanceret sin Gemini-familie af multimodale AI-modeller, et dramatisk tiltag i en branche, der stadig er påvirket af begivenhederne på OpenAI.

Gemini er en multimodal familie af modeller, der er i stand til at behandle og forstå en blanding af tekst, billeder, lyd og video.

Sundar Pichai, Googles CEO, og Demis Hassabis, CEO for Google DeepMind, udtrykker store forventninger til Gemini. Google planlægger at integrere det på tværs af Googles omfattende produkter og tjenester, herunder søgning, Maps og Chrome.

Vi er glade for at kunne annoncere 𝗚𝗲𝗺𝗶𝗻𝗶: @Google's største og mest kompetente AI-model.

Den er bygget til at være indbygget multimodal og kan forstå og arbejde på tværs af tekst, kode, lyd, billede og video - og opnår state-of-the-art performance på tværs af mange opgaver. 🧵 https://t.co/mwHZTDTBuG pic.twitter.com/zfLlCGuzmV

- Google DeepMind (@GoogleDeepMind) 6. december 2023

Gemini har omfattende multimodalitet og behandler og interagerer med tekst, billeder, video og lyd. Mens vi har vænnet os til tekst- og billedbehandling, er lyd og video banebrydende og tilbyder spændende nye måder at håndtere rich media på.

Hassabis bemærker: "Disse modeller forstår på en måde bedre verden omkring dem."

Pichai understregede modellens sammenhæng med Googles produkter og tjenester og sagde: "En af de stærke ting ved dette øjeblik er, at du kan arbejde på en underliggende teknologi og gøre den bedre, og det flyder straks på tværs af vores produkter."

Gemini vil tage tre forskellige former, de er:

Gemini Nano: En lettere version, der er skræddersyet til Android-enheder, og som giver mulighed for offline- og native-funktioner.
Gemini Pro: En mere avanceret version, som skal drive mange af Googles AI-tjenester, herunder Bard.
Gemini Ultra: Den mest kraftfulde iteration, der primært er designet til datacentre og virksomhedsapplikationer, er planlagt til udgivelse næste år.

Med hensyn til ydeevne hævder Google, at Gemini overgår GPT-4 i 30 ud af 32 benchmarks, og at den især udmærker sig ved at forstå og interagere med video og lyd. Denne præstation tilskrives Geminis design som en multisensorisk model fra starten.

Bard får sin hidtil største opgradering med en specifikt tunet version af Gemini Pro.

Fra i dag vil den være langt bedre til ting som f.eks:
🔘 Forståelse
🔘 Opsummering
🔘 Ræsonnement
🔘 Kodning
🔘 Planlægning

Og meget mere. ↓ https://t.co/TJR12OioxU

- Google DeepMind (@GoogleDeepMind) 6. december 2023

Derudover var Google ivrig efter at fremhæve Geminis effektivitet.

Den er trænet på Googles egne Tensor Processing Units (TPU'er) og er hurtigere og mere omkostningseffektiv end tidligere modeller. Sammen med Gemini lancerer Google TPU v5p til datacentre, hvilket forbedrer effektiviteten af at køre modeller i stor skala.

Er Gemini ChatGPT-dræberen?

Google er tydeligvis positivt indstillet over for Gemini. Tidligere på året blev en 'lækage' af Semi Analysis foreslog, at Gemini kunne blæse konkurrenterne omkuld og få Google til at stige fra et perifert medlem af den generative AI-industri til hovedpersonen foran OpenAI.

Ud over sin multimodalitet er Gemini angiveligt den første model, der har klaret sig bedre end menneskelige eksperter i MMLU-benchmarket (massive multitask language understanding), som tester viden om verden og problemløsningsevner på tværs af 57 emner, f.eks. matematik, fysik, historie, jura, medicin og etik.

Pichai siger, at lanceringen af Gemini indvarsler en "ny æra" inden for AI og understreger, hvordan Gemini vil drage fordel af Googles omfattende produktkatalog.

Integration af søgemaskiner er særlig interessant, da Google dominerer dette område og har fordelene ved verdens mest omfattende søgeindeks lige ved hånden.

Udgivelsen af Gemini placerer Google solidt i det igangværende AI-kapløb, og folk vil gøre alt for at teste den mod GPT-4.

Gemini-benchmark-test og -analyse

I en blogindlæghar Google offentliggjort benchmarkresultater, der viser, hvordan Gemini Ultra slår GPT-4 i de fleste tests. Den har også avancerede kodningsfunktioner med fremragende resultater i kodningsbenchmarks som HumanEval og Natural2Code.

Her er benchmark-dataene. Vær opmærksom på, at disse målinger bruger den uudgivne Gemini Ultra-version. Gemini kan ikke betragtes som en ChatGPT-dræber før næste år. Og du kan være sikker på, at OpenAI vil forsøge at modvirke Gemini så hurtigt som muligt.

Tekst/NLP-benchmark-resultater

Generel viden:

MMLU (Massive Multitask Language Understanding):
- Gemini Ultra: 90.0% (Tankekæde ved 32 eksempler)
- GPT-4: 86,4% (5-skud, rapporteret)

Ræsonnement:

Big-Bench Hard (Forskellige sæt af udfordrende opgaver, der kræver ræsonnement i flere trin):
- Gemini Ultra: 83,6% (3-skud)
- GPT-4: 83.1% (3-skud, API)
DROP (læseforståelse, F1-score):
- Gemini Ultra: 82,4 (variable skud)
- GPT-4: 80,9 (3-skud, rapporteret)
HellaSwag (fornuftige ræsonnementer til hverdagsopgaver):
- Gemini Ultra: 87.8% (10 skud)
- GPT-4: 95.3% (10-skud, rapporteret)

Matematik:

GSM8K (Grundlæggende aritmetiske manipulationer, herunder matematiske problemer i grundskolen):
- Gemini Ultra: 94.4% (flertallet ved 32 eksempler)
- GPT-4: 92.0% (5-skudt tankekæde, rapporteret)
MATH (Udfordrende matematikopgaver, herunder algebra, geometri, pre-calculus og andre):
- Gemini Ultra: 53.2% (4 skud)
- GPT-4: 52.9% (4-skud, API)

Kode:

HumanEval (generering af Python-kode):
- Gemini Ultra: 74,4% (0-skud, intern test)
- GPT-4: 67.0% (0-skud, rapporteret)
Natural2Code (Python-kodegenerering, nyt tilbageholdt datasæt, HumanEval-lignende, ikke lækket på nettet):
- Gemini Ultra: 74.9% (0-skud)
- GPT-4: 73,9% (0-skud, API)

Multimodal benchmark-ydelse

De multimodale evner i Googles Gemini AI-model sammenlignes også med OpenAI's GPT-4V.

Billedforståelse og -behandling:

MMMU (Multi-discipline College-level Reasoning Problems):
- Gemini Ultra: 59.4% (0-shot pass@1, kun pixel)
- GPT-4V: 56.8% (0-shot pass@1)
VQAv2 (naturlig billedforståelse):
- Gemini Ultra: 77.8% (0-skud, kun pixel)
- GPT-4V: 77.2% (0-skud)
TextVQA (OCR på naturlige billeder):
- Gemini Ultra: 82.3% (0-skud, kun pixel)
- GPT-4V: 78.0% (0-skud)
DocVQA (dokumentforståelse):
- Gemini Ultra: 90.9% (0-shot, kun pixel)
- GPT-4V: 88.4% (0-shot, kun pixel)
Infografisk VQA (Infografisk forståelse):
- Gemini Ultra: 80.3% (0-skud, kun pixel)
- GPT-4V: 75.1% (0-shot, kun pixel)
MathVista (Matematisk ræsonnement i visuelle kontekster):
- Gemini Ultra: 53.0% (0-shot, kun pixel)
- GPT-4V: 49.9% (0-skud)

Videobehandling:

VATEX (engelsk videotekst, CIDEr-score):
- Gemini Ultra: 62,7 (4 skud)
- DeepMind Flamingo: 56,0 (4-shot)
Perceptionstest MCQA (besvarelse af videospørgsmål):
- Gemini Ultra: 54.7% (0-skud)
- SeViLA: 46.3% (0-skud)

Lydbehandling:

CoVoST 2 (automatisk taleoversættelse, 21 sprog, BLEU-score):
- Gemini Pro: 40,1
- Whisper v2: 29.1
FLEURS (Automatisk talegenkendelse, 62 sprog, ordfejlrate):
- Gemini Pro: 7,6% (lavere er bedre)
- Whisper v3: 17.6%

Googles etiske engagement

I en blogindlægunderstregede Google sit engagement i ansvarlig og etisk AI-praksis.

Ifølge Google gennemgik Gemini strengere test end nogen tidligere Google AI og vurderede faktorer som bias, toksicitet, cybersikkerhedstrusler og potentiale for misbrug. Modsatrettede teknikker hjalp med at afsløre problemer tidligt. Eksterne eksperter stresstestede og "red-teamede" derefter modeller for at identificere yderligere blinde punkter.

Google siger, at ansvar og sikkerhed fortsat vil være en prioritet midt i den hurtige udvikling af kunstig intelligens. Virksomheden var med til at starte branchegrupper for at etablere bedste praksis, herunder MLCommons og Secure AI Framework (SAIF).

Google lover fortsat samarbejde med forskere, regeringer og civilsamfundsorganisationer globalt.

Gemini Ultra-udgivelse

Indtil videre begrænser Google adgangen til den mest kraftfulde model, Gemini Ultra, som kommer i begyndelsen af næste år.

Inden da vil udvalgte udviklere og eksperter eksperimentere med Ultra for at give feedback. Lanceringen vil falde sammen med en ny banebrydende AI-modelplatform, eller som Google kalder en 'oplevelse', ved navn Bard Advanced.

Gemini for udviklere

Fra den 13. december får udviklere og virksomhedskunder adgang til Gemini Pro via Gemini API, som er tilgængelig i Google AI Studio eller Google Cloud Vertex AI.

Google AI Studio: Google AI Studio er et brugervenligt, webbaseret værktøj, der er designet til at hjælpe udviklere med at lave prototyper og lancere applikationer ved hjælp af en API-nøgle. Denne gratis ressource er ideel til dem, der befinder sig i de indledende faser af app-udvikling.

Vertex AI: Vertex AI er en mere omfattende AI-platform og tilbyder fuldt administrerede tjenester. Den integreres problemfrit med Google Cloud og tilbyder også virksomhedssikkerhed, beskyttelse af personlige oplysninger og overholdelse af regler for datastyring.

Ud over disse platforme vil Android-udviklere kunne få adgang til Gemini Nano til opgaver på enheden. Den vil være tilgængelig for integration via AICore. Denne nye systemfunktion vil få sin debut i Android 14, begyndende med Pixel 8 Pro-enheder.

Google har esserne, indtil videre

OpenAI og Google er forskellige på én stor måde: Google udvikler stakkevis af andre værktøjer og produkter internt, herunder dem, der bruges af milliarder af mennesker hver dag.

Vi taler selvfølgelig om Android, Chrome, Gmail, Google Workplace og Google Search.

OpenAI har gennem sin alliance med Microsoft lignende muligheder gennem Copilot, men det er endnu ikke rigtig kommet i gang.

Og hvis vi skal være ærlige, er det nok Google, der har magten på tværs af disse produktkategorier.

Google har presset på i AI-kapløbet, men du kan være sikker på, at dette kun vil sætte skub i OpenAI's kampagne mod GPT-5 og AGI.

Google frigiver sin banebrydende Gemini-familie af multimodale modeller

Er Gemini ChatGPT-dræberen?

Gemini-benchmark-test og -analyse

Tekst/NLP-benchmark-resultater

Multimodal benchmark-ydelse

Googles etiske engagement

Gemini Ultra-udgivelse

Gemini for udviklere

Google har esserne, indtil videre

Deltag i fremtiden

Sam Jeans

RELATEREDE ARTIKLER

Googles Frontier Safety Framework mindsker "alvorlige" AI-risici

LLM-sikkerhedsforanstaltninger er nemme at omgå, viser britisk regeringsundersøgelse

Interview med Chris Benjaminsen: Chris Benjaminsen, medstifter og direktør for kanaler hos FRVR

Interview: Tanisha Katara - Blockchain- og Web3-strateg

Google frigiver sin banebrydende Gemini-familie af multimodale modeller

Er Gemini ChatGPT-dræberen?

Gemini-benchmark-test og -analyse

Tekst/NLP-benchmark-resultater

Multimodal benchmark-ydelse

Googles etiske engagement

Gemini Ultra-udgivelse

Gemini for udviklere

Google har esserne, indtil videre

Deltag i fremtiden

Sam Jeans

RELATEREDE ARTIKLER

Googles Frontier Safety Framework mindsker "alvorlige" AI-risici

LLM-sikkerhedsforanstaltninger er nemme at omgå, viser britisk regeringsundersøgelse

Interview med Chris Benjaminsen: Chris Benjaminsen, medstifter og direktør for kanaler hos FRVR

Interview: Tanisha Katara - Blockchain- og Web3-strateg

GRATIS PDF EKSKLUSIVTVær på forkant med DailyAI

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI