Google lanserer sin banebrytende Gemini-familie av multimodale modeller

6. desember 2023

Google Med-PaLM 2

Google har lansert sin Gemini-familie av multimodale AI-modeller, et dramatisk trekk i en bransje som fortsatt er rystet etter hendelsene på OpenAI.

Gemini er en multimodal familie av modeller som kan behandle og forstå en blanding av tekst, bilder, lyd og video.

Sundar Pichai, Googles administrerende direktør, og Demis Hassabis, administrerende direktør for Google DeepMind, uttrykker store forventninger til Gemini. Google planlegger å integrere det på tvers av Googles omfattende produkter og tjenester, inkludert søk, Maps og Chrome.

Gemini kan skilte med omfattende multimodalitet, og kan behandle og samhandle med tekst, bilder, video og lyd. Vi har blitt vant til å behandle tekst og bilder, men lyd og video bryter ny mark og tilbyr spennende nye måter å håndtere rike medier på.

Hassabis bemerker: "Disse modellene forstår på en måte verden rundt seg bedre."

Pichai la vekt på modellens sammenheng med Googles produkter og tjenester, og sa: "Noe av det som gjør dette øyeblikket så kraftfullt, er at du kan jobbe med én underliggende teknologi og gjøre den bedre, og det flyter umiddelbart på tvers av produktene våre."

Gemini vil ta tre forskjellige former, de er:

  • Gemini Nano: En lettere versjon skreddersydd for Android-enheter, med offline- og native-funksjoner.
  • Gemini Pro: En mer avansert versjon, som skal drive en rekke Google AI-tjenester, inkludert Bard.
  • Gemini Ultra: Den kraftigste iterasjonen, som først og fremst er utviklet for datasentre og bedriftsapplikasjoner, skal etter planen lanseres neste år.

Når det gjelder ytelse, hevder Google at Gemini overgår GPT-4 i 30 av 32 benchmarks, og at den utmerker seg spesielt når det gjelder å forstå og samhandle med video og lyd. Denne ytelsen tilskrives Geminis design som en multisensorisk modell fra starten av.


I tillegg var Google opptatt av å fremheve Geminis effektivitet.

Den er trent på Googles egne Tensor Processing Units (TPU-er), og er raskere og mer kostnadseffektiv enn tidligere modeller. I tillegg til Gemini lanserer Google TPU v5p for datasentre, noe som forbedrer effektiviteten ved kjøring av modeller i stor skala.

Er Gemini ChatGPT-dreperen?

Google er tydeligvis optimistisk når det gjelder Gemini. Tidligere i år ble en "lekkasje" av Semi Analysis antydet at Gemini kunne blåse konkurrentene ut av vannet, og at Google kunne gå fra å være et perifert medlem av den generative AI-industrien til å bli hovedpersonen foran OpenAI.

I tillegg til multimodaliteten er Gemini angivelig den første modellen som har prestert bedre enn menneskelige eksperter på MMLU-referansen (massive multitask language understanding), som tester verdenskunnskap og problemløsningsevner på tvers av 57 fagområder, som matematikk, fysikk, historie, juss, medisin og etikk.

 

Pichai sier at lanseringen av Gemini innvarsler en "ny æra" innen AI, og understreker hvordan Gemini vil dra nytte av Googles omfattende produktkatalog.

Integrering av søkemotorer er spesielt interessant, ettersom Google dominerer dette området og har fordelene med verdens mest omfattende søkeindeks til fingerspissene.

Utgivelsen av Gemini plasserer Google i det pågående AI-kappløpet, og folk vil være helt ute etter å teste den mot GPT-4.

Tester og analyser av Gemini-benchmarks

I en blogginnleggI forbindelse med lanseringen av Gemini Ultra, publiserte Google referanseresultater som viser hvordan Gemini Ultra slår GPT-4 i de fleste tester. Den kan også skilte med avanserte kodingsegenskaper, med fremragende ytelse i kodingsbenchmarks som HumanEval og Natural2Code.

 

Her er referansedataene. Vær oppmerksom på at disse tiltakene bruker den uutgitte Gemini Ultra-versjonen. Gemini kan ikke betraktes som en ChatGPT-killer før neste år. Og du kan satse på at OpenAI beveger seg for å motvirke Gemini ASAP.

Referanseytelse for tekst/NLP

Generell kunnskap:

  • MMLU (Massive Multitask Language Understanding):
    • Gemini Ultra: 90.0% (Tankekjede ved 32 eksempler)
    • GPT-4: 86,4% (5 skudd, rapportert)

Begrunnelse:

  • Big-Bench Hard (et variert sett med utfordrende oppgaver som krever resonnering i flere trinn):
    • Gemini Ultra: 83,6% (3 skudd)
    • GPT-4: 83.1% (3-skudd, API)
  • DROP (leseforståelse, F1-poengsum):
    • Gemini Ultra: 82,4 (variable skudd)
    • GPT-4: 80,9 (3 skudd, rapportert)
  • HellaSwag (Commonsense reasoning for everyday tasks):
    • Gemini Ultra: 87,8% (10 skudd)
    • GPT-4: 95,3% (10 skudd, rapportert)

Matematikk:

  • GSM8K (Grunnleggende aritmetiske manipulasjoner, inkludert matematikkoppgaver for grunnskolen):
    • Gemini Ultra: 94,4% (flertallet ved 32 eksempler)
    • GPT-4: 92.0% (tankekjede med 5 skudd, rapportert)
  • MATH (Utfordrende matteoppgaver, inkludert algebra, geometri, prekalkulus og annet):
    • Gemini Ultra: 53.2% (4 skudd)
    • GPT-4: 52.9% (4 skudd, API)

Kode:

  • HumanEval (generering av Python-kode):
    • Gemini Ultra: 74,4% (0-skudd, intern test)
    • GPT-4: 67,0% (0-skudd, rapportert)
  • Natural2Code (generering av Python-kode, nytt datasett, HumanEval-lignende, ikke lekket på nettet):
    • Gemini Ultra: 74,9% (0-skudd)
    • GPT-4: 73,9% (0-skudd, API)

Multimodal referanseytelse

De multimodale egenskapene til Googles Gemini AI-modell sammenlignes også med OpenAIs GPT-4V.

Bildeforståelse og bildebehandling:

  • MMMU (Multi-discipline College-level Reasoning Problems):
    • Gemini Ultra: 59,4% (0-skudd pass@1, kun piksler)
    • GPT-4V: 56,8% (0-skudd pass@1)
  • VQAv2 (naturlig bildeforståelse):
    • Gemini Ultra: 77,8% (0-skudd, kun piksler)
    • GPT-4V: 77,2% (0-skudd)
  • TextVQA (OCR på naturlige bilder):
    • Gemini Ultra: 82,3% (0-skudd, kun piksler)
    • GPT-4V: 78.0% (0-skudd)
  • DocVQA (dokumentforståelse):
    • Gemini Ultra: 90.9% (0-skudd, kun piksler)
    • GPT-4V: 88,4% (0-skudd, kun piksler)
  • Infographic VQA (Infographic Understanding):
    • Gemini Ultra: 80.3% (0-skudd, kun piksler)
    • GPT-4V: 75.1% (0-skudd, kun piksler)
  • MathVista (Matematisk resonnering i visuelle kontekster):
    • Gemini Ultra: 53.0% (0-skudd, kun piksler)
    • GPT-4V: 49,9% (0-skudd)

Videobehandling:

  • VATEX (engelsk videoteksting, CIDEr Score):
    • Gemini Ultra: 62,7 (4 skudd)
    • DeepMind Flamingo: 56,0 (4-skudd)
  • Persepsjonstest MCQA (besvarelse av videospørsmål):
    • Gemini Ultra: 54,7% (0-skudd)
    • SeViLA: 46,3% (0-skudd)

Lydbehandling:

  • CoVoST 2 (automatisk taleoversettelse, 21 språk, BLEU-score):
    • Gemini Pro: 40,1
    • Whisper v2: 29.1
  • FLEURS (automatisk talegjenkjenning, 62 språk, ordfeilrate):
    • Gemini Pro: 7,6% (lavere er bedre)
    • Whisper v3: 17.6%

Googles etiske forpliktelse

I en blogginnleggunderstreket Google sin forpliktelse til ansvarlig og etisk AI-praksis.

Ifølge Google gjennomgikk Gemini grundigere tester enn noen tidligere Google AI, og vurderte faktorer som skjevhet, toksisitet, cybersikkerhetstrusler og potensial for misbruk. Motstridende teknikker bidro til å avdekke problemer tidlig. Eksterne eksperter stresstestet og "red-teamet" deretter modellene for å identifisere flere blinde flekker.

Google uttaler at ansvar og sikkerhet fortsatt vil være prioritert i den raske utviklingen innen kunstig intelligens. Selskapet har vært med på å starte bransjegrupper for å etablere beste praksis, blant annet MLCommons og Secure AI Framework (SAIF).

Google lover fortsatt samarbeid med forskere, myndigheter og sivilsamfunnsorganisasjoner over hele verden.

Gemini Ultra-utgivelse

Foreløpig begrenser Google tilgangen til sin kraftigste modell-iterasjon, Gemini Ultra, som kommer tidlig neste år.

Før det vil utvalgte utviklere og eksperter eksperimentere med Ultra for å gi tilbakemeldinger. Lanseringen vil sammenfalle med en ny banebrytende AI-modellplattform, eller som Google kaller en "opplevelse", kalt Bard Advanced.

Gemini for utviklere

Fra og med 13. desember vil utviklere og bedriftskunder få tilgang til Gemini Pro gjennom Gemini API, som er tilgjengelig i Google AI Studio eller Google Cloud Vertex AI.

Google AI Studio: Google AI Studio er et brukervennlig, nettbasert verktøy som hjelper utviklere med å lage prototyper og lansere applikasjoner ved hjelp av en API-nøkkel. Denne gratisressursen er ideell for dem som er i startfasen av apputviklingen.

Vertex AI: Vertex AI er en mer omfattende AI-plattform som tilbyr fullstendig administrerte tjenester. Den integreres sømløst med Google Cloud, og tilbyr også bedriftssikkerhet, personvern og samsvar med forskrifter for datastyring.

I tillegg til disse plattformene vil Android-utviklere kunne få tilgang til Gemini Nano for oppgaver på enheten. Den vil være tilgjengelig for integrering via AICore. Denne nye systemfunksjonen vil debutere i Android 14, og starter med Pixel 8 Pro-enheter.

Google har essene, enn så lenge

OpenAI og Google skiller seg fra hverandre på én viktig måte: Google utvikler en rekke andre verktøy og produkter internt, inkludert de som brukes av milliarder av mennesker hver dag.

Vi snakker selvfølgelig om Android, Chrome, Gmail, Google Workplace og Google Søk.

OpenAI har gjennom sin allianse med Microsoft lignende muligheter gjennom Copilot, men det har ennå ikke tatt av for alvor.

Og hvis vi skal være ærlige, er det nok Google som har makten i alle disse produktkategoriene.

Google har presset på i AI-kappløpet, men du kan være sikker på at dette bare vil øke OpenAIs drivkraft mot GPT-5 og AGI.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Sam Jeans

Sam er en vitenskaps- og teknologiskribent som har jobbet i ulike oppstartsbedrifter innen kunstig intelligens. Når han ikke skriver, leser han medisinske tidsskrifter eller graver seg gjennom esker med vinylplater.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser