Google frigiver sin banebrydende Gemini-familie af multimodale modeller

6. december 2023

Google Med-PaLM 2

Google har lanceret sin Gemini-familie af multimodale AI-modeller, et dramatisk tiltag i en branche, der stadig er påvirket af begivenhederne på OpenAI.

Gemini er en multimodal familie af modeller, der er i stand til at behandle og forstå en blanding af tekst, billeder, lyd og video.

Sundar Pichai, Googles CEO, og Demis Hassabis, CEO for Google DeepMind, udtrykker store forventninger til Gemini. Google planlægger at integrere det på tværs af Googles omfattende produkter og tjenester, herunder søgning, Maps og Chrome.

Gemini har omfattende multimodalitet og behandler og interagerer med tekst, billeder, video og lyd. Mens vi har vænnet os til tekst- og billedbehandling, er lyd og video banebrydende og tilbyder spændende nye måder at håndtere rich media på.

Hassabis bemærker: "Disse modeller forstår på en måde bedre verden omkring dem."

Pichai understregede modellens sammenhæng med Googles produkter og tjenester og sagde: "En af de stærke ting ved dette øjeblik er, at du kan arbejde på en underliggende teknologi og gøre den bedre, og det flyder straks på tværs af vores produkter."

Gemini vil tage tre forskellige former, de er:

  • Gemini Nano: En lettere version, der er skræddersyet til Android-enheder, og som giver mulighed for offline- og native-funktioner.
  • Gemini Pro: En mere avanceret version, som skal drive mange af Googles AI-tjenester, herunder Bard.
  • Gemini Ultra: Den mest kraftfulde iteration, der primært er designet til datacentre og virksomhedsapplikationer, er planlagt til udgivelse næste år.

Med hensyn til ydeevne hævder Google, at Gemini overgår GPT-4 i 30 ud af 32 benchmarks, og at den især udmærker sig ved at forstå og interagere med video og lyd. Denne præstation tilskrives Geminis design som en multisensorisk model fra starten.


Derudover var Google ivrig efter at fremhæve Geminis effektivitet.

Den er trænet på Googles egne Tensor Processing Units (TPU'er) og er hurtigere og mere omkostningseffektiv end tidligere modeller. Sammen med Gemini lancerer Google TPU v5p til datacentre, hvilket forbedrer effektiviteten af at køre modeller i stor skala.

Er Gemini ChatGPT-dræberen?

Google er tydeligvis positivt indstillet over for Gemini. Tidligere på året blev en 'lækage' af Semi Analysis foreslog, at Gemini kunne blæse konkurrenterne omkuld og få Google til at stige fra et perifert medlem af den generative AI-industri til hovedpersonen foran OpenAI.

Ud over sin multimodalitet er Gemini angiveligt den første model, der har klaret sig bedre end menneskelige eksperter i MMLU-benchmarket (massive multitask language understanding), som tester viden om verden og problemløsningsevner på tværs af 57 emner, f.eks. matematik, fysik, historie, jura, medicin og etik.

 

Pichai siger, at lanceringen af Gemini indvarsler en "ny æra" inden for AI og understreger, hvordan Gemini vil drage fordel af Googles omfattende produktkatalog.

Integration af søgemaskiner er særlig interessant, da Google dominerer dette område og har fordelene ved verdens mest omfattende søgeindeks lige ved hånden.

Udgivelsen af Gemini placerer Google solidt i det igangværende AI-kapløb, og folk vil gøre alt for at teste den mod GPT-4.

Gemini-benchmark-test og -analyse

I en blogindlæghar Google offentliggjort benchmarkresultater, der viser, hvordan Gemini Ultra slår GPT-4 i de fleste tests. Den har også avancerede kodningsfunktioner med fremragende resultater i kodningsbenchmarks som HumanEval og Natural2Code.

 

Her er benchmark-dataene. Vær opmærksom på, at disse målinger bruger den uudgivne Gemini Ultra-version. Gemini kan ikke betragtes som en ChatGPT-dræber før næste år. Og du kan være sikker på, at OpenAI vil forsøge at modvirke Gemini så hurtigt som muligt.

Tekst/NLP-benchmark-resultater

Generel viden:

  • MMLU (Massive Multitask Language Understanding):
    • Gemini Ultra: 90.0% (Tankekæde ved 32 eksempler)
    • GPT-4: 86,4% (5-skud, rapporteret)

Ræsonnement:

  • Big-Bench Hard (Forskellige sæt af udfordrende opgaver, der kræver ræsonnement i flere trin):
    • Gemini Ultra: 83,6% (3-skud)
    • GPT-4: 83.1% (3-skud, API)
  • DROP (læseforståelse, F1-score):
    • Gemini Ultra: 82,4 (variable skud)
    • GPT-4: 80,9 (3-skud, rapporteret)
  • HellaSwag (fornuftige ræsonnementer til hverdagsopgaver):
    • Gemini Ultra: 87.8% (10 skud)
    • GPT-4: 95.3% (10-skud, rapporteret)

Matematik:

  • GSM8K (Grundlæggende aritmetiske manipulationer, herunder matematiske problemer i grundskolen):
    • Gemini Ultra: 94.4% (flertallet ved 32 eksempler)
    • GPT-4: 92.0% (5-skudt tankekæde, rapporteret)
  • MATH (Udfordrende matematikopgaver, herunder algebra, geometri, pre-calculus og andre):
    • Gemini Ultra: 53.2% (4 skud)
    • GPT-4: 52.9% (4-skud, API)

Kode:

  • HumanEval (generering af Python-kode):
    • Gemini Ultra: 74,4% (0-skud, intern test)
    • GPT-4: 67.0% (0-skud, rapporteret)
  • Natural2Code (Python-kodegenerering, nyt tilbageholdt datasæt, HumanEval-lignende, ikke lækket på nettet):
    • Gemini Ultra: 74.9% (0-skud)
    • GPT-4: 73,9% (0-skud, API)

Multimodal benchmark-ydelse

De multimodale evner i Googles Gemini AI-model sammenlignes også med OpenAI's GPT-4V.

Billedforståelse og -behandling:

  • MMMU (Multi-discipline College-level Reasoning Problems):
    • Gemini Ultra: 59.4% (0-shot pass@1, kun pixel)
    • GPT-4V: 56.8% (0-shot pass@1)
  • VQAv2 (naturlig billedforståelse):
    • Gemini Ultra: 77.8% (0-skud, kun pixel)
    • GPT-4V: 77.2% (0-skud)
  • TextVQA (OCR på naturlige billeder):
    • Gemini Ultra: 82.3% (0-skud, kun pixel)
    • GPT-4V: 78.0% (0-skud)
  • DocVQA (dokumentforståelse):
    • Gemini Ultra: 90.9% (0-shot, kun pixel)
    • GPT-4V: 88.4% (0-shot, kun pixel)
  • Infografisk VQA (Infografisk forståelse):
    • Gemini Ultra: 80.3% (0-skud, kun pixel)
    • GPT-4V: 75.1% (0-shot, kun pixel)
  • MathVista (Matematisk ræsonnement i visuelle kontekster):
    • Gemini Ultra: 53.0% (0-shot, kun pixel)
    • GPT-4V: 49.9% (0-skud)

Videobehandling:

  • VATEX (engelsk videotekst, CIDEr-score):
    • Gemini Ultra: 62,7 (4 skud)
    • DeepMind Flamingo: 56,0 (4-shot)
  • Perceptionstest MCQA (besvarelse af videospørgsmål):
    • Gemini Ultra: 54.7% (0-skud)
    • SeViLA: 46.3% (0-skud)

Lydbehandling:

  • CoVoST 2 (automatisk taleoversættelse, 21 sprog, BLEU-score):
    • Gemini Pro: 40,1
    • Whisper v2: 29.1
  • FLEURS (Automatisk talegenkendelse, 62 sprog, ordfejlrate):
    • Gemini Pro: 7,6% (lavere er bedre)
    • Whisper v3: 17.6%

Googles etiske engagement

I en blogindlægunderstregede Google sit engagement i ansvarlig og etisk AI-praksis.

Ifølge Google gennemgik Gemini strengere test end nogen tidligere Google AI og vurderede faktorer som bias, toksicitet, cybersikkerhedstrusler og potentiale for misbrug. Modsatrettede teknikker hjalp med at afsløre problemer tidligt. Eksterne eksperter stresstestede og "red-teamede" derefter modeller for at identificere yderligere blinde punkter.

Google siger, at ansvar og sikkerhed fortsat vil være en prioritet midt i den hurtige udvikling af kunstig intelligens. Virksomheden var med til at starte branchegrupper for at etablere bedste praksis, herunder MLCommons og Secure AI Framework (SAIF).

Google lover fortsat samarbejde med forskere, regeringer og civilsamfundsorganisationer globalt.

Gemini Ultra-udgivelse

Indtil videre begrænser Google adgangen til den mest kraftfulde model, Gemini Ultra, som kommer i begyndelsen af næste år.

Inden da vil udvalgte udviklere og eksperter eksperimentere med Ultra for at give feedback. Lanceringen vil falde sammen med en ny banebrydende AI-modelplatform, eller som Google kalder en 'oplevelse', ved navn Bard Advanced.

Gemini for udviklere

Fra den 13. december får udviklere og virksomhedskunder adgang til Gemini Pro via Gemini API, som er tilgængelig i Google AI Studio eller Google Cloud Vertex AI.

Google AI Studio: Google AI Studio er et brugervenligt, webbaseret værktøj, der er designet til at hjælpe udviklere med at lave prototyper og lancere applikationer ved hjælp af en API-nøgle. Denne gratis ressource er ideel til dem, der befinder sig i de indledende faser af app-udvikling.

Vertex AI: Vertex AI er en mere omfattende AI-platform og tilbyder fuldt administrerede tjenester. Den integreres problemfrit med Google Cloud og tilbyder også virksomhedssikkerhed, beskyttelse af personlige oplysninger og overholdelse af regler for datastyring.

Ud over disse platforme vil Android-udviklere kunne få adgang til Gemini Nano til opgaver på enheden. Den vil være tilgængelig for integration via AICore. Denne nye systemfunktion vil få sin debut i Android 14, begyndende med Pixel 8 Pro-enheder.

Google har esserne, indtil videre

OpenAI og Google er forskellige på én stor måde: Google udvikler stakkevis af andre værktøjer og produkter internt, herunder dem, der bruges af milliarder af mennesker hver dag.

Vi taler selvfølgelig om Android, Chrome, Gmail, Google Workplace og Google Search.

OpenAI har gennem sin alliance med Microsoft lignende muligheder gennem Copilot, men det er endnu ikke rigtig kommet i gang.

Og hvis vi skal være ærlige, er det nok Google, der har magten på tværs af disse produktkategorier.

Google har presset på i AI-kapløbet, men du kan være sikker på, at dette kun vil sætte skub i OpenAI's kampagne mod GPT-5 og AGI.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Sam Jeans

Sam er videnskabs- og teknologiforfatter og har arbejdet i forskellige AI-startups. Når han ikke skriver, kan han finde på at læse medicinske tidsskrifter eller grave i kasser med vinylplader.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser