Apple lanserer MM1, sin første familie av multimodale LLM-er

18. mars 2024

  • Apples ingeniører har publisert en forskningsrapport om multimodale store språkmodeller (MLLM)
  • Artikkelen beskriver hvordan de bygget en familie av MLLM-er med opptil 30B parametere, kalt MM1
  • MM1 viser imponerende bildeteksting, visuell spørsmålssvar, naturlig språkinferens

Apple har ennå ikke offisielt lansert en AI-modell, men en ny forskningsrapport gir et innblikk i selskapets fremgang i utviklingen av modeller med toppmoderne multimodale evner.

AvisenDen har tittelen "MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training", introduserer Apples familie av MLLM-er kalt MM1.

MM1 viser imponerende evner innen bildeteksting, visuell spørsmålssvargivning (VQA) og naturlig språkinferens. Forskerne forklarer at nøye valg av bilde-tekstpar gjorde det mulig for dem å oppnå overlegne resultater, spesielt i læringsscenarier med få bilder.

Det som skiller MM1 fra andre MLLM-er, er dens overlegne evne til å følge instruksjoner på tvers av flere bilder og til å resonnere rundt de komplekse scenene den blir presentert for.

MM1-modellene inneholder opptil 30B parametere, noe som er tre ganger så mye som GPT-4V, komponenten som gir OpenAIs GPT-4 sine synsfunksjoner.

Her er noen eksempler på MM1s VQA-evner.

Tester MM1s evne til å resonnere på tvers av bilder og tekster. Kilde: arXiv

MM1 gjennomgikk en storstilt multimodal pretraining på "et datasett med 500 millioner sammenflettede bilde-tekstdokumenter, som inneholder 1B bilder og 500B teksttokens".

Omfanget og mangfoldet i pretreningen gjør det mulig for MM1 å utføre imponerende prediksjoner i kontekst og følge tilpasset formatering med et lite antall eksempler med få bilder. Her er eksempler på hvordan MM1 lærer seg ønsket resultat og format fra bare tre eksempler.

MM1 kan telle objekter, utføre OCR på bestemte områder av et bilde, bruke sunn fornuft på objekter og utføre grunnleggende matematiske funksjoner. Kilde: arXiv

For å lage AI-modeller som kan "se" og resonnere, kreves det en syn-språk-kobling som oversetter bilder og språk til en enhetlig representasjon som modellen kan bruke til videre behandling.

Forskerne fant ut at utformingen av syn-språk-koblingen var en mindre viktig faktor for MM1s ytelse. Interessant nok var det bildeoppløsningen og antallet bildetokener som hadde størst innvirkning.

Det er interessant å se hvor åpne Apple har vært når det gjelder å dele forskningen sin med det bredere AI-fellesskapet. Forskerne skriver at "i denne artikkelen dokumenterer vi prosessen med å bygge MLLM og forsøker å formulere designleksjoner som vi håper kan være til nytte for samfunnet."

De publiserte resultatene vil sannsynligvis være retningsgivende for andre MMLM-utviklere når det gjelder valg av arkitektur og data for forhåndstrening.

Nøyaktig hvordan MM1-modeller vil bli implementert i Apples produkter gjenstår å se. De publiserte eksemplene på MM1s evner antyder at Siri vil bli mye smartere når hun etter hvert lærer seg å se.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Eugene van der Watt

Eugene har bakgrunn som elektroingeniør og elsker alt som har med teknologi å gjøre. Når han tar en pause fra AI-nyhetene, finner du ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser