Apple afslører MM1, sin første familie af multimodale LLM'er

18. marts 2024

  • Apples ingeniører har udgivet en forskningsartikel om multimodale store sprogmodeller (MLLM).
  • Artiklen beskriver, hvordan de byggede en familie af MLLM'er med op til 30B parametre kaldet MM1
  • MM1 viser imponerende billedtekster, besvarelse af visuelle spørgsmål, udledning af naturligt sprog

Apple har endnu ikke officielt frigivet en AI-model, men en ny forskningsartikel giver et indblik i virksomhedens fremskridt med at udvikle modeller med avancerede multimodale funktioner.

Avisenmed titlen "MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training", introducerer Apples familie af MLLM'er kaldet MM1.

MM1 viser imponerende evner inden for billedtekstning, visuel spørgsmålssvar (VQA) og udledning af naturligt sprog. Forskerne forklarer, at omhyggelige valg af billedtekstpar gjorde det muligt for dem at opnå overlegne resultater, især i læringsscenarier med få billeder.

Det, der adskiller MM1 fra andre MLLM'er, er dens overlegne evne til at følge instruktioner på tværs af flere billeder og til at ræsonnere over de komplekse scener, den bliver præsenteret for.

MM1-modellerne indeholder op til 30B parametre, hvilket er tre gange så meget som GPT-4V, den komponent, der giver OpenAI's GPT-4 sine synsfunktioner.

Her er nogle eksempler på MM1's VQA-evner.

Test af MM1's evne til at ræsonnere på tværs af billeder og tekster. Kilde: arXiv

MM1 gennemgik en storstilet multimodal pretræning på "et datasæt med 500M sammenflettede billed-tekstdokumenter, der indeholder 1B billeder og 500B teksttokens."

Omfanget og mangfoldigheden af fortræningen gør det muligt for MM1 at udføre imponerende forudsigelser i kontekst og følge brugerdefineret formatering med et lille antal eksempler på få billeder. Her er eksempler på, hvordan MM1 lærer det ønskede output og format ud fra kun 3 eksempler.

MM1 kan tælle objekter, udføre OCR på specifikke områder af et billede, anvende sund fornuft på objekter og udføre grundlæggende matematiske funktioner. Kilde: arXiv

At lave AI-modeller, der kan "se" og ræsonnere, kræver en vision-sprog-forbindelse, der oversætter billeder og sprog til en samlet repræsentation, som modellen kan bruge til videre behandling.

Forskerne fandt ud af, at designet af syns-sprogforbindelsen var en mindre faktor i forhold til MM1's præstation. Interessant nok var det billedopløsningen og antallet af billedtokens, der havde den største indvirkning.

Det er interessant at se, hvor åben Apple har været med hensyn til at dele sin forskning med det bredere AI-samfund. Forskerne siger, at "i denne artikel dokumenterer vi MLLM-byggeprocessen og forsøger at formulere designlektioner, som vi håber kan være til nytte for samfundet."

De offentliggjorte resultater vil sandsynligvis påvirke den retning, som andre MMLM-udviklere tager med hensyn til arkitektur og valg af data til prætræning.

Præcis hvordan MM1-modellerne vil blive implementeret i Apples produkter, er endnu uvist. De offentliggjorte eksempler på MM1's evner antyder, at Siri bliver meget smartere, når hun til sidst lærer at se.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser