Apple visar upp MM1, sin första familj av multimodala LLM:er

18 mars 2024

  • Apples ingenjörer publicerade en forskningsrapport om multimodala stora språkmodeller (MLLM)
  • I artikeln beskrivs hur de byggde en familj av MLLM med upp till 30B parametrar som kallas MM1
  • MM1 visar imponerande bildtexter, visuella svar på frågor, inferens på naturligt språk

Apple har ännu inte officiellt lanserat någon AI-modell, men ett nytt forskningsdokument ger en inblick i företagets framsteg när det gäller att utveckla modeller med avancerade multimodala funktioner.

Tidningenmed titeln "MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training", introducerar Apples familj av MLLMs som kallas MM1.

MM1 uppvisar imponerande förmågor inom bildtextning, visuellt frågesvar (VQA) och inferens av naturligt språk. Forskarna förklarar att noggranna val av bildtextpar gjorde det möjligt för dem att uppnå överlägsna resultat, särskilt i inlärningsscenarier med få bilder.

Det som skiljer MM1 från andra MLLM är dess överlägsna förmåga att följa instruktioner över flera bilder och att resonera kring de komplexa scener som den presenteras för.

MM1-modellerna innehåller upp till 30B parametrar, vilket är tre gånger så mycket som GPT-4V, den komponent som ger OpenAI:s GPT-4 dess visionskapacitet.

Här är några exempel på MM1:s VQA-förmåga.

Test av MM1:s förmåga att resonera över bilder och texter. Källa: arXiv

MM1 genomgick storskalig multimodal förträning på "en dataset med 500M sammanflätade bild-textdokument, som innehåller 1B bilder och 500B texttokens".

Omfattningen och mångfalden av dess förträning gör att MM1 kan utföra imponerande förutsägelser i kontext och följa anpassad formatering med ett litet antal exempel med få bilder. Här är exempel på hur MM1 lär sig önskad utdata och format från bara 3 exempel.

MM1 kan räkna föremål, utföra OCR på specifika områden i en bild, använda sunt förnuft för att resonera kring föremål och utföra grundläggande matematiska funktioner. Källa: arXiv

För att skapa AI-modeller som kan "se" och resonera krävs en "vision-language connector" som översätter bilder och språk till en enhetlig representation som modellen kan använda för vidare bearbetning.

Forskarna fann att utformningen av vision-language-kontakten hade mindre betydelse för MM1:s prestanda. Intressant nog var det bildupplösningen och antalet bildtokens som hade störst inverkan.

Det är intressant att se hur öppna Apple har varit när det gäller att dela med sig av sin forskning till det bredare AI-samhället. Forskarna säger att "i det här dokumentet dokumenterar vi MLLM-byggnadsprocessen och försöker formulera designlektioner som vi hoppas kan vara till nytta för samhället."

De publicerade resultaten kommer sannolikt att påverka vilken riktning andra MMLM-utvecklare tar när det gäller arkitektur och val av data för förträning.

Exakt hur MM1-modellerna kommer att implementeras i Apples produkter återstår att se. De publicerade exemplen på MM1:s kapacitet antyder att Siri kommer att bli mycket smartare när hon så småningom lär sig att se.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar