Apple onthult MM1, zijn eerste serie multimodale LLM's

18 maart 2024

  • Technici van Apple hebben een onderzoek gepubliceerd over Multimodal Large Language Models (MLLM's)
  • Het artikel beschrijft hoe ze een familie van MLLM's met maximaal 30B parameters, MM1 genaamd, hebben gebouwd.
  • MM1 displays indrukwekkende beeldondertiteling, beantwoorden van visuele vragen, natuurlijke taalconclusie

Apple moet nog officieel een AI-model uitbrengen, maar een nieuw onderzoeksartikel geeft inzicht in de voortgang van het bedrijf bij de ontwikkeling van modellen met geavanceerde multimodale mogelijkheden.

Het papiergetiteld "MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training", introduceert Apple's familie van MLLM's genaamd MM1.

MM1 laat indrukwekkende vaardigheden zien op het gebied van beeldondertiteling, het beantwoorden van visuele vragen (VQA) en het interpreteren van natuurlijke taal. De onderzoekers leggen uit dat ze dankzij de zorgvuldige keuze van beeld-hoofdonderschriftparen superieure resultaten hebben behaald, vooral in leerscenario's met weinig beelden.

Wat MM1 onderscheidt van andere MLLM's is zijn superieure vermogen om instructies op te volgen in meerdere beelden en om te redeneren over de complexe scènes die het voorgeschoteld krijgt.

De MM1-modellen bevatten tot 30B parameters, wat drie keer zoveel is als GPT-4V, de component die OpenAI's GPT-4 zijn vision-mogelijkheden geeft.

Hier zijn enkele voorbeelden van de VQA-mogelijkheden van MM1.

Testen van het vermogen van MM1 om te redeneren over afbeeldingen en teksten. Bron: arXiv

MM1 onderging grootschalige multimodale pre-training op "een dataset van 500M interleaved beeld-tekst documenten, met 1B afbeeldingen en 500B tekst tokens".

De schaal en diversiteit van de voortraining stellen MM1 in staat om indrukwekkende voorspellingen te doen in de context en aangepaste opmaak te volgen met een klein aantal voorbeelden. Hier zijn voorbeelden van hoe MM1 de gewenste uitvoer en opmaak leert op basis van slechts 3 voorbeelden.

MM1 kan objecten tellen, OCR uitvoeren op specifieke gebieden van een afbeelding, gezond verstand toepassen op objecten en elementaire wiskundige functies uitvoeren. Bron: arXiv

Om AI-modellen te maken die kunnen "zien" en redeneren is een vision-language connector nodig die beelden en taal vertaalt in een eenduidige representatie die het model kan gebruiken voor verdere verwerking.

De onderzoekers ontdekten dat het ontwerp van de vision-taalverbinding minder bepalend was voor de prestaties van MM1. Interessant genoeg hadden de beeldresolutie en het aantal beeldpunten de grootste invloed.

Het is interessant om te zien hoe open Apple is geweest in het delen van zijn onderzoek met de bredere AI-gemeenschap. De onderzoekers stellen dat "we in dit artikel het bouwproces van MLLM documenteren en proberen ontwerplessen te formuleren, waarvan we hopen dat ze nuttig zijn voor de gemeenschap."

De gepubliceerde resultaten zullen waarschijnlijk van invloed zijn op de richting die andere MMLM-ontwikkelaars inslaan met betrekking tot de architectuur en de keuze van pre-traininggegevens.

Hoe MM1-modellen precies zullen worden geïmplementeerd in de producten van Apple valt nog te bezien. De gepubliceerde voorbeelden van de mogelijkheden van MM1 wijzen erop dat Siri een stuk slimmer wordt als ze uiteindelijk leert zien.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Eugene van der Watt

Eugene heeft een achtergrond in elektrotechniek en houdt van alles wat met techniek te maken heeft. Als hij even pauzeert van het consumeren van AI-nieuws, kun je hem aan de snookertafel vinden.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden