Apple enthüllt MM1, seine erste Familie multimodaler LLMs

März 18, 2024

  • Apple-Ingenieure veröffentlichten ein Forschungspapier über multimodale große Sprachmodelle (MLLMs)
  • Das Papier beschreibt, wie sie eine Familie von MLLMs mit bis zu 30B Parametern namens MM1
  • MM1 zeigt eindrucksvolle Bildbeschriftungen, Beantwortung visueller Fragen, natürlichsprachliche Inferenz

Apple hat noch kein offizielles KI-Modell veröffentlicht, aber ein neues Forschungspapier gibt einen Einblick in die Fortschritte des Unternehmens bei der Entwicklung von Modellen mit modernen multimodalen Fähigkeiten.

Das Papiermit dem Titel "MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training" (Methoden, Analysen und Erkenntnisse aus der multimodalen LLM-Vorschulung) wird die MLLM-Familie von Apple mit der Bezeichnung MM1 vorgestellt.

MM1 zeigt beeindruckende Fähigkeiten bei der Erfassung von Bildunterschriften, der Beantwortung visueller Fragen (VQA) und der Inferenz natürlicher Sprache. Die Forscher erklären, dass sie durch die sorgfältige Auswahl von Bild-Beschriftungspaaren hervorragende Ergebnisse erzielen konnten, insbesondere in Lernszenarien mit wenigen Aufnahmen.

Was das MM1 von anderen MLLMs unterscheidet, ist seine überragende Fähigkeit, Anweisungen über mehrere Bilder hinweg zu befolgen und die komplexen Szenen, die ihm vorgelegt werden, zu verstehen.

Die MM1-Modelle enthalten bis zu 30B Parameter, das ist dreimal so viel wie beim GPT-4V, der Komponente, die dem GPT-4 von OpenAI seine Vision-Fähigkeiten verleiht.

Hier sind einige Beispiele für die VQA-Fähigkeiten des MM1.

Test der Fähigkeit von MM1, über Bilder und Texte hinweg zu denken. Quelle: arXiv

MM1 wurde einem umfangreichen multimodalen Vortraining mit "einem Datensatz von 500M verschachtelten Bild-Text-Dokumenten, die 1B Bilder und 500B Text-Token enthalten" unterzogen.

Dank des Umfangs und der Vielfalt seines Vortrainings ist MM1 in der Lage, beeindruckende kontextbezogene Vorhersagen zu treffen und benutzerdefinierte Formatierungen mit einer kleinen Anzahl von Beispielen mit wenigen Aufnahmen zu befolgen. Hier sind Beispiele dafür, wie MM1 die gewünschte Ausgabe und das Format aus nur 3 Beispielen erlernt.

MM1 kann Objekte zählen, OCR für bestimmte Bereiche eines Bildes durchführen, den gesunden Menschenverstand auf Objekte anwenden und grundlegende mathematische Funktionen ausführen. Quelle: arXiv

Die Entwicklung von KI-Modellen, die "sehen" und denken können, erfordert eine Verbindung zwischen Bild und Sprache, die Bilder und Sprache in eine einheitliche Darstellung übersetzt, die das Modell für die weitere Verarbeitung nutzen kann.

Die Forscher fanden heraus, dass das Design des Bild-Sprache-Verbinders weniger ein Faktor für die Leistung von MM1 war. Interessanterweise waren es die Bildauflösung und die Anzahl der Bildtoken, die den größten Einfluss hatten.

Es ist interessant zu sehen, wie offen Apple seine Forschungsergebnisse mit der breiteren KI-Gemeinschaft teilt. Die Forscher erklären: "In diesem Papier dokumentieren wir den MLLM-Bauprozess und versuchen, Design-Lektionen zu formulieren, von denen wir hoffen, dass sie für die Gemeinschaft nützlich sind.

Die veröffentlichten Ergebnisse werden wahrscheinlich die Richtung vorgeben, die andere MMLM-Entwickler in Bezug auf die Architektur und die Auswahl der Pre-Training-Daten einschlagen.

Wie genau die MM1-Modelle in die Produkte von Apple implementiert werden, bleibt abzuwarten. Die veröffentlichten Beispiele für die Fähigkeiten von MM1 deuten darauf hin, dass Siri sehr viel intelligenter wird, wenn sie schließlich lernt, zu sehen.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen