Apples ReALM "sieht" Bildschirmanzeigen besser als GPT-4

3. April 2024

  • Apple-Ingenieure haben ein System entwickelt, das nuancierte Konversationen und Bildschirmelemente versteht
  • ReALM kodiert Bildschirmelemente in Klartext, der von einem Sprachmodell verarbeitet werden kann
  • ReALM ist bei der Referenzauflösung besser als größere multimodale LLMs wie GPT-4

Apple-Ingenieure haben ein KI-System entwickelt, das komplexe Verweise auf Bildschirmelemente und Benutzergespräche auflöst. Das leichtgewichtige Modell könnte eine ideale Lösung für virtuelle Assistenten auf Geräten sein.

Menschen sind gut darin, Bezüge in Gesprächen untereinander aufzulösen. Wenn wir Begriffe wie "der untere" oder "er" verwenden, verstehen wir, worauf sich die Person bezieht, basierend auf dem Kontext des Gesprächs und den Dingen, die wir sehen können.

Für ein KI-Modell ist das viel schwieriger. Multimodale LLMs wie GPT-4 sind gut bei der Beantwortung von Fragen zu Bildern, aber sie sind teuer zu trainieren und erfordern eine Menge Rechenaufwand, um jede Anfrage zu einem Bild zu verarbeiten.

Die Apple-Ingenieure verfolgten mit ihrem System, das sie ReALM (Reference Resolution As Language Modeling) nannten, einen anderen Ansatz. Das Papier ist es wert, gelesen zu werden, um mehr über den Entwicklungs- und Testprozess zu erfahren.

ReALM verwendet ein LLM zur Verarbeitung von Konversations-, Bildschirm- und Hintergrundinformationen (Alarme, Hintergrundmusik), die die Interaktion eines Benutzers mit einem virtuellen KI-Agenten ausmachen.

Hier ein Beispiel für die Art der Interaktion, die ein Nutzer mit einem KI-Agenten haben könnte.

Beispiele für die Interaktionen eines Benutzers mit einem virtuellen Assistenten. Quelle: arXiv

Der Agent muss Konversationseinheiten verstehen, wie z. B. die Tatsache, dass sich der Benutzer, wenn er "die" sagt, auf die Telefonnummer der Apotheke bezieht.

Es muss auch den visuellen Kontext verstehen, wenn der Benutzer "das untere" sagt, und hier unterscheidet sich der Ansatz von ReALM von Modellen wie GPT-4.

ReALM stützt sich auf vorgelagerte Encoder, die zunächst die Bildschirmelemente und deren Positionen analysieren. Anschließend rekonstruiert ReALM den Bildschirm in rein textuellen Darstellungen von links nach rechts und von oben nach unten.

Vereinfacht ausgedrückt, verwendet es natürliche Sprache, um den Bildschirm des Benutzers zusammenzufassen.

Wenn nun ein Benutzer eine Frage zu etwas auf dem Bildschirm stellt, verarbeitet das Sprachmodell die Textbeschreibung des Bildschirms, anstatt ein Bildmodell zur Verarbeitung des Bildes auf dem Bildschirm zu verwenden.

Die Forscher erstellten synthetische Datensätze von Gesprächs-, Bildschirm- und Hintergrundentitäten und testeten ReALM und andere Modelle, um ihre Effektivität bei der Auflösung von Referenzen in Gesprächssystemen zu prüfen.

Die kleinere Version von ReALM (80M Parameter) schneidet vergleichbar mit GPT-4 ab und die größere Version (3B Parameter) übertrifft GPT-4 deutlich.

ReALM ist im Vergleich zum GPT-4 ein winziges Modell. Seine überlegene Referenzauflösung macht ihn zur idealen Wahl für einen virtuellen Assistenten, der ohne Leistungseinbußen auf dem Gerät betrieben werden kann.

ReALM funktioniert nicht so gut bei komplexeren Bildern oder nuancierten Benutzeranfragen, aber es könnte gut als virtueller Assistent im Auto oder auf dem Gerät funktionieren. Stellen Sie sich vor, Siri könnte Ihren iPhone-Bildschirm "sehen" und auf Verweise auf Bildschirmelemente reagieren.

Apple ist ein wenig langsam aus den Startlöchern gekommen, aber die jüngsten Entwicklungen wie die Modell MM1 und ReALM zeigen, dass sich vieles hinter verschlossenen Türen abspielt.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen