KI-Modellleistung: Ist es logisch denkend oder einfach nur rezitierend?

Juli 14, 2024

  • MIT-Forscher testeten, ob sich KI-Modelle bei der Ausführung von Aufgaben auf den Verstand oder die Erinnerung verlassen
  • Bei leicht veränderten Aufgaben schnitten die LLMs schlechter ab als bei Standardaufgaben
  • LLMs sind gut darin, sich an Trainingsdaten zu erinnern, aber nicht in der Lage, bei neuen Aufgaben verallgemeinert zu denken

Wenn ChatGPT Ihnen die richtige Antwort auf Ihre Frage gibt, denkt es dann über die Anfrage nach oder erinnert es sich einfach an die Antwort aus seinen Trainingsdaten?

Forscher des Computer Science and Artificial Intelligence Laboratory (CSAIL) des MIT haben eine Reihe von Tests entwickelt, um herauszufinden, ob KI-Modelle "denken" oder nur ein gutes Gedächtnis haben.

Wenn Sie ein KI-Modell auffordern, ein mathematisches Problem zu lösen, wie z. B. "Was ist 27+62?", kommt es schnell mit der richtigen Antwort zurück: 89. Wie können wir feststellen, ob es die zugrundeliegende Arithmetik versteht oder das Problem nur in seinen Trainingsdaten gesehen hat?

Unter ihr PapierDie Forscher testeten GPT-4, GPT-3.5 Turbo, Claude 1.3 und PaLM2, um zu sehen, ob sie "nicht nur auf unbekannte Instanzen bekannter Aufgaben, sondern auch auf neue Aufgaben verallgemeinern können."

Sie entwarfen eine Reihe von 11 Aufgaben, die sich leicht von den Standardaufgaben unterschieden, bei denen die LLM im Allgemeinen gut abschneiden.

Die LLMs sollten bei den "kontrafaktischen Aufgaben" gleich gut abschneiden, wenn sie allgemeine und übertragbare Aufgabenlösungsverfahren anwenden.

Wenn ein LLM Mathematik "versteht", dann sollte es die korrekte Antwort auf ein mathematisches Problem zur Basis 10 und der selten verwendeten Basis 9 geben, zum Beispiel.

Hier sehen Sie Beispiele für die Aufgaben und die Leistung des GPT-4.

Die Leistung des GPT-4 bei Standardaufgaben (blau) und leicht veränderten kontrafaktischen Aufgaben (orange). Beispiele für die Aufgaben und die richtigen Antworten sind hier zu sehen. Quelle: arXiv

Die Leistung des GPT-4 in Standardtests (blaue Linie) ist gut, aber seine Fähigkeiten in Mathematik, logischem Denken, räumlichem Denken und anderen Bereichen (orangefarbene Linie) verschlechtern sich erheblich, wenn die Aufgabe leicht verändert wird.

Die anderen Modelle zeigten eine ähnliche Verschlechterung, wobei GPT-4 am besten abschnitt.

Trotz dieser Verschlechterung war die Leistung bei kontrafaktischen Aufgaben immer noch besser als der Zufall. Die KI-Modelle versuchen, diese Aufgaben zu lösen, sind aber nicht sehr gut darin.

Die Ergebnisse zeigen, dass die beeindruckende Leistung von KI-Modellen bei Aufgaben wie College-Prüfungen auf einem hervorragenden Abruf von Trainingsdaten beruht, nicht auf logischem Denken. Dies zeigt auch, dass KI-Modelle nicht auf unbekannte Aufgaben verallgemeinert werden können,

Zhaofeng Wu, Doktorand in Elektrotechnik und Informatik am MIT, Mitglied des CSAIL und Hauptautor der Studie, sagte: "Wir haben einen faszinierenden Aspekt großer Sprachmodelle aufgedeckt: Sie zeichnen sich in vertrauten Szenarien aus, fast wie ein ausgetretener Pfad, haben aber Probleme, wenn das Terrain unbekannt wird. Diese Erkenntnis ist von entscheidender Bedeutung, da wir uns bemühen, die Anpassungsfähigkeit dieser Modelle zu verbessern und ihren Anwendungshorizont zu erweitern."

Eine ähnliche Demonstration dieser Unfähigkeit zur Verallgemeinerung haben wir gesehen, als wir untersuchten, wie schlecht KI-Modelle bei ein vereinfachtes Rätsel zur Flussüberquerung zu lösen.

Die Forscher kamen zu dem Schluss, dass die Entwickler bei der Analyse ihrer Modelle "die abstrakte Aufgabenfähigkeit losgelöst von der beobachteten Aufgabenleistung betrachten" sollten.

Der "Train-to-test"-Ansatz kann ein Modell in den Benchmarks nach vorne bringen, bietet aber keinen echten Maßstab dafür, wie das Modell abschneidet, wenn es eine neue Aufgabe zu bewältigen hat.

Die Forscher vermuten, dass ein Teil des Problems darin besteht, dass diese Modelle nur auf Text in Oberflächenform trainiert werden.

Wenn LLMs mehr kontextualisierten Daten und semantischen Darstellungen aus der realen Welt ausgesetzt sind, könnten sie in der Lage sein, zu verallgemeinern, wenn sie mit verschiedenen Aufgaben konfrontiert werden.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen