LLMs produzieren bei längeren Eingaben ungenauere und verzerrte Ergebnisse

29. Februar 2024

LLM

Trotz der rasanten Fortschritte bei den LLMs wissen wir immer noch nicht genau, wie diese Modelle mit längeren Inputs umgehen.

Mosh Levy, Alon Jacoby und Yoav Goldberg von der Bar-Ilan-Universität und dem Allen Institute for AI untersuchten, wie die Leistung großer Sprachmodelle (LLMs) mit der Länge des Eingabetextes, den sie verarbeiten sollen, variiert.

Zu diesem Zweck entwickelten sie einen Rahmen für das logische Denken, der es ihnen ermöglichte, den Einfluss der Eingabelänge auf das logische Denken in einer kontrollierten Umgebung zu untersuchen.

Der Fragerahmen schlug verschiedene Versionen ein und derselben Frage vor, die jeweils die für die Beantwortung der Frage erforderlichen Informationen enthielten und mit zusätzlichem, irrelevantem Text unterschiedlicher Länge und Art angereichert waren. 

Dies ermöglicht die Isolierung der Eingabelänge als Variable, wodurch sichergestellt wird, dass Änderungen in der Modellleistung direkt auf die Länge des Eingangs zurückgeführt werden können.

Wichtigste Ergebnisse

Levy, Jacoby und Goldberg fanden heraus, dass LLMs bei Eingabelängen, die weit unter dem liegen, was die Entwickler behaupten, dass sie damit umgehen können, einen bemerkenswerten Rückgang der Denkleistung aufweisen. Sie dokumentierten ihre Ergebnisse in dieser Studie.

Der Rückgang wurde durchgängig bei allen Versionen des Datensatzes beobachtet, was eher auf ein systemisches Problem bei der Verarbeitung längerer Eingaben als auf ein Problem hinweist, das mit spezifischen Datenproben oder Modellarchitekturen zusammenhängt. 

Die Forscher beschreiben: "Unsere Ergebnisse zeigen eine bemerkenswerte Verschlechterung der Argumentationsleistung von LLMs bei viel kürzeren Eingabelängen als ihrem technischen Maximum. Wir zeigen, dass der Verschlechterungstrend in jeder Version unseres Datensatzes auftritt, wenn auch in unterschiedlicher Intensität".

 

Mit zunehmender Größe des Inputs nimmt die Fähigkeit zur Durchführung von Argumentationsaufgaben ab. Diese Eingaben bestehen aus relevantem (rot hervorgehoben) und irrelevantem (grau dargestellt) Text, der von verschiedenen Stellen stammt und nach und nach erweitert wird. Um genau zu antworten, müssen zwei bestimmte Textsegmente identifiziert werden, die zufällig in der Eingabe vorkommen können. Die Leistungsdaten sind aus 600 Stichproben aggregiert. Quelle: Über ArXiv.

Darüber hinaus zeigt die Studie, dass traditionelle Metriken wie Perplexität, die üblicherweise zur Bewertung von LLMs verwendet werden, nicht mit der Leistung der Modelle bei logischen Aufgaben mit langen Eingaben korrelieren. 

Weitere Untersuchungen ergaben, dass die Leistungsverschlechterung nicht nur vom Vorhandensein irrelevanter Informationen (Polster) abhing, sondern auch dann zu beobachten war, wenn diese Polster aus doppelten relevanten Informationen bestanden.


Dies deutet darauf hin, dass die Herausforderung für LLMs im Herausfiltern von Rauschen und der inhärenten Verarbeitung längerer Textsequenzen liegt.

Ignorieren von Anweisungen

Ein kritischer Bereich, der in der Studie hervorgehoben wurde, ist die Tendenz der LLMs, in die Eingabe eingebettete Anweisungen zu ignorieren, wenn die Eingabelänge zunimmt. 

Die Modelle geben manchmal auch Antworten, die auf Unsicherheit oder unzureichende Informationen hinweisen, wie z. B. "Der Text enthält nicht genügend Informationen", obwohl alle erforderlichen Informationen vorhanden sind.

Insgesamt scheint es den LLMs mit zunehmender Eingabelänge immer schwerer zu fallen, Prioritäten zu setzen und sich auf die wichtigsten Informationen, einschließlich direkter Anweisungen, zu konzentrieren. 

Voreingenommenheit bei Antworten

Ein weiteres bemerkenswertes Problem waren die zunehmenden Verzerrungen in den Antworten der Modelle, wenn die Eingaben länger wurden. 

Insbesondere neigten die LLMs dazu, mit zunehmender Eingabelänge "Falsch" zu antworten. Diese Verzerrung deutet auf eine Schieflage in der Wahrscheinlichkeitsschätzung oder in den Entscheidungsprozessen innerhalb des Modells hin, möglicherweise als Abwehrmechanismus als Reaktion auf die erhöhte Unsicherheit aufgrund längerer Eingabelängen.

Die Neigung, "falsche" Antworten zu bevorzugen, könnte auch ein zugrunde liegendes Ungleichgewicht in den Trainingsdaten oder ein Artefakt des Trainingsprozesses der Modelle widerspiegeln, bei dem negative Antworten überrepräsentiert sind oder mit Kontexten von Unsicherheit und Mehrdeutigkeit in Verbindung gebracht werden. 

Modelle AI
Die Modelle neigten dazu, binäre Fragen mit zunehmender Eingabelänge als "falsch" zu beantworten. Quelle: Über ArXiv.

Diese Verzerrung beeinträchtigt die Genauigkeit der Modellergebnisse und gibt Anlass zu Bedenken hinsichtlich der Zuverlässigkeit und Fairness von LLM bei Anwendungen, die ein differenziertes Verständnis und Unparteilichkeit erfordern.

Die Umsetzung robuster Strategien zur Erkennung und Abschwächung von Verzerrungen während der Modellschulungs- und Feinabstimmungsphasen ist unerlässlich, um ungerechtfertigte Verzerrungen in den Modellreaktionen zu reduzieren.

EDie Sicherstellung, dass die Trainingsdatensätze vielfältig, ausgewogen und repräsentativ für ein breites Spektrum von Szenarien sind, kann ebenfalls dazu beitragen, Verzerrungen zu minimieren und die Modellgeneralisierung zu verbessern.

Dies trägt dazu bei andere aktuelle Studien die in ähnlicher Weise grundlegende Probleme in der Funktionsweise von LLMs aufzeigen und so zu einer Situation führen, in der diese "technischen Schulden" die Funktionalität und Integrität des Modells im Laufe der Zeit gefährden könnten. 

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Sam Jeans

Sam ist ein Wissenschafts- und Technologiewissenschaftler, der in verschiedenen KI-Startups gearbeitet hat. Wenn er nicht gerade schreibt, liest er medizinische Fachzeitschriften oder kramt in Kisten mit Schallplatten.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen