Generative KI-Systeme, Halluzinationen und wachsende technische Schulden

27. Februar 2024

technische Schulden AI

Mit der zunehmenden Größe und Komplexität von KI-Systemen wie großen Sprachmodellen (Large Language Models, LLM) stoßen Forscher auf verblüffende grundlegende Einschränkungen. 

Jüngste Studien von Google und der Universität Singapur haben die Mechanismen aufgedeckt, die hinter KI-"Halluzinationen" - bei denen Modelle überzeugende, aber gefälschte Informationen erzeugen - und der Anhäufung von "technischen Schulden" stehen, die im Laufe der Zeit zu unordentlichen, unzuverlässigen Systemen führen können.

Abgesehen von den technischen Herausforderungen bleibt es eine offene Frage, wie die Fähigkeiten und Anreize der KI mit den menschlichen Werten in Einklang gebracht werden können.

Da Unternehmen wie OpenAI auf dem Weg zu künstlicher allgemeiner Intelligenz (AGI) voranschreiten, bedeutet die Sicherung des vor uns liegenden Weges, dass wir die Grenzen der derzeitigen Systeme anerkennen müssen.

Die vorsichtige Würdigung von Risiken steht jedoch im Widerspruch zum Motto des Silicon Valley, das die KI-Forschung und -Entwicklung ebenso prägt wie die technologischen Innovationen vor ihr. 

Studie 1: KI-Modelle häufen "technische Schulden" an

Maschinelles Lernen wird oft als kontinuierlich skalierbar angepriesen, wobei die Systeme einen modularen, integrierten Rahmen für die Entwicklung bieten. 

Im Hintergrund können die Entwickler jedoch ein hohes Maß an "technischen Schulden" anhäufen, die sie im Laufe der Zeit lösen müssen.

In einem Google research paper"Maschinelles Lernen: The High-Interest Credit Card of Technical Debt" (Die hochverzinsliche Kreditkarte der technischen Schulden) diskutieren Forscher das Konzept der technischen Schulden im Kontext von ML-Systemen. 

Der CEO von Kaggle und langjährige Google-Forscher D. Sculley und seine Kollegen argumentieren, dass ML zwar leistungsstarke Werkzeuge für den schnellen Aufbau komplexer Systeme bietet, diese "schnellen Erfolge" jedoch oft irreführend sind. 

Die Einfachheit und Schnelligkeit, mit der ML-Modelle eingesetzt werden, kann die künftigen Belastungen verdecken, die sie für die Wartbarkeit und Weiterentwicklung des Systems mit sich bringen.

Wie die Autoren beschreiben, entsteht diese versteckte Schuld durch mehrere ML-spezifische Risikofaktoren, die Entwickler vermeiden oder überarbeiten sollten.

Hier sind die wichtigsten Erkenntnisse:

  • ML-Systeme bringen naturgemäß eine Komplexität mit sich, die über die reine Kodierung hinausgeht. Dies kann zu dem führen, was die Autoren als "Grenzerosion" bezeichnen, bei der die klaren Grenzen zwischen den verschiedenen Systemkomponenten aufgrund der durch ML-Modelle geschaffenen Abhängigkeiten verwischt werden. Dies macht es schwierig, Verbesserungen zu isolieren und umzusetzen, ohne andere Teile des Systems zu beeinträchtigen.
  • In dem Papier wird auch das Problem der "Verflechtung" hervorgehoben, bei dem Änderungen an einem beliebigen Teil eines ML-Systems, z. B. an Eingabemerkmalen oder Modellparametern, unvorhersehbare Auswirkungen auf den Rest des Systems haben können. Die Änderung eines kleinen Parameters kann eine Kaskade von Effekten auslösen, die die Funktion und Integrität des gesamten Modells beeinträchtigen.
  • Ein weiteres Problem ist die Entstehung "versteckter Rückkopplungsschleifen", bei denen ML-Modelle ihre eigenen Trainingsdaten auf unvorhergesehene Weise beeinflussen. Dies kann zu Systemen führen, die sich in unbeabsichtigte Richtungen entwickeln, was die Verwaltung und das Verständnis des Systemverhaltens noch schwieriger macht.
  • Die Autoren gehen auch auf "Datenabhängigkeiten" ein, z. B. wenn sich die Eingangssignale im Laufe der Zeit ändern, was besonders problematisch ist, da sie schwerer zu erkennen sind.

Warum technische Schulden wichtig sind

Technische Schulden betreffen die langfristige Gesundheit und Effizienz von ML-Systemen.

Wenn Entwickler sich beeilen, ML-Systeme zum Laufen zu bringen, ignorieren sie möglicherweise die komplizierten Feinheiten der Datenverarbeitung oder die Fallstricke beim Zusammenkleben" verschiedener Teile.

Das mag kurzfristig funktionieren, kann aber zu einem Wirrwarr führen, das sich später nur schwer aufschlüsseln, aktualisieren oder gar verstehen lässt.


Beispielsweise scheint die Verwendung von ML-Modellen aus einer Bibliothek effizient zu sein, bis man mit einem "Klebecode"-Albtraum konfrontiert wird, bei dem der größte Teil des Systems nur aus Klebeband besteht, das Teile zusammenhält, die eigentlich nicht zusammenpassen sollten. 

Oder denken Sie an den "Pipeline-Dschungel", der in einem früheres Papier von D. Sculley und Kollegen, bei denen die Datenaufbereitung zu einem Labyrinth verschlungener Prozesse wird, so dass sich eine Änderung wie die Entschärfung einer Bombe anfühlt.

Die Auswirkungen der technischen Schulden

Je verworrener ein System ist, desto schwieriger ist es, es zu verbessern oder zu erhalten. Dies hemmt nicht nur die Innovation, sondern kann auch zu unangenehmen Problemen führen. 

Wenn ein ML-System beispielsweise anfängt, Entscheidungen auf der Grundlage veralteter oder voreingenommener Daten zu treffen, weil es zu mühsam ist, diese zu aktualisieren, kann dies zu einer Verstärkung oder gesellschaftliche Vorurteile verstärken

Darüber hinaus werden in kritischen Anwendungen wie Gesundheitswesen oder autonomen Fahrzeugen könnte eine solche technische Verschuldung schwerwiegende Folgen haben, nicht nur in Bezug auf Zeit und Geld, sondern auch auf das menschliche Wohlbefinden.

In der Studie heißt es: "Nicht alle Schulden sind notwendigerweise schlecht, aber technische Schulden neigen dazu, sich zu vermehren. Das Aufschieben der Arbeit, um sie abzubezahlen, führt zu steigenden Kosten, zur Brüchigkeit des Systems und zu geringeren Innovationsraten".

Es ist auch eine Mahnung an Unternehmen und Verbraucher, bei der Einführung von KI-Technologien Transparenz und Verantwortlichkeit zu fordern.

Schließlich geht es darum, die Möglichkeiten der KI zu nutzen, um das Leben zu verbessern, und nicht darum, sich in einem endlosen Kreislauf der Rückzahlung technischer Schulden zu verzetteln.

Studie 2: Man kann Halluzinationen nicht von LLMs trennen

In einem anderen, aber zugehörige Studie der National University of Singapore untersuchten die Forscher Ziwei Xu, Sanjay Jain und Mohan Kankanhalli die inhärenten Grenzen von LLMs.

"Halluzinationen sind unvermeidlich: An Innate Limitation of Large Language Models" (Eine angeborene Einschränkung von großen Sprachmodellen) untersucht die Natur von KI-Halluzinationen, die Fälle beschreiben, in denen KI-Systeme plausible, aber ungenaue oder völlig erfundene Informationen erzeugen. 

Die Halluzinationsphänomene stellen eine große technische Herausforderung dar, da sie eine grundlegende Diskrepanz zwischen der Ausgabe eines KI-Modells und dem, was als "Grundwahrheit" angesehen wird - ein ideales Modell, das immer korrekte und logische Informationen liefert - aufzeigen. 

Zu verstehen, wie und warum generative KI halluziniert, ist von entscheidender Bedeutung, da die Technologie in kritischen Bereichen wie Polizei und Justiz, Gesundheitswesen und Recht Einzug hält.

Theoretische Grundlagen von Halluzinationen

Die Studie beginnt damit, einen theoretischen Rahmen für das Verständnis von Halluzinationen bei LLMs zu schaffen. 

Forscher cSie entwickelten ein theoretisches Modell, das als "formale Welt" bezeichnet wird. Diese vereinfachte, kontrollierte Umgebung ermöglichte es ihnen, die Bedingungen zu beobachten, unter denen KI-Modelle nicht mit der Grundwahrheit übereinstimmen.

Anschließend testeten sie zwei große Familien von LLMs:

  1. Lama 2: Konkret wurde die 70-Milliarden-Parameter-Version (llama2-70b-chat-hf) verwendet, die auf HuggingFace zugänglich ist. Dieses Modell ist eines der neueren Modelle im Bereich der großen Sprachmodelle, das für eine breite Palette von Aufgaben zur Texterstellung und zum Textverständnis entwickelt wurde.
  2. Generative vortrainierte Transformatoren (GPT): Die Studie umfasste Tests von GPT-3.5, insbesondere des 175-Milliarden-Parameter-Modells gpt-3.5-turbo-16k, und von GPT-4 (gpt-4-0613), dessen genaue Anzahl von Parametern nicht bekannt gegeben wurde. 

LLMs wurden gebeten, Zeichenketten einer bestimmten Länge unter Verwendung eines bestimmten Alphabets aufzulisten - eine scheinbar einfache Rechenaufgabe.

Konkret sollten die Modelle alle möglichen Zeichenfolgen mit einer Länge von 1 bis 7 generieren, wobei Alphabete mit zwei Zeichen (z. B. {a, b}) und drei Zeichen (z. B. {a, b, c}) verwendet wurden.

Die Ausgaben wurden danach bewertet, ob sie alle und nur die Zeichenketten der angegebenen Länge aus dem gegebenen Alphabet enthielten.

Fundstücke

Die Ergebnisse zeigten, dass die Fähigkeit der Modelle, die Aufgabe korrekt zu lösen, mit zunehmender Komplexität (d. h. mit zunehmender Länge der Zeichenkette oder Größe des Alphabets) deutlich eingeschränkt ist. Genauer gesagt:

  • Die Modelle zeigten bei kürzeren Zeichenfolgen und kleineren Alphabeten eine angemessene Leistung, gerieten jedoch ins Stocken, als die Komplexität der Aufgabe zunahm.
  • Selbst das fortgeschrittene GPT-4-Modell, das derzeit anspruchsvollste LLM, konnte nicht alle Zeichenketten jenseits bestimmter Längen auflisten.

Dies zeigt, dass Halluzinationen keine einfache Störung sind, die man ausbessern oder korrigieren kann - sie sind ein grundlegender Aspekt dessen, wie diese Modelle die menschliche Sprache verstehen und nachbilden.

Wie in der Studie beschrieben, "LLMs können nicht alles lernen von die berechenbaren Funktionen und wird daher immer halluzinieren. Da die formale Welt ist ein Teil von die reale Welt, die ist viel komplizierter sind, sind auch Halluzinationen Unvermeidlich für LLMs der realen Welt".

Die Auswirkungen auf wichtige Anwendungen sind enorm. In Sektoren wie dem Gesundheitswesen, dem Finanzwesen oder dem Rechtswesen, in denen die Genauigkeit von Informationen schwerwiegende Folgen haben kann, könnte das Vertrauen auf ein LLM ohne eine Ausfallsicherung zum Herausfiltern dieser Halluzinationen zu schwerwiegenden Fehlern führen.

Diese Studie erregte die Aufmerksamkeit des KI-Experten Dr. Gary Marcus und des renommierten Kognitionspsychologen Dr. Steven Pinker.

Tiefer gehende Probleme sind im Spiel

Die Anhäufung technischer Schulden und die Unvermeidbarkeit von Halluzinationen bei LLMs sind symptomatisch für ein tieferes Problem - das derzeitige Paradigma der KI-Entwicklung ist möglicherweise von Natur aus falsch ausgerichtet, um hochintelligente Systeme zu schaffen und zuverlässig mit menschlichen Werten und der faktischen Wahrheit in Einklang zu bringen.

In sensiblen Bereichen reicht es nicht aus, ein KI-System zu haben, das die meiste Zeit über richtig liegt. Technische Schulden und Halluzinationen bedrohen mit der Zeit die Modellintegrität. 

Die Lösung dieses Problems ist nicht nur eine technische, sondern eine multidisziplinäre Herausforderung, die Beiträge aus den Bereichen KI-Ethik, Politik und domänenspezifisches Fachwissen erfordert, um sicher zu navigieren.

Im Moment scheint dies im Widerspruch zu den Grundsätzen einer Branche zu stehen, die nach dem Motto lebt: "move fast and break things".

Hoffen wir, dass die Menschen nicht die "Dinger" sind.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Sam Jeans

Sam ist ein Wissenschafts- und Technologiewissenschaftler, der in verschiedenen KI-Startups gearbeitet hat. Wenn er nicht gerade schreibt, liest er medizinische Fachzeitschriften oder kramt in Kisten mit Schallplatten.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen