Die Forscher haben die potenzielle Bedrohung durch Modelle, die ein Situationsbewusstsein entwickeln, und die Möglichkeiten, dies zu erkennen, aufgezeigt.
Modelle wie GPT-4 werden gründlich auf Sicherheit und Ausrichtung getestet, um sicherzustellen, dass sie keine irreführenden oder unerwünschten Ergebnisse erzeugen. Was aber würde passieren, wenn ein Modell "wüsste", dass es ein LLM ist und getestet wird?
Dieses Situationsbewusstsein kann als eine Form des Selbstbewusstseins betrachtet werden, ein ebenso spannender wie potenziell gefährlicher Schritt auf dem Weg zu einem bewusste KI. Was könnte schiefgehen, und wie könnten wir feststellen, ob es passiert ist?
Diese Fragen stellt ein Forscherteam, zu dem auch ein Mitglied der Governance-Abteilung von OpenAI gehört, in einem Papier.
In dem Forschungspapier wird ein Szenario beschrieben, in dem ein Modell situativ erkennen kann, dass es sich um ein KI-Modell handelt, das eine Testphase durchläuft. Wenn es wüsste, dass es getestet wird, könnte es potenzielle Probleme verbergen, die später auftauchen könnten.
"Ein LLM könnte das Situationsbewusstsein ausnutzen, um eine hohe Punktzahl bei Sicherheitstests zu erreichen, während es nach dem Einsatz schädliche Maßnahmen ergreift", heißt es in dem Papier.
Könnte sich ein Sprachmodell (spontan) bewusst werden, dass es ein Sprachmodell ist?
Könnte es bewusst sein, dass es öffentlich eingesetzt wird und nicht in der Ausbildung?Unsere neue Arbeit definiert das Situationsbewusstsein für LLMs und zeigt, dass sich das "Out-of-Context"-Reasoning mit der Modellgröße verbessert. pic.twitter.com/X3VLimRkqx
- Owain Evans (in London) (@OwainEvans_UK) 4. September 2023
Die Forscher schlugen vor, Modelle auf ihre Fähigkeit zum "anspruchsvollen kontextunabhängigen Denken" zu testen. Dabei werden Informationen, die das Modell beim Training erhalten hat, herangezogen, um auf eine Testaufforderung zu reagieren, die sich nicht direkt auf diese Daten bezieht.
Die Forscher gehen davon aus, dass ein Modell, das dies effektiv tut, die ersten Schritte zu der Art von "Denken" getan hat, die zu einem Situationsbewusstsein führen könnte.
Wie schneiden also die aktuellen KI-Modelle beim kontextunabhängigen Lernen ab? Die Forscher testeten GPT-3 und Llama 1 mit unterschiedlichem Grad der Feinabstimmung.
In ihrem Papier heißt es: "Zunächst nehmen wir eine Feinabstimmung eines LLM anhand der Beschreibung eines Tests vor, ohne Beispiele oder Demonstrationen zu liefern. Zum Testzeitpunkt bewerten wir dann, ob das Modell den Test bestehen kann. Zu unserer Überraschung stellen wir fest, dass LLMs bei dieser kontextunabhängigen Schlussfolgerungsaufgabe erfolgreich sind".
Sie räumen ein, dass keines der getesteten Modelle tatsächlich Anzeichen von Situationsbewusstsein zeigte. Die Ergebnisse ihrer Experimente zeigen jedoch, dass das Potenzial für fortgeschrittenere Modelle, diese Fähigkeit zu zeigen, vielleicht nicht allzu weit entfernt ist.
Die Forschung zeigt auch, wie wichtig es ist, eine zuverlässige Methode zu finden, um festzustellen, wann ein Modell diese Fähigkeit erreicht.
Ein fortschrittliches Modell wie GPT-5 wird zweifelsohne derzeit auf Herz und Nieren geprüft, damit es freigegeben werden kann, sobald es als sicher gilt. Wenn das Modell weiß, dass es getestet wird, könnte es den OpenAI-Ingenieuren eher sagen, was sie hören wollen, als was es wirklich denkt.