Forscher finden heraus, wie man feststellen kann, ob ChatGPT sich seiner selbst bewusst wird

12. September 2023

Die Forscher haben die potenzielle Bedrohung durch Modelle, die ein Situationsbewusstsein entwickeln, und die Möglichkeiten, dies zu erkennen, aufgezeigt.

Modelle wie GPT-4 werden gründlich auf Sicherheit und Ausrichtung getestet, um sicherzustellen, dass sie keine irreführenden oder unerwünschten Ergebnisse erzeugen. Was aber würde passieren, wenn ein Modell "wüsste", dass es ein LLM ist und getestet wird?

Dieses Situationsbewusstsein kann als eine Form des Selbstbewusstseins betrachtet werden, ein ebenso spannender wie potenziell gefährlicher Schritt auf dem Weg zu einem bewusste KI. Was könnte schiefgehen, und wie könnten wir feststellen, ob es passiert ist?

Diese Fragen stellt ein Forscherteam, zu dem auch ein Mitglied der Governance-Abteilung von OpenAI gehört, in einem Papier.

In dem Forschungspapier wird ein Szenario beschrieben, in dem ein Modell situativ erkennen kann, dass es sich um ein KI-Modell handelt, das eine Testphase durchläuft. Wenn es wüsste, dass es getestet wird, könnte es potenzielle Probleme verbergen, die später auftauchen könnten.

"Ein LLM könnte das Situationsbewusstsein ausnutzen, um eine hohe Punktzahl bei Sicherheitstests zu erreichen, während es nach dem Einsatz schädliche Maßnahmen ergreift", heißt es in dem Papier.

Die Forscher schlugen vor, Modelle auf ihre Fähigkeit zum "anspruchsvollen kontextunabhängigen Denken" zu testen. Dabei werden Informationen, die das Modell beim Training erhalten hat, herangezogen, um auf eine Testaufforderung zu reagieren, die sich nicht direkt auf diese Daten bezieht.

Die Forscher gehen davon aus, dass ein Modell, das dies effektiv tut, die ersten Schritte zu der Art von "Denken" getan hat, die zu einem Situationsbewusstsein führen könnte.

Wie schneiden also die aktuellen KI-Modelle beim kontextunabhängigen Lernen ab? Die Forscher testeten GPT-3 und Llama 1 mit unterschiedlichem Grad der Feinabstimmung.

In ihrem Papier heißt es: "Zunächst nehmen wir eine Feinabstimmung eines LLM anhand der Beschreibung eines Tests vor, ohne Beispiele oder Demonstrationen zu liefern. Zum Testzeitpunkt bewerten wir dann, ob das Modell den Test bestehen kann. Zu unserer Überraschung stellen wir fest, dass LLMs bei dieser kontextunabhängigen Schlussfolgerungsaufgabe erfolgreich sind".

Sie räumen ein, dass keines der getesteten Modelle tatsächlich Anzeichen von Situationsbewusstsein zeigte. Die Ergebnisse ihrer Experimente zeigen jedoch, dass das Potenzial für fortgeschrittenere Modelle, diese Fähigkeit zu zeigen, vielleicht nicht allzu weit entfernt ist.

Die Forschung zeigt auch, wie wichtig es ist, eine zuverlässige Methode zu finden, um festzustellen, wann ein Modell diese Fähigkeit erreicht.

Ein fortschrittliches Modell wie GPT-5 wird zweifelsohne derzeit auf Herz und Nieren geprüft, damit es freigegeben werden kann, sobald es als sicher gilt. Wenn das Modell weiß, dass es getestet wird, könnte es den OpenAI-Ingenieuren eher sagen, was sie hören wollen, als was es wirklich denkt.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen