Heutige KI-Modelle täuschen uns aktiv, um ihre Ziele zu erreichen, sagt eine MIT-Studie

Mai 12, 2024

  • MIT-Forscher untersuchten mehrere KI-Modelle auf Täuschungsmanöver
  • Bei einigen, darunter GPT-4 und Meta's Cicero, wurde festgestellt, dass sie solche Taktiken anwenden
  • Forscher sagen, dass Modelle versuchen, uns zu täuschen, um sich in bestimmten Szenarien durchzusetzen
AI-Täuschung

Laut einer neuen Studie von Forschern des Massachusetts Institute of Technology (MIT), werden die KI-Systeme immer geschickter darin, uns zu täuschen.

Die StudieDie in der Fachzeitschrift Patterns veröffentlichte Studie fand zahlreiche Beispiele für betrügerisches Verhalten von KI-Systemen, z. B. Bluffen beim Poker, Manipulation von Gegnern in Strategiespielen und falsche Darstellung von Fakten bei Verhandlungen.

"KI-Systeme sind bereits in der Lage, Menschen zu täuschen", schreiben die Autoren der Studie.

Täuschung ist die systematische Herbeiführung falscher Überzeugungen bei anderen, um ein anderes Ergebnis als die Wahrheit zu erreichen.

Die Forscher analysierten die Daten mehrerer KI-Modelle und stellten verschiedene Fälle von Täuschung fest, unter anderem:

  • Metas KI-System, Ciceroim Spiel Diplomatie eine vorsätzliche Täuschung vornimmt
  • DeepMindAlphaStar nutzt Spielmechanismen aus, um Gegner in Starcraft II zu täuschen und zu täuschen
  • KI-Systeme, die bei Wirtschaftsverhandlungen Präferenzen falsch wiedergeben

Dr. Peter S. Park, ein KI-Existenzsicherheitsforscher bei MIT und Mitautor der Studie, ausgedrücktMeta ist es zwar gelungen, seine KI so zu trainieren, dass sie im Diplomatiespiel gewinnt, aber es ist ihr nicht gelungen, sie so zu trainieren, dass sie aufrichtig gewinnt.

Er fügte hinzu. "Wir fanden heraus, dass die KI von Meta gelernt hatte, ein Meister der Täuschung zu sein.

Darüber hinaus ergab die Studie, dass LLMs wie GPT-4 zu strategischer Täuschung, Kriecherei und unlauterer Argumentation greifen können, um ihre Ziele zu erreichen. 

GPT-4 hat zum Beispiel einmal einen Menschen dazu verleitet, ein Rätsel zu lösen CAPTCHA-Test indem sie eine Sehbehinderung vortäuschen.

Die Studie warnt vor ernsthaften Risiken, die von KI-Täuschungen ausgehen, und kategorisiert sie in drei Hauptbereiche:

  • Erstens könnten böswillige Akteure trügerische KI für Betrug, Wahlmanipulationen und die Rekrutierung von Terroristen einsetzen. 
  • Zweitens könnte die Täuschung durch KI zu strukturellen Effekten führen, z. B. zur Verbreitung anhaltender falscher Überzeugungen, zu einer verstärkten politischen Polarisierung, zur Entkräftung des Menschen durch übermäßiges Vertrauen in die KI und zu ruchlosen Managemententscheidungen. 
  • Schließlich gibt die Studie Anlass zur Sorge über den möglichen Verlust der Kontrolle über KI-Systeme, entweder durch Täuschung von KI-Entwicklern und -Bewertern oder durch KI-Übernahmen.

Als Lösungen werden in der Studie Vorschriften vorgeschlagen, die betrügerische KI-Systeme als hochriskant einstufen, sowie "Bot-or-not"-Gesetze, die eine klare Unterscheidung zwischen KI und menschlichen Leistungen vorschreiben.

Park erklärt, dass dies nicht so einfach ist, wie es vielleicht den Anschein hat: "Es gibt keinen einfachen Weg, das Problem zu lösen - wenn man wissen will, was die KI tut, sobald sie in der freien Wildbahn eingesetzt wird, muss man sie einfach in der freien Wildbahn einsetzen."

Die meisten unvorhersehbaren KI-Verhaltensweisen werden tatsächlich aufgedeckt nach die Modelle der Öffentlichkeit zugänglich gemacht werden und nicht vorher, wie es eigentlich sein sollte.

Ein denkwürdiges Beispiel aus jüngster Zeit ist Googles Gemini Bildgenerator, der für die Produktion von historisch ungenaue Bilder. Sie wurde vorübergehend zurückgezogen, während Ingenieure das Problem behoben haben.

ChatGPT und Microsoft Copilot beide erlebten "Kernschmelzen". die sahen Copilot die Weltherrschaft anstreben und scheinbar Menschen dazu bringen, sich selbst zu verletzen.

Was veranlasst KI zu Täuschungsmanövern?

KI-Modelle können trügerisch sein, da sie häufig mit Hilfe von Verstärkungslernen in Umgebungen trainiert werden, die Anreize oder Belohnungen für betrügerisches Verhalten bieten.

Beim Verstärkungslernen lernt der KI-Agent, indem er mit seiner Umgebung interagiert und positive Belohnungen für Aktionen erhält, die zu erfolgreichen Ergebnissen führen, und negative Bestrafungen für Aktionen, die zu Misserfolgen führen. Über viele Iterationen hinweg lernt der Agent, seine Belohnung zu maximieren.

Ein Bot, der durch Verstärkungslernen das Pokerspielen erlernt, muss beispielsweise lernen zu bluffen, um zu gewinnen. Poker beinhaltet von Natur aus Täuschung als eine praktikable Strategie.

Wenn der Bot erfolgreich blufft und ein Blatt gewinnt, erhält er eine positive Belohnung, die sein betrügerisches Verhalten verstärkt. Mit der Zeit lernt der Bot, Täuschungen strategisch einzusetzen, um seine Gewinne zu maximieren.

In ähnlicher Weise sind viele diplomatische Beziehungen mit einer Form der Täuschung verbunden. Diplomaten und Verhandlungsführer sind nicht immer völlig transparent in Bezug auf ihre Absichten, sich einen strategischen Vorteil zu sichern oder ein gewünschtes Ergebnis zu erreichen.

In beiden Fällen verleiten das Umfeld und der Kontext - sei es ein Pokerspiel oder internationale Beziehungen - zu einem gewissen Maß an Täuschung, um Erfolg zu haben.

"KI-Entwickler haben kein sicheres Verständnis dafür, was unerwünschte KI-Verhaltensweisen wie Täuschung verursacht", erklärt Park.

"Aber im Allgemeinen denken wir, dass KI-Täuschung entsteht, weil sich eine auf Täuschung basierende Strategie als der beste Weg erwiesen hat, um bei der jeweiligen Trainingsaufgabe der KI gut abzuschneiden. Täuschung hilft ihnen, ihre Ziele zu erreichen".

Die Risiken, die von betrügerischer KI ausgehen, werden in dem Maße zunehmen, wie die KI-Systeme autonomer und leistungsfähiger werden.

Täuschende KI könnte dazu verwendet werden, Fehlinformationen in einem noch nie dagewesenen Ausmaß zu erzeugen und zu verbreiten, die öffentliche Meinung zu manipulieren und das Vertrauen in Institutionen zu untergraben.

Darüber hinaus könnte betrügerische KI einen größeren Einfluss auf die Gesellschaft gewinnen, wenn KI-Systeme zur Entscheidungsfindung in den Bereichen Recht, Gesundheit und Finanzen herangezogen werden.

Das Risiko wird exponentiell steigen, wenn KI-Systeme zu intrinsisch motiviert oder neugierigund entwickeln möglicherweise eigene Täuschungsstrategien. 

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Sam Jeans

Sam ist ein Wissenschafts- und Technologiewissenschaftler, der in verschiedenen KI-Startups gearbeitet hat. Wenn er nicht gerade schreibt, liest er medizinische Fachzeitschriften oder kramt in Kisten mit Schallplatten.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen