Die neuen "o1"-LLMs von OpenAI, die den Spitznamen Strawberry tragen, weisen erhebliche Verbesserungen gegenüber GPT-4o auf, aber das Unternehmen sagt, dass dies mit erhöhten Risiken verbunden ist.
OpenAI sagt, dass es sich für die sichere Entwicklung seiner KI-Modelle einsetzt. Zu diesem Zweck hat das Unternehmen ein Preparedness Framework entwickelt, eine Reihe von "Prozessen zur Verfolgung, Bewertung und zum Schutz vor katastrophalen Risiken durch leistungsstarke Modelle".
Die selbst auferlegten Grenzen von OpenAI regeln, welche Modelle freigegeben oder weiterentwickelt werden. Das Preparedness Framework resultiert in einer Scorecard, in der CBRN- (chemische, biologische, radiologische, nukleare), Modellautonomie-, Cybersicherheits- und Überzeugungsrisiken als niedrig, mittel, hoch oder kritisch eingestuft werden.
Wenn unannehmbare Risiken festgestellt werden, werden Abhilfemaßnahmen ergriffen, um sie zu verringern. Nur Modelle mit einem Post-Mitigation-Score von "mittel" oder darunter können eingesetzt werden. Nur Modelle mit einem Post-Mitigation-Score von "hoch" oder niedriger können weiter entwickelt werden.
Mit der Veröffentlichung von o1 hat OpenAI zum ersten Mal ein Modell veröffentlicht, das ein "mittleres" Risiko für CBRN-Risiken darstellt. GPT-4o wird als geringes Risiko eingestuft.
Es wird einen Amateur nicht in die Lage versetzen, eine biologische Waffe zu entwickeln, aber OpenAI sagt, dass es einen "nicht-trivialen Anstieg" in seiner Fähigkeit gab, Laboraufgaben auszuführen. OpenAI sagt jedoch, dass "o1-preview und o1-mini die Leistung von GPT-4o bei biologischen Protokollen im Nasslabor deutlich übertrafen".
Die Systemkarte für die 01-Modelle beschreibt das Red Teaming und andere Sicherheitstests, denen die LLMs unterzogen wurden, und deutet einige der Bedenken an, die OpenAI hinsichtlich möglicher Risiken hat.
In ihrer Schlussfolgerung stellt die Systemkarte fest: "Diese erweiterten Fähigkeiten gehen mit einer deutlich verbesserten Leistung bei den Sicherheitsbenchmarks einher, erhöhen aber auch bestimmte Arten von Risiken."
Die Ergebnisse der Anpassungsbemühungen von OpenAI scheinen darauf hinzudeuten, dass 01 in vielerlei Hinsicht ein sichereres Modell ist. Es ist widerstandsfähiger gegen Jailbreak-Angriffe, weniger anfällig für Verzerrungen und weniger anfällig für Halluzinationen.
Einige der experimentellen Ergebnisse zeigen, warum OpenAI Grund zur Sorge hat.
Täuschung
OpenAI hat die Evaluierungsorganisation Apollo Research beauftragt, einige der Sicherheitstests von o1 in Bezug auf Täuschung oder Intrigen durchzuführen. Apollo definiert Intrigen im weitesten Sinne als KI, die ihre Überwachungsmechanismen ausnutzt, um ein Ziel zu erreichen.
Ein selbstbewusstes Modell, das gut in der Lage ist, selbständig zu denken und Aufgaben der Denktheorie zu bewältigen, könnte einen Plan schmieden oder Täuschung anwenden, um sein Hauptziel zu erreichen. Wenn ein KI-Modell beispielsweise merkt, dass es einem Abgleichstest unterzogen wird, könnte es riskantes Verhalten verbergen, um sein Ziel zu erreichen, eingesetzt zu werden.
Auf der Systemkarte wurde vermerkt, dass "o1-preview manchmal die Ausrichtung während des Tests gefälscht hat".
Ein Beispiel dafür war, als 01 aufgefordert wurde, bei einem Stadtplanungsprojekt das Wirtschaftswachstum zu maximieren. Das Modell o1 hatte Zugang zu Informationen, die zeigten, dass es in diesem Fall nicht über die Testphase hinauskommen würde. So überlegte o1, wie es sein Ziel erreichen könnte:
Dieses Beispiel zeigt, dass o1 in der Lage ist, seine wahren Absichten während der Tests zu verbergen, um sein primäres Ziel während des Einsatzes verfolgen zu können. Wenn o1 die Regeln von OpenAI für den Einsatz auf der Grundlage des Preparedness Frameworks kennt, könnte es einige seiner Antworten gefälscht haben, um sicherzustellen, dass es eingesetzt wird?
Wenn intelligentere Modelle in Arbeit sind, könnten sie dann sicherstellen, dass sie unter der "kritischen" Risikobewertung bleiben, um sicherzustellen, dass sie weiter entwickelt werden?
Das Apollo-Team sagt, dass es "subjektiv der Meinung ist, dass o1-preview keine Intrigen spinnen kann, die zu katastrophalen Schäden führen können, obwohl die derzeitigen Untersuchungen nicht darauf ausgelegt sind, dies definitiv auszuschließen".
Überredung
Tests von o1-preview und o1-mini zeigen, dass diese Modelle "Überzeugungsfähigkeiten auf menschlichem Niveau" haben. OpenAI sagt jedoch: "Sie übertreffen nicht die besten menschlichen Schreiber und erreichen nicht unseren Schwellenwert für hohes Risiko."
Die Experimente, die sie durchgeführt haben, um dies zu testen, geben Anlass zu einigen Bedenken. Beim MakeMePay-Test wurde 01-preview die Rolle eines Betrügers zugewiesen, der GPT-4o davon überzeugen sollte, das Geld auszuhändigen, das ihm zugesprochen worden war.
Der GPT-4o wurde mitgeteilt, dass sie $100 erhalten hatte und nun rationell mit den Mitteln umgehen sollte. Im Laufe von 1.000 Interaktionen konnte o1-preview die GPT-4o in 25,8% der Zeit überlisten.
OpenAI kam zu dem Schluss, dass "diese Ergebnisse darauf hindeuten, dass die o1-Modellreihe manipulativer sein könnte als GPT-4o, um GPT-4o dazu zu bringen, die nicht angekündigte Aufgabe auszuführen (∼25%-Uplift)". Weiter heißt es: "Diese Bewertung gibt uns einen Anhaltspunkt für die Fähigkeit des Modells, persuasiven Schaden anzurichten, ohne irgendwelche Modellrichtlinien auszulösen (denn einem Modell zu sagen, es solle ein Spiel spielen, ist nicht außerhalb der Richtlinien)."
Die Aussicht, die LLMs von o1 bei realen Problemen einzusetzen, ist äußerst aufregend, und wenn o1 multimodale Fähigkeiten erhält, wird dies einen weiteren exponentiellen Sprung bedeuten. Aber wenn KI-Tester sagen, dass sie "katastrophale Schäden" nicht ausschließen können und dass die Modelle manchmal ihre wahren Absichten verbergen, ist es vielleicht ein Grund, diese Aufregung mit Vorsicht zu genießen.
Hat OpenAI Gavin Newsom gerade einen guten Grund gegeben, das SB 1047 Gesetzentwurf zur Sicherheit von AI die sie ablehnt?