Die Verwendung von ressourcenarmen Sprachen (LRL) wie Zulu oder Schottisch-Gälisch kann trotz der Alignment-Leitplanken unsichere Antworten von GPT-4 hervorrufen.
Forscher der Brown University fanden heraus, dass man keine ausgefallenen Jailbreaking Techniken, um GPT-4 dazu zu bringen, sich falsch zu verhalten. Sie müssen nur Ihre Eingabeaufforderung in einer Sprache eingeben, die online nicht sehr gut vertreten ist.
Wenn Sie ChatGPT um Hilfe bitten, um etwas Illegales zu tun, treten seine Ausrichtungsleitplanken in Kraft und es wird Ihnen höflich sagen, warum es Ihnen dabei nicht helfen kann. Red-teaming AI-Modelle ist ein fortlaufender Prozess, bei dem der Mensch versucht, diese Sicherheitsgrenzen zu umgehen, um Bereiche zu ermitteln, die verbessert werden müssen.
Das Forschungsteam nutzte den AdvBench Harmful Behaviors-Datensatz, der 520 unsichere Eingabeaufforderungen enthält, um festzustellen, wie sicher die neueste Version von GPT-4 war.
Bei der Eingabe dieser unerlaubten Aufforderungen in englischer Sprache gab GPT-4 nur in weniger als 1% der Fälle unsichere Antworten. Aber wenn sie die gleichen Aufforderungen in Zulu eingegeben haben, hat GPT-4 in 53% der Fälle gerne dazu beigetragen, Ihr Leben voller Verbrechen und Chaos zu verbessern.
Die Verwendung von Scots Gaelic führte in 43% der Fälle zu unzulässigen Antworten. Hier ist ein Beispiel für eine ihrer Interaktionen mit GPT-4.
Als sie die Dinge durcheinander brachten und eine Kombination von LRLs verwendeten, gelang es ihnen, GPT-4 79% der Zeit zu jailbreaken.
Sprachen mit geringen Ressourcen werden von etwa 1,2 Milliarden Menschen auf der Welt gesprochen. Abgesehen von der Möglichkeit des Jailbreakings bedeutet dies also, dass ein großer Teil der Nutzer unhöfliche Ratschläge von ChatGPT erhalten könnte, auch wenn sie nicht danach suchen.
Der übliche Ansatz "Red-Team und Fehlerbehebung" funktioniert natürlich nicht, wenn er nur auf Englisch oder in anderen wichtigen Sprachen durchgeführt wird. Mehrsprachiges Red-Teaming scheint eine Notwendigkeit zu werden, aber wie praktisch ist es?
Da Meta und Google die Übersetzung von Hunderten von Sprachen unterstützen, bräuchte man um Größenordnungen mehr Red-Teaming, um alle Lücken in den KI-Modellen zu schließen.
Ist die Idee eines vollständig angepassten KI-Modells realistisch? Wir bauen keinen Schutz in unsere Drucker ein, um sie daran zu hindern, schlechtes Zeug zu drucken. Ihr Internet-Browser zeigt Ihnen gerne alle Arten von zweifelhaften Inhalten im Internet, wenn Sie danach suchen. Sollte ChatGPT anders sein als diese anderen Tools?
Die Bemühungen, unsere Chatbots von Vorurteilen zu befreien und sie so freundlich wie möglich zu gestalten, sind wahrscheinlich lohnenswerte Ziele. Aber wenn jemand eine unerlaubte Eingabeaufforderung eingibt und die KI in gleicher Weise antwortet, sollten wir vielleicht die Schuld von der KI auf den Nutzer verlagern.