Sitzt OpenAI auf einem gefährlichen KI-Modell, das zur Entlassung von Altman geführt hat?

November 23, 2023

OpenAI Superintelligenz

Ein neuer Tag, eine neue Wendung in der OpenAI-Altman-Saga. 

Diesmal ist der Grund für Altmans Entlassung ein apokalyptisch mächtiges KI-Modell, das in einem OpenAI-Forschungslabor sitzt, zumindest legen das Medienquellen nahe.

Nur wenige Tage vor Sam Altmans vorübergehende Abreise Von Reuters befragte Quellen behaupten, dass die Forscher des Unternehmens einen Warnbrief an den Vorstand geschickt haben.

Dieses Schreiben, das erst vor kurzem veröffentlicht wurde, schlug Alarm wegen eines Durchbruchs der KI. Laut zwei Insidern, die kontaktiert ReutersSie ist stark genug, um die Menschheit zu bedrohen.

Quellen behaupten, dass das fragliche Modell bei den Ereignissen, die zu Altmans Entlassung führten, eine zentrale Rolle gespielt haben könnte. 

Das betreffende Projekt ist unter dem Namen Q* (ausgesprochen Q-Star) bekannt. Q* wird von einigen bei OpenAI als potenzieller Meilenstein auf der Suche nach Künstliche allgemeine Intelligenz (AGI). Q* ist eine Verschmelzung von Ansätzen des maschinellen Lernens, einschließlich des Q-Learnings, das auf die 1980er Jahre zurückgeht. 

Während die Medien eine apokalyptische KI-Geschichte lieben, deuteten diese anonymen Quellen darauf hin, dass die Entscheidung des Vorstands, Altman zu entlassen, von der Sorge beeinflusst war, Q* zu früh zu kommerzialisieren, ohne dessen Auswirkungen vollständig zu verstehen. 

Reuters war jedoch nicht in der Lage, die behaupteten Fähigkeiten von Q*, wie sie von den Forschern beschrieben wurden, unabhängig zu bestätigen.

Außerdem hatte Reuters keinen Zugang zu dem Schreiben, und die für das Schreiben verantwortlichen Mitarbeiter haben nicht auf Anfragen geantwortet. 

Das lässt uns nicht viel übrig, mit dem wir arbeiten können. Die Tatsache, dass fast alle OpenAI-Mitarbeiter für Altmans Rückkehr plädiert haben, lässt es unwahrscheinlich erscheinen, dass es nur zwei waren, die sich Sorgen um Q* gemacht haben.

Nachdem Altman die Befürchtungen bezüglich Q* zurückgewiesen hatte, beschloss der Vorstand, Altman zu entlassen - zumindest wird das in diesem Schreiben und den damit verbundenen Nachrichten behauptet. 

Aber ist daran wirklich etwas dran? Oder handelt es sich nur um eine weitere seltsame und spekulative Wendung im Drama der OpenAI-Vorstandsetage?

Was ist Q*, und wie funktioniert es?

Q* (Q-Star) könnte Elemente von Q-Learning und A* (A-Star) Suchalgorithmen kombinieren, die durch einen Prozess namens Reinforcement Learning from Human Feedback (RLHF) optimiert werden. 

Es ist nicht völlig einzigartig, und in früheren Veröffentlichungen wurde bereits über Techniken im Zusammenhang mit Q* spekuliert. Diese können uns einige Hinweise darauf geben, wie es funktioniert. 

Lassen Sie uns die einzelnen Komponenten aufschlüsseln, um zu verstehen, wie sie in Q* zusammenwirken können:

Q-Lernen in Q

Q-Learning ist eine Art von Verstärkungslernalgorithmus, den es seit etwa 30 Jahren gibt. Er wurde entwickelt, um einem Agenten zu helfen, die besten Aktionen in einem bestimmten Zustand zu lernen, um eine Belohnung zu maximieren. Dies geschieht durch das Lernen einer als Q-Funktion bekannten Wertfunktion, die den erwarteten Nutzen einer bestimmten Aktion in einem bestimmten Zustand schätzt.

Im Zusammenhang mit generativen KI-Modellen, wie sie OpenAI entwickelt, könnte Q-Learning die optimale Abfolge von Wörtern oder Antworten in einem Gespräch oder einer Problemlösungsaufgabe bestimmen. 

Jedes Wort oder jede Antwort kann als eine Handlung betrachtet werden, und die Zustände können der Kontext oder die bereits erzeugte Wortfolge sein.

Ein Suchalgorithmus in Q

A* ist ein beliebter Graph-Suchalgorithmus, der für seine Effizienz und Effektivität bei der Suche nach dem kürzesten Weg von einem Startknoten zu einem Zielknoten in einem Graphen bekannt ist. 

Die Erwähnung, dass Q* "enorme Rechenressourcen" benötigt und in der Lage ist, mathematische Probleme zu lösen, deutet darauf hin, dass A* mit Q-Learning integriert werden könnte, um komplexe, mehrstufige Argumentationsprozesse zu bewältigen. 

Der Algorithmus könnte die Entscheidungsfindung über mehrere Schritte hinweg optimieren, indem er Zwischenergebnisse speichert und mögliche Sequenzen von Aktionen (oder Wörtern/Antworten) effizient durchsucht.

Die Rolle von RLHF

RLHF beinhaltet das Training von KI-Modellen mit menschlichem Feedback, um den Lernprozess zu steuern. Dazu kann es gehören, die gewünschten Ergebnisse zu demonstrieren, Fehler zu korrigieren und differenziertes Feedback zu geben, um das Verständnis und die Leistung des Modells zu verbessern.

In Q* könnte RLHF verwendet werden, um die Fähigkeit des Modells, Entscheidungen zu treffen und Probleme zu lösen, zu verfeinern, insbesondere in komplexen Szenarien mit mehreren Abzweigungen, in denen ein differenziertes Verständnis und eine differenzierte Argumentation entscheidend sind.

So könnte Q* funktionieren, aber es sagt uns nicht wirklich, wie oder warum es so alarmierend ist, und es bietet auch keine Klarheit über den Wahrheitsgehalt der Behauptungen in dem Schreiben.

Nur die Zeit wird zeigen, ob Q* echt ist und ob es ein Risiko darstellt. 

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Sam Jeans

Sam ist ein Wissenschafts- und Technologiewissenschaftler, der in verschiedenen KI-Startups gearbeitet hat. Wenn er nicht gerade schreibt, liest er medizinische Fachzeitschriften oder kramt in Kisten mit Schallplatten.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen