Ännu en dag, ännu en vändning i OpenAI-Altman-sagan.
Den här gången är anledningen till Altmans avskedande en apokalyptiskt kraftfull AI-modell som sitter i ett OpenAI-forskningslaboratorium, eller åtminstone är det vad mediekällor antyder.
Bara några dagar innan Sam Altmans tillfällig avgång från OpenAI, källor som intervjuats av Reuters hävdar att företagets forskare skickade ett varningsbrev till styrelsen.
Detta brev, som inte offentliggjordes förrän nyligen, väckte farhågor om ett genombrott för AI. Enligt två insiders som kontaktade Reuters...är den tillräckligt potent för att hota mänskligheten.
Källor hävdar att modellen i fråga kan ha varit avgörande för de händelser som ledde till Altmans avsked.
Projektet i fråga är känt som Q* (uttalas Q-Star). Q* ses av vissa på OpenAI som en potentiell milstolpe i strävan efter artificiell allmän intelligens (AGI). Q* är en sammanslagning av maskininlärningsmetoder, inklusive Q-learning, som går tillbaka till 1980-talet.
Även om media älskar en apokalyptisk AI-historia, indikerade dessa anonyma källor att styrelsens beslut att avskeda Altman påverkades av oro för att kommersialisera Q* i förtid utan att fullt ut förstå dess konsekvenser.
Reuters har dock inte kunnat få någon oberoende bekräftelse på Q*:s påstådda kapacitet enligt forskarnas beskrivning.
Dessutom har Reuters inte haft tillgång till brevet, och den personal som ansvarade för att skriva det har inte svarat på förfrågningar.
Det ger oss inte mycket att arbeta med. Du måste tro att det faktum att nästan alla OpenAI-anställda vädjade om Altmans återkomst gör att det verkar osannolikt att det bara var två som var oroliga för Q *.
Efter att Altman avvisat farhågorna om Q* beslutade styrelsen att avskeda Altman - det är i alla fall vad som påstås i detta brev och i de tillhörande nyhetsartiklarna.
Men finns det någon substans i detta? Eller är det bara ytterligare en märklig och spekulativ vändning i OpenAI:s styrelsedrama?
Vad är Q* och hur fungerar det?
Q* (Q-Star) skulle kunna kombinera delar av Q-learning och A* (A Star), sökalgoritmer som optimerats genom en process som kallas Reinforcement Learning from Human Feedback (RLHF).
Det är inte helt unikt och det har spekulerats i tekniker relaterade till Q* tidigare. Dessa kan ge oss några ledtrådar om hur det fungerar.
Låt oss bryta ned varje komponent för att förstå hur de kan samverka i Q*:
Q-learning i Q
Q-learning är en typ av förstärkande inlärningsalgoritm som har funnits i cirka 30 år. Den är utformad för att hjälpa en agent att lära sig de bästa åtgärderna att vidta i ett visst tillstånd för att maximera en belöning. Detta görs genom att lära sig en värdefunktion, en så kallad Q-funktion, som uppskattar den förväntade användningen av att vidta en viss åtgärd i ett visst tillstånd.
I samband med generativa AI-modeller, som de OpenAI utvecklar, kan Q-learning avgöra den optimala sekvensen av ord eller svar i en konversation eller en problemlösningsuppgift.
Varje ord eller svar kan ses som en handling, och tillstånden kan vara sammanhanget eller sekvensen av ord som redan genererats.
En sökalgoritm i Q
A* är en populär grafsökningsalgoritm som är känd för sin effektivitet när det gäller att hitta den kortaste vägen från en startnod till en målnod i en graf.
Omnämnandet av att Q* behöver "stora datorresurser" och kan lösa matematiska problem tyder på att A* skulle kunna integreras med Q-learning för att hantera komplexa resonemangsprocesser i flera steg.
Algoritmen kan optimera beslutsfattandet i flera steg genom att lagra mellanliggande resultat och effektivt söka igenom möjliga sekvenser av åtgärder (eller ord/svar).
RLHF:s roll
RLHF innebär att AI-modeller tränas med hjälp av mänsklig återkoppling för att styra inlärningsprocessen. Detta kan inkludera att demonstrera de önskade resultaten, korrigera misstag och ge nyanserad feedback för att förfina modellens förståelse och prestanda.
I Q* kan RLHF användas för att förfina modellens förmåga att fatta beslut och lösa problem, särskilt i komplexa scenarier med flera vändningar där nyanserad förståelse och resonemang är avgörande.
Det är så Q* kan fungera, men det berättar inte riktigt hur eller varför det är så alarmerande, och det ger inte heller någon klarhet i sanningshalten i brevets påståenden.
Endast framtiden kan utvisa om Q* är äkta och om det utgör någon risk.