Een nieuwe dag, een nieuwe wending in de OpenAI-Altman saga.
Deze keer is de reden voor Altmans ontslag een apocalyptisch krachtig AI-model dat in een onderzoekslaboratorium van OpenAI zit, althans dat suggereren mediabronnen.
Slechts enkele dagen voor Sam Altman's tijdelijk vertrek van OpenAI, bronnen geïnterviewd door Reuters beweren dat de onderzoekers van het bedrijf een waarschuwingsbrief stuurden naar de raad van bestuur.
Deze brief, die tot voor kort niet openbaar werd gemaakt, deed alarm slaan over een AI-doorbraak. Volgens twee insiders die contact opgenomen met ReutersHet is krachtig genoeg om de mensheid te bedreigen.
Bronnen beweren dat het model in kwestie een sleutelrol zou hebben gespeeld in de gebeurtenissen die leidden tot Altmans ontslag.
Het project in kwestie staat bekend als Q* (uitgesproken als Q-Star). Q* wordt door sommigen bij OpenAI gezien als een potentiële mijlpaal in de zoektocht naar kunstmatige algemene intelligentie (AGI). Q* is een samenvoeging van benaderingen van machinaal leren, waaronder Q-learning, dat dateert uit de jaren 1980.
Hoewel de media dol zijn op een apocalyptisch AI-verhaal, gaven deze anonieme bronnen aan dat de beslissing van de raad van bestuur om Altman te ontslaan werd beïnvloed door bezorgdheid over het voortijdig commercialiseren van Q* zonder de implicaties ervan volledig te begrijpen.
Reuters was echter niet in staat om de geclaimde mogelijkheden van Q*, zoals beschreven door de onderzoekers, onafhankelijk te bevestigen.
Bovendien heeft Reuters geen toegang gehad tot de brief en de medewerkers die verantwoordelijk zijn voor het schrijven ervan hebben niet gereageerd op vragen.
Er blijft niet veel over om mee te werken. Het feit dat bijna elke OpenAI werknemer pleitte voor Altman's terugkeer maakt het onwaarschijnlijk dat er maar twee waren die zich zorgen maakten over Q*.
Nadat Altman de angst voor Q* had afgewezen, besloot het bestuur Altman te ontslaan - althans, dat is wat in deze brief en de bijbehorende nieuwsberichten wordt beweerd.
Maar zit hier enige inhoud achter? Of is het gewoon weer een vreemde en speculatieve wending in het OpenAI bestuurskamerdrama?
Wat is Q* en hoe werkt het?
Hoewel het speculatief is, zou Q* (Q-Star) elementen van Q-learning en A* (A Star) zoekalgoritmen kunnen combineren die zijn geoptimaliseerd door middel van een proces dat Reinforcement Learning from Human Feedback (RLHF) wordt genoemd.
Het is niet helemaal uniek en er is al eerder gespeculeerd over technieken die verband houden met Q*. Deze kunnen ons aanwijzingen geven over hoe het werkt.
Laten we elk onderdeel uitsplitsen om te begrijpen hoe ze op elkaar inwerken in Q*:
Q-leren in Q
Q-learning is een type algoritme voor versterkingsleren dat al zo'n 30 jaar bestaat. Het is ontworpen om een agent te helpen de beste acties te leren in een bepaalde toestand om een beloning te maximaliseren. Dit wordt gedaan door een waardefunctie te leren die bekend staat als een Q-functie, die het verwachte gebruik van een bepaalde actie in een bepaalde toestand schat.
In de context van generatieve AI-modellen zoals die OpenAI ontwikkelt, zou Q-learning de optimale volgorde van woorden of antwoorden kunnen bepalen in een gesprek of een probleemoplossingstaak.
Elk woord of antwoord kan gezien worden als een actie, en de toestanden kunnen de context of de reeds gegenereerde opeenvolging van woorden zijn.
Een zoekalgoritme in Q
A* is een populair zoekalgoritme voor grafieken dat bekend staat om zijn efficiëntie en effectiviteit bij het vinden van het kortste pad van een startknoop naar een doelknoop in een grafiek.
De vermelding dat Q* "enorme computerbronnen" nodig heeft en in staat is om wiskundige problemen op te lossen, suggereert dat A* geïntegreerd zou kunnen worden met Q-leren om complexe redeneerprocessen in meerdere stappen aan te kunnen.
Het algoritme zou de besluitvorming over meerdere stappen kunnen optimaliseren door tussenresultaten op te slaan en efficiënt te zoeken door mogelijke reeksen acties (of woorden/antwoorden).
Rol van RLHF
RLHF houdt in dat AI-modellen worden getraind met behulp van menselijke feedback om het leerproces te sturen. Dit kan bestaan uit het demonstreren van de gewenste resultaten, het corrigeren van fouten en het geven van genuanceerde feedback om het begrip en de prestaties van het model te verfijnen.
In Q* kan RLHF worden gebruikt om het vermogen van het model om beslissingen te nemen en problemen op te lossen te verfijnen, vooral in complexe scenario's met meerdere bochten waar genuanceerd begrip en redeneren cruciaal zijn.
Dat is hoe Q* zou kunnen werken, maar het vertelt ons niet echt hoe of waarom het zo alarmerend is, noch biedt het enige duidelijkheid over de waarheid van de beweringen in de brief.
De tijd zal leren of Q* echt is en of het een risico vormt.