Endnu en dag, endnu en drejning i OpenAI-Altman-sagaen.
Denne gang er årsagen til Altmans fyring en apokalyptisk stærk AI-model, der sidder i et OpenAI-forskningslaboratorium, eller det er i hvert fald, hvad mediekilder antyder.
Kun få dage før Sam Altmans midlertidig afgang fra OpenAI, hævder kilder, som Reuters har talt med, at virksomhedens forskere sendte et advarselsbrev til bestyrelsen.
Dette brev, som ikke blev offentliggjort før for nylig, slog alarm om et AI-gennembrud. Ifølge to insidere, som kontaktede Reuterser den stærk nok til at true menneskeheden.
Kilder hævder, at den pågældende model kan have været afgørende for de begivenheder, der førte til Altmans fyring.
Det pågældende projekt er kendt som Q* (udtales Q-Star). Q* ses af nogle hos OpenAI som en potentiel milepæl i jagten på kunstig generel intelligens (AGI). Q* er en sammensmeltning af maskinlæringsmetoder, herunder Q-learning, som stammer helt tilbage fra 1980'erne.
Mens medierne elsker en apokalyptisk AI-historie, indikerede disse anonyme kilder, at bestyrelsens beslutning om at fyre Altman var påvirket af bekymringer om for tidlig kommercialisering af Q* uden fuldt ud at forstå dens konsekvenser.
Reuters har dog ikke været i stand til uafhængigt at bekræfte Q*'s påståede evner som beskrevet af forskerne.
Desuden har Reuters ikke haft adgang til brevet, og de medarbejdere, der var ansvarlige for at skrive det, har ikke svaret på forespørgsler.
Det giver os ikke meget at arbejde med. Man må tro, at det faktum, at næsten alle OpenAI-medarbejdere plæderede for Altmans tilbagevenden, gør det usandsynligt, at der kun var to, som var bekymrede for Q*.
Efter Altmans afvisning af frygten for Q* besluttede bestyrelsen at afskedige Altman - eller det er i hvert fald, hvad dette brev og de tilhørende nyhedshistorier hævder.
Men er der noget hold i det? Eller er det bare endnu en mærkelig og spekulativ drejning i OpenAI's bestyrelsesdrama?
Hvad er Q*, og hvordan fungerer det?
Selvom det er spekulativt, kunne Q* (Q-Star) kombinere elementer fra Q-learning og A* (A Star) søgealgoritmer, der er optimeret gennem en proces kaldet Reinforcement Learning from Human Feedback (RLHF).
Det er ikke helt unikt, og der er tidligere blevet spekuleret i teknikker relateret til Q*. De kan give os nogle ledetråde til, hvordan det fungerer.
Lad os opdele hver komponent for at forstå, hvordan de kan interagere i Q*:
Q-læring i Q
Q-learning er en type forstærkende læringsalgoritme, der har eksisteret i omkring 30 år. Den er designet til at hjælpe en agent med at lære de bedste handlinger at udføre i en given tilstand for at maksimere en belønning. Det gøres ved at lære en værdifunktion kendt som en Q-funktion, som estimerer den forventede brug af at foretage en given handling i en given tilstand.
I forbindelse med generative AI-modeller som dem, OpenAI udvikler, kan Q-learning bestemme den optimale rækkefølge af ord eller svar i en samtale eller en problemløsningsopgave.
Hvert ord eller svar kan ses som en handling, og tilstandene kan være konteksten eller den sekvens af ord, der allerede er genereret.
En søgealgoritme i Q
A* er en populær grafsøgningsalgoritme, der er kendt for sin effektivitet i forhold til at finde den korteste vej fra en startknude til en målknude i en graf.
Omtalen af, at Q* har brug for "store computerressourcer" og er i stand til at løse matematiske problemer, antyder, at A* kan integreres med Q-learning for at håndtere komplekse ræsonnementsprocesser i flere trin.
Algoritmen kan optimere beslutningstagningen over flere trin ved at gemme mellemliggende resultater og effektivt søge gennem mulige sekvenser af handlinger (eller ord/svar).
RLHF's rolle
RLHF indebærer træning af AI-modeller ved hjælp af menneskelig feedback til at styre læringsprocessen. Det kan omfatte at demonstrere de ønskede resultater, rette fejl og give nuanceret feedback for at forfine modellens forståelse og ydeevne.
I Q* kan RLHF bruges til at forfine modellens evne til at træffe beslutninger og løse problemer, især i komplekse scenarier med flere drejninger, hvor nuanceret forståelse og ræsonnement er afgørende.
Det er sådan, Q* kan fungere, men det fortæller os ikke rigtig, hvordan eller hvorfor det er så alarmerende, og det giver heller ikke nogen klarhed over sandheden i brevets påstande.
Kun tiden vil vise, om Q* er ægte, og om den udgør en risiko.