En ny dag, en ny vending i OpenAI-Altman-sagaen.
Denne gangen er årsaken til Altmans avskjed en apokalyptisk kraftig AI-modell som sitter i et OpenAI-forskningslaboratorium, eller det er i hvert fall det mediekilder antyder.
Bare dager før Sam Altmans midlertidig avgang fra OpenAI, hevder kilder intervjuet av Reuters at selskapets forskere sendte et advarselsbrev til styret.
Dette brevet, som ikke ble offentliggjort før nylig, slo alarm om et AI-gjennombrudd. Ifølge to innsidere som kontaktet Reuterser det potent nok til å true menneskeheten.
Kilder hevder at den aktuelle modellen kan ha vært sentral i hendelsene som førte til Altmans avskjed.
Prosjektet det er snakk om, er kjent som Q* (uttales Q-Star). Q* blir av enkelte i OpenAI sett på som en potensiell milepæl i jakten på kunstig generell intelligens (AGI). Q* er en sammenslåing av maskinlæringsmetoder, blant annet Q-læring, som stammer fra 1980-tallet.
Mediene elsker en apokalyptisk AI-historie, men disse anonyme kildene antydet at styrets beslutning om å sparke Altman var påvirket av bekymring for å kommersialisere Q* for tidlig uten å forstå konsekvensene fullt ut.
Reuters har imidlertid ikke vært i stand til å få en uavhengig bekreftelse på de påståtte egenskapene til Q*, slik de er beskrevet av forskerne.
Reuters har heller ikke fått tilgang til brevet, og de ansvarlige for å skrive det har ikke besvart henvendelser.
Det gir oss ikke mye å jobbe med. Det faktum at nesten alle OpenAI-ansatte ba om at Altman skulle komme tilbake, gjør det usannsynlig at det bare var to som var bekymret for Q*.
Etter at Altman avviste frykten for Q*, besluttet styret å avskjedige Altman - det er i hvert fall det som påstås i dette brevet og de tilhørende nyhetssakene.
Men er det noe hold i dette? Eller er det bare nok en merkelig og spekulativ vri i OpenAI-styreromsdramaet?
Hva er Q*, og hvordan fungerer det?
Selv om det er spekulativt, kan Q* (Q-Star) kombinere elementer fra Q-læring og A* (A Star), søkealgoritmer som er optimalisert gjennom en prosess som kalles Reinforcement Learning from Human Feedback (RLHF).
Det er ikke helt unikt, og det har tidligere blitt spekulert i teknikker knyttet til Q*. Disse kan gi oss noen ledetråder om hvordan det fungerer.
La oss bryte ned hver komponent for å forstå hvordan de kan samhandle i Q*:
Q-læring i Q
Q-læring er en type forsterkningslæringsalgoritme som har eksistert i rundt 30 år. Den er utviklet for å hjelpe en agent med å lære hvilke handlinger som er best å utføre i en gitt tilstand for å maksimere en belønning. Dette gjøres ved å lære seg en verdifunksjon, en såkalt Q-funksjon, som estimerer den forventede nytten av å utføre en gitt handling i en gitt tilstand.
I forbindelse med generative AI-modeller som de OpenAI utvikler, kan Q-læring bestemme den optimale rekkefølgen av ord eller svar i en samtale eller en problemløsningsoppgave.
Hvert ord eller hver respons kan ses på som en handling, og tilstandene kan være konteksten eller sekvensen av ord som allerede er generert.
En søkealgoritme i Q
A* er en populær grafsøkealgoritme som er kjent for sin effektivitet når det gjelder å finne den korteste veien fra en startnode til en målnode i en graf.
Omtalen av at Q* trenger "enorme databehandlingsressurser" og er i stand til å løse matematiske problemer, tyder på at A* kan integreres med Q-læring for å håndtere komplekse resonneringsprosesser i flere trinn.
Algoritmen kan optimalisere beslutningsprosessen over flere trinn ved å lagre mellomresultater og effektivt søke gjennom mulige sekvenser av handlinger (eller ord/svar).
RLHFs rolle
RLHF innebærer opplæring av AI-modeller ved hjelp av menneskelige tilbakemeldinger for å styre læringsprosessen. Dette kan omfatte å demonstrere ønskede resultater, korrigere feil og gi nyanserte tilbakemeldinger for å forbedre modellens forståelse og ytelse.
I Q* kan RLHF brukes til å forbedre modellens evne til å ta beslutninger og løse problemer, spesielt i komplekse scenarier med flere svinger, der nyansert forståelse og resonnement er avgjørende.
Det er slik Q* kan fungere, men det forteller oss egentlig ikke hvordan eller hvorfor det er så alarmerende, og det gir heller ingen klarhet i sannhetsgehalten i brevets påstander.
Tiden vil vise om Q* er ekte, og om det utgjør noen risiko.