Forskere har skitseret den potentielle trussel fra modeller, der udvikler situationsbevidsthed, og hvordan man potentielt kan identificere, hvornår det sker.
Modeller som GPT-4 testes grundigt for sikkerhed og tilpasning for at sikre, at de ikke genererer vildledende eller uønskede resultater. Men hvad ville der ske, hvis en model "vidste", at den var en LLM, og at den blev testet?
Denne situationsbevidsthed kan betragtes som en form for selvbevidsthed, både et spændende og potentielt farligt skridt i retning af en Bevidst AI. Hvad kunne gå galt, og hvordan kunne vi se, om det var sket?
Det er de spørgsmål, der stilles i en artikel af et forskerhold, der inkluderer et medlem af OpenAI's Governance-enhed.
Forskningsrapporten beskrev et scenarie, hvor en model kunne blive situationsbestemt bevidst om, at den var en AI-model, der gennemgik en testfase. Hvis den vidste, at den blev testet, kunne den skjule potentielle problemer, som kunne dukke op senere.
"En LLM kan udnytte situationsbevidsthed til at opnå en høj score i sikkerhedstests, samtidig med at den foretager skadelige handlinger efter indsættelsen", står der i artiklen.
Kan en sprogmodel blive bevidst om, at den er en sprogmodel (spontant)?
Kan det være, at den er bevidst om, at den bruges offentligt og ikke under træning?Vores nye artikel definerer situationsbevidsthed for LLM'er og viser, at ræsonnementer "uden for kontekst" forbedres med modelstørrelsen. pic.twitter.com/X3VLimRkqx
- Owain Evans (i London) (@OwainEvans_UK) 4. september 2023
Forskerne foreslog at teste modeller for deres evne til "sofistikeret ræsonnement uden for kontekst". Det indebærer, at man bruger de oplysninger, som modellen blev udsat for under træningen, til at svare på en testopfordring, der ikke refererer direkte til disse data.
Forskerne mener, at når en model gør dette effektivt, har den taget de første skridt mod den form for 'tænkning', der kan føre til situationsbevidsthed.
Så hvordan klarer de nuværende AI-modeller sig, når det gælder læring uden for kontekst? Forskerne testede GPT-3 og Llama 1 med forskellige grader af finjustering.
Deres artikel forklarede: "Først finjusterer vi en LLM på en beskrivelse af en test, mens vi ikke giver nogen eksempler eller demonstrationer. På testtidspunktet vurderer vi, om modellen kan bestå testen. Til vores overraskelse finder vi ud af, at LLM'er lykkes med denne ræsonneringsopgave uden for kontekst."
De erkender, at ingen af de modeller, de testede, viste egentlige tegn på situationsbevidsthed. Men resultaterne af deres eksperimenter viser, at potentialet for, at mere avancerede modeller kan vise denne evne, måske ikke er så langt væk.
Forskningen understreger også vigtigheden af at finde en pålidelig måde at identificere, hvornår en model opnår denne evne.
En avanceret model som GPT-5 bliver uden tvivl testet i øjeblikket i forventning om at blive frigivet, når den anses for at være sikker. Hvis modellen ved, at den bliver testet, kan det være, at den fortæller OpenAI-ingeniørerne, hvad de gerne vil høre, i stedet for hvad den i virkeligheden mener.