Forskere finder ud af, hvordan man kan se, om ChatGPT bliver selvbevidst

12. september 2023

Forskere har skitseret den potentielle trussel fra modeller, der udvikler situationsbevidsthed, og hvordan man potentielt kan identificere, hvornår det sker.

Modeller som GPT-4 testes grundigt for sikkerhed og tilpasning for at sikre, at de ikke genererer vildledende eller uønskede resultater. Men hvad ville der ske, hvis en model "vidste", at den var en LLM, og at den blev testet?

Denne situationsbevidsthed kan betragtes som en form for selvbevidsthed, både et spændende og potentielt farligt skridt i retning af en Bevidst AI. Hvad kunne gå galt, og hvordan kunne vi se, om det var sket?

Det er de spørgsmål, der stilles i en artikel af et forskerhold, der inkluderer et medlem af OpenAI's Governance-enhed.

Forskningsrapporten beskrev et scenarie, hvor en model kunne blive situationsbestemt bevidst om, at den var en AI-model, der gennemgik en testfase. Hvis den vidste, at den blev testet, kunne den skjule potentielle problemer, som kunne dukke op senere.

"En LLM kan udnytte situationsbevidsthed til at opnå en høj score i sikkerhedstests, samtidig med at den foretager skadelige handlinger efter indsættelsen", står der i artiklen.

Forskerne foreslog at teste modeller for deres evne til "sofistikeret ræsonnement uden for kontekst". Det indebærer, at man bruger de oplysninger, som modellen blev udsat for under træningen, til at svare på en testopfordring, der ikke refererer direkte til disse data.

Forskerne mener, at når en model gør dette effektivt, har den taget de første skridt mod den form for 'tænkning', der kan føre til situationsbevidsthed.

Så hvordan klarer de nuværende AI-modeller sig, når det gælder læring uden for kontekst? Forskerne testede GPT-3 og Llama 1 med forskellige grader af finjustering.

Deres artikel forklarede: "Først finjusterer vi en LLM på en beskrivelse af en test, mens vi ikke giver nogen eksempler eller demonstrationer. På testtidspunktet vurderer vi, om modellen kan bestå testen. Til vores overraskelse finder vi ud af, at LLM'er lykkes med denne ræsonneringsopgave uden for kontekst."

De erkender, at ingen af de modeller, de testede, viste egentlige tegn på situationsbevidsthed. Men resultaterne af deres eksperimenter viser, at potentialet for, at mere avancerede modeller kan vise denne evne, måske ikke er så langt væk.

Forskningen understreger også vigtigheden af at finde en pålidelig måde at identificere, hvornår en model opnår denne evne.

En avanceret model som GPT-5 bliver uden tvivl testet i øjeblikket i forventning om at blive frigivet, når den anses for at være sikker. Hvis modellen ved, at den bliver testet, kan det være, at den fortæller OpenAI-ingeniørerne, hvad de gerne vil høre, i stedet for hvad den i virkeligheden mener.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser