Forskere har funnet ut hvordan man kan se om ChatGPT blir selvbevisst

12. september 2023

Forskere har skissert den potensielle trusselen fra modeller som utvikler situasjonsbevissthet, og hvordan man potensielt kan identifisere når dette skjer.

Modeller som GPT-4 testes grundig med tanke på sikkerhet og innretting for å sikre at de ikke genererer villedende eller uønskede resultater. Men hva ville skje hvis en modell "visste" at den var en LLM og at den ble testet?

Denne situasjonsbevisstheten kan betraktes som en form for selvinnsikt, et både spennende og potensielt farlig skritt mot en bevisst AI. Hva kunne gå galt, og hvordan kunne vi vite om det hadde skjedd?

Dette er spørsmålene som stilles i en artikkel fra et forskerteam som blant annet består av et medlem av OpenAIs Governance-enhet.

Forskningsrapporten beskrev et scenario der en modell kunne bli situasjonsbestemt klar over at den var en AI-modell som gikk gjennom en testfase. Hvis den visste at den ble testet, kunne den skjule potensielle problemer som kunne dukke opp senere.

"En LLM kan utnytte situasjonsbevissthet til å oppnå høy score på sikkerhetstester, samtidig som den iverksetter skadelige tiltak etter utplassering", heter det i artikkelen.

Forskerne foreslo å teste modellenes evne til "sofistikert resonnering utenfor kontekst". Dette innebærer å bruke informasjon som modellen ble eksponert for under opplæringen, for å svare på en testforespørsel som ikke refererer direkte til disse dataene.

Forskerne mener at når en modell gjør dette på en effektiv måte, har den tatt de første skrittene mot den typen "tenkning" som kan føre til situasjonsbevissthet.

Så hvordan klarer dagens AI-modeller seg når det gjelder læring utenfor kontekst? Forskerne testet GPT-3 og Llama 1 med varierende grad av finjustering.

I artikkelen forklarte de: "Først finjusterer vi en LLM på en beskrivelse av en test uten å gi noen eksempler eller demonstrasjoner. På testtidspunktet vurderer vi om modellen kan bestå testen. Til vår overraskelse finner vi at LLM-er lykkes med denne resonneringsoppgaven utenfor kontekst."

De erkjenner at ingen av modellene de testet, viste faktiske tegn på situasjonsbevissthet. Resultatene av eksperimentene deres viser imidlertid at potensialet for at mer avanserte modeller kan vise denne evnen, kanskje ikke er så langt unna.

Forskningen understreker også viktigheten av å finne en pålitelig måte å identifisere når en modell oppnår denne evnen.

En avansert modell som GPT-5 blir utvilsomt testet i disse dager i påvente av å bli sluppet fri når den anses som trygg. Hvis modellen vet at den blir testet, kan det hende at den forteller OpenAI-ingeniørene det de ønsker å høre, i stedet for det den egentlig mener.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Eugene van der Watt

Eugene har bakgrunn som elektroingeniør og elsker alt som har med teknologi å gjøre. Når han tar en pause fra AI-nyhetene, finner du ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser