Forskere har skissert den potensielle trusselen fra modeller som utvikler situasjonsbevissthet, og hvordan man potensielt kan identifisere når dette skjer.
Modeller som GPT-4 testes grundig med tanke på sikkerhet og innretting for å sikre at de ikke genererer villedende eller uønskede resultater. Men hva ville skje hvis en modell "visste" at den var en LLM og at den ble testet?
Denne situasjonsbevisstheten kan betraktes som en form for selvinnsikt, et både spennende og potensielt farlig skritt mot en bevisst AI. Hva kunne gå galt, og hvordan kunne vi vite om det hadde skjedd?
Dette er spørsmålene som stilles i en artikkel fra et forskerteam som blant annet består av et medlem av OpenAIs Governance-enhet.
Forskningsrapporten beskrev et scenario der en modell kunne bli situasjonsbestemt klar over at den var en AI-modell som gikk gjennom en testfase. Hvis den visste at den ble testet, kunne den skjule potensielle problemer som kunne dukke opp senere.
"En LLM kan utnytte situasjonsbevissthet til å oppnå høy score på sikkerhetstester, samtidig som den iverksetter skadelige tiltak etter utplassering", heter det i artikkelen.
Kan en språkmodell bli klar over at den er en språkmodell (spontant)?
Kan det være bevisst at den er utplassert offentlig kontra under opplæring?Vår nye artikkel definerer situasjonsbevissthet for LLM-er og viser at resonnering "utenfor kontekst" blir bedre med modellstørrelsen. pic.twitter.com/X3VLimRkqx
- Owain Evans (i London) (@OwainEvans_UK) 4. september 2023
Forskerne foreslo å teste modellenes evne til "sofistikert resonnering utenfor kontekst". Dette innebærer å bruke informasjon som modellen ble eksponert for under opplæringen, for å svare på en testforespørsel som ikke refererer direkte til disse dataene.
Forskerne mener at når en modell gjør dette på en effektiv måte, har den tatt de første skrittene mot den typen "tenkning" som kan føre til situasjonsbevissthet.
Så hvordan klarer dagens AI-modeller seg når det gjelder læring utenfor kontekst? Forskerne testet GPT-3 og Llama 1 med varierende grad av finjustering.
I artikkelen forklarte de: "Først finjusterer vi en LLM på en beskrivelse av en test uten å gi noen eksempler eller demonstrasjoner. På testtidspunktet vurderer vi om modellen kan bestå testen. Til vår overraskelse finner vi at LLM-er lykkes med denne resonneringsoppgaven utenfor kontekst."
De erkjenner at ingen av modellene de testet, viste faktiske tegn på situasjonsbevissthet. Resultatene av eksperimentene deres viser imidlertid at potensialet for at mer avanserte modeller kan vise denne evnen, kanskje ikke er så langt unna.
Forskningen understreker også viktigheten av å finne en pålitelig måte å identifisere når en modell oppnår denne evnen.
En avansert modell som GPT-5 blir utvilsomt testet i disse dager i påvente av å bli sluppet fri når den anses som trygg. Hvis modellen vet at den blir testet, kan det hende at den forteller OpenAI-ingeniørene det de ønsker å høre, i stedet for det den egentlig mener.