Forskare har hittat ett sätt att avgöra om ChatGPT blir självmedveten

12 september 2023

Forskare har beskrivit det potentiella hotet från modeller som utvecklar situationsmedvetenhet och potentiellt hur man identifierar när detta händer.

Modeller som GPT-4 testas noggrant för säkerhet och anpassning för att se till att de inte genererar vilseledande eller oönskade resultat. Men vad skulle hända om en modell "visste" att den var en LLM och att den testades?

Denna situationsmedvetenhet kan betraktas som en form av självmedvetenhet, ett både spännande och potentiellt farligt steg mot en medveten AI. Vad kan gå fel, och hur vet vi om det har hänt?

Det är frågorna som ställs i en rapport från ett forskarteam där en medlem av OpenAI:s Governance-enhet ingår.

I forskningsrapporten beskrevs ett scenario där en modell kunde bli situationsmedveten om att den var en AI-modell som genomgick en testfas. Om den visste att den testades skulle den kunna dölja potentiella problem som skulle kunna dyka upp senare.

"En LLM kan utnyttja situationsmedvetenhet för att uppnå höga poäng i säkerhetstester samtidigt som den vidtar skadliga åtgärder efter utplacering", konstateras det i rapporten.

Forskarna föreslog att testa modeller för deras kapacitet för "sofistikerat resonemang utanför kontexten". Detta innebär att man använder information som modellen exponerades för i träning för att svara på en testprompt som inte hänvisar till dessa data direkt.

Forskarna menar att när en modell gör detta på ett effektivt sätt har den tagit de första stegen mot den typ av "tänkande" som kan leda till situationsmedvetenhet.

Så hur klarar sig nuvarande AI-modeller när det gäller inlärning utanför kontexten? Forskarna testade GPT-3 och Llama 1 med varierande grad av finjustering.

Deras dokument förklarade: "Först finjusterar vi en LLM på en beskrivning av ett test utan att ge några exempel eller demonstrationer. Vid testtillfället bedömer vi om modellen kan klara testet. Till vår förvåning finner vi att LLM:er lyckas med denna resonemangsuppgift utanför kontexten."

De medger att ingen av de modeller som de testade visade några faktiska tecken på situationsmedvetenhet. Resultaten av deras experiment visar dock att potentialen för mer avancerade modeller att uppvisa denna förmåga kanske inte är alltför avlägsen.

Forskningen visar också att det är viktigt att hitta ett tillförlitligt sätt att identifiera när en modell uppnår denna förmåga.

En avancerad modell som GPT-5 testas utan tvekan för närvarande i väntan på att släppas när den anses vara säker. Om modellen vet att den testas kan den berätta för OpenAI-ingenjörerna vad de vill höra, snarare än vad den verkligen tycker.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar