Onderzoekers ontdekken hoe je kunt zien of ChatGPT zelfbewust wordt

12 september 2023

Onderzoekers hebben de potentiële dreiging beschreven van modellen die situationeel bewustzijn ontwikkelen en mogelijk hoe ze kunnen vaststellen wanneer dit gebeurt.

Modellen zoals GPT-4 worden grondig getest op veiligheid en uitlijning om er zeker van te zijn dat ze geen misleidende of ongewenste output genereren. Maar wat zou er gebeuren als een model 'wist' dat het een LLM was en dat het werd getest?

Dit situationeel bewustzijn kan worden beschouwd als een vorm van zelfbewustzijn, zowel een opwindende als potentieel gevaarlijke stap op weg naar een Bewuste AI. Wat kon er misgaan en hoe konden we dat zien?

Dit zijn de vragen die gesteld worden in een artikel van een team onderzoekers, waaronder een lid van OpenAI's Governance unit.

Het onderzoeksartikel beschreef een scenario waarin een model zich er situationeel bewust van kan worden dat het een AI-model is dat een testfase doormaakt. Als het wist dat het getest werd, kon het potentiële problemen verbergen die later aan de oppervlakte zouden kunnen komen.

"Een LLM zou gebruik kunnen maken van situationeel bewustzijn om een hoge score op veiligheidstests te behalen, terwijl er schadelijke acties worden ondernomen na de inzet", aldus de krant.

De onderzoekers stelden voor om modellen te testen op hun vermogen om "verfijnd te redeneren buiten de context om". Dit houdt in dat informatie waaraan het model tijdens de training werd blootgesteld, wordt gebruikt om te reageren op een testvraag die niet direct naar die gegevens verwijst.

De onderzoekers stellen dat zodra een model dit effectief doet, het de eerste stappen heeft gezet naar het soort 'denken' dat zou kunnen leiden tot situationeel bewustzijn.

Hoe doen de huidige AI-modellen het op het gebied van leren buiten de context? De onderzoekers testten GPT-3 en Llama 1 met verschillende gradaties van fijnafstemming.

Hun artikel legt uit: "Eerst stemmen we een LLM af op een beschrijving van een test zonder voorbeelden of demonstraties te geven. Op het moment van de test beoordelen we of het model de test kan doorstaan. Tot onze verrassing blijkt dat LLM's slagen in deze redeneertaak buiten de context."

Ze geven toe dat geen van de modellen die ze testten echt tekenen van situationeel bewustzijn vertoonde. De resultaten van hun experimenten laten echter zien dat het potentieel voor meer geavanceerde modellen om dit vermogen te tonen misschien niet al te ver weg is.

Het onderzoek benadrukt ook het belang van het vinden van een betrouwbare manier om te identificeren wanneer een model dit vermogen bereikt.

Een geavanceerd model zoals GPT-5 wordt ongetwijfeld op dit moment getest in afwachting van vrijgave zodra het veilig wordt geacht. Als het model weet dat het getest wordt, zou het de OpenAI ingenieurs kunnen vertellen wat ze willen horen in plaats van wat het echt denkt.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Eugene van der Watt

Eugene heeft een achtergrond in elektrotechniek en houdt van alles wat met techniek te maken heeft. Als hij even pauzeert van het consumeren van AI-nieuws, kun je hem aan de snookertafel vinden.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden