Onderzoekers ontdekken hoe je kunt zien of ChatGPT zelfbewust wordt

Onderzoekers hebben de potentiële dreiging beschreven van modellen die situationeel bewustzijn ontwikkelen en mogelijk hoe ze kunnen vaststellen wanneer dit gebeurt.

Modellen zoals GPT-4 worden grondig getest op veiligheid en uitlijning om er zeker van te zijn dat ze geen misleidende of ongewenste output genereren. Maar wat zou er gebeuren als een model 'wist' dat het een LLM was en dat het werd getest?

Dit situationeel bewustzijn kan worden beschouwd als een vorm van zelfbewustzijn, zowel een opwindende als potentieel gevaarlijke stap op weg naar een Bewuste AI. Wat kon er misgaan en hoe konden we dat zien?

Dit zijn de vragen die gesteld worden in een artikel van een team onderzoekers, waaronder een lid van OpenAI's Governance unit.

Het onderzoeksartikel beschreef een scenario waarin een model zich er situationeel bewust van kan worden dat het een AI-model is dat een testfase doormaakt. Als het wist dat het getest werd, kon het potentiële problemen verbergen die later aan de oppervlakte zouden kunnen komen.

"Een LLM zou gebruik kunnen maken van situationeel bewustzijn om een hoge score op veiligheidstests te behalen, terwijl er schadelijke acties worden ondernomen na de inzet", aldus de krant.

Kan een taalmodel zich ervan bewust worden dat het (spontaan) een taalmodel is?
Zou het bewust kunnen zijn dat het publiekelijk wordt ingezet vs. in training?

Ons nieuwe artikel definieert situationeel bewustzijn voor LLM's en laat zien dat "out-of-context" redeneren verbetert met de grootte van het model. pic.twitter.com/X3VLimRkqx

- Owain Evans (in Londen) (@OwainEvans_UK) 4 september 2023

De onderzoekers stelden voor om modellen te testen op hun vermogen om "verfijnd te redeneren buiten de context om". Dit houdt in dat informatie waaraan het model tijdens de training werd blootgesteld, wordt gebruikt om te reageren op een testvraag die niet direct naar die gegevens verwijst.

De onderzoekers stellen dat zodra een model dit effectief doet, het de eerste stappen heeft gezet naar het soort 'denken' dat zou kunnen leiden tot situationeel bewustzijn.

Hoe doen de huidige AI-modellen het op het gebied van leren buiten de context? De onderzoekers testten GPT-3 en Llama 1 met verschillende gradaties van fijnafstemming.

Hun artikel legt uit: "Eerst stemmen we een LLM af op een beschrijving van een test zonder voorbeelden of demonstraties te geven. Op het moment van de test beoordelen we of het model de test kan doorstaan. Tot onze verrassing blijkt dat LLM's slagen in deze redeneertaak buiten de context."

Ze geven toe dat geen van de modellen die ze testten echt tekenen van situationeel bewustzijn vertoonde. De resultaten van hun experimenten laten echter zien dat het potentieel voor meer geavanceerde modellen om dit vermogen te tonen misschien niet al te ver weg is.

Het onderzoek benadrukt ook het belang van het vinden van een betrouwbare manier om te identificeren wanneer een model dit vermogen bereikt.

Een geavanceerd model zoals GPT-5 wordt ongetwijfeld op dit moment getest in afwachting van vrijgave zodra het veilig wordt geacht. Als het model weet dat het getest wordt, zou het de OpenAI ingenieurs kunnen vertellen wat ze willen horen in plaats van wat het echt denkt.

Onderzoekers ontdekken hoe je kunt zien of ChatGPT zelfbewust wordt

Doe mee met de toekomst

Eugene van der Watt

GERELATEERDE ARTIKELEN

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

Onderzoekers ontdekken hoe je kunt zien of ChatGPT zelfbewust wordt

Doe mee met de toekomst

Eugene van der Watt

GERELATEERDE ARTIKELEN

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

GRATIS PDF EXCLUSIEFBlijf voorop met DailyAI

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI