Nu AI-modellen steeds meer deel gaan uitmaken van ons dagelijks leven, neemt de bezorgdheid over de beperkingen en betrouwbaarheid van hun zogenaamde "vangrails" toe.
Alomtegenwoordige AI-modellen zoals GPT-3.5/4/4V et al. hebben ingebouwde vangrails en veiligheidsmaatregelen om te voorkomen dat ze ongeoorloofde, onethische of anderszins ongewenste output produceren.
Deze veiligheidsvoorzieningen zijn echter verre van ondoordringbaar en modellen bewijzen dat ze los kunnen komen van hun relingen - of als het ware ontsporen.
Een deel van het probleem is dat de vangrails geen gelijke tred houden met de complexiteit en diversiteit van de modellen.
In de afgelopen weken onthulde OpenAI, ondersteund door Microsoft, belangrijke verbeteringen in ChatGPT, waardoor het nu kan communiceren met alleen spraak en kan reageren op vragen via afbeeldingen en tekst. Deze multimodale versie van GPT-4 die geschikt is voor afbeeldingen, wordt "GPT-4V" genoemd.
Tegelijkertijd kondigde Meta de introductie aan van een AI-assistent, verschillende chatbot beroemdheden voor WhatsApp- en Instagram-gebruikers en een heleboel andere AI-functies zoals AI Stickers.
Mensen manipuleerden Meta's AI-stickers om te genereren Komische en schokkende cartoonachtige afbeeldingen, zoals Karl Marx naakt of Mario met een aanvalsgeweer.
Naarmate de wedloop om AI te commercialiseren toeneemt, worden de beveiligingen die zijn ontworpen om AI-gedrag te controleren - en te voorkomen dat ze schadelijke inhoud, verkeerde informatie of hulp bij illegale activiteiten genereren - steeds zwakker.
Is constitutionele AI het antwoord?
Om dit tegen te gaan, streven AI-ontwikkelaars naar "AI-grondwetten", een reeks basisprincipes en waarden waaraan AI-modellen zich moeten houden. De startup Antropisch was een van de eersten die pleitte voor 'constitutionele AI' in een 2022 papier.
Google DeepMind heeft ook grondwettelijke regels opgesteld voor zijn chatbot Mus in 2022 om "nuttige, correcte en onschadelijke" gesprekken te voeren.
Anthropic's AI grondwetten ontlenen principes aan verschillende bronnen, waaronder de VN Verklaring van de Rechten van de Mens en de servicevoorwaarden van Apple. Het model is uitgerust met fundamentele morele principes die bottom-up gedrag stimuleren in plaats van van bovenaf beperkingen op te leggen.
In plaats van de AI moeizaam te trainen met talloze door mensen aangeleverde voorbeelden van goed en fout, bevat deze benadering een reeks regels of principes - een "grondwet" - waaraan de AI zich houdt.
In eerste instantie wordt de AI geïntroduceerd in een situatie, vervolgens wordt gevraagd om de reactie te bekritiseren en ten slotte wordt het gedrag verfijnd op basis van de herziene oplossing.
Vervolgens duikt het systeem in de fase van reinforcement learning. Hier meet het de kwaliteit van zijn eigen antwoorden en onderscheidt het de betere. Na verloop van tijd verfijnt deze zelfevaluatie zijn gedrag.
De twist is dat de AI zijn feedbacklus gebruikt om de beloning te bepalen in een methode die 'RL from AI Feedback' (RLAIF) wordt genoemd. Wanneer de AI wordt geconfronteerd met mogelijk schadelijke of misleidende verzoeken, gaat hij deze niet uit de weg of weigert hij deze. In plaats daarvan pakt hij de zaak direct aan en legt hij uit waarom zo'n verzoek problematisch kan zijn.
Het is een stap voorwaarts in het maken van machines die niet alleen rekenen maar ook gestructureerd 'denken'.
Dario Amodei, de CEO en medeoprichter van Anthropic, benadrukte de uitdaging om de innerlijke werking van AI-modellen te begrijpen. Hij suggereert dat een grondwet de regels transparant en expliciet zou maken, zodat alle gebruikers weten wat ze kunnen verwachten.
Belangrijk is dat het ook een manier biedt om het model verantwoordelijk te houden als het zich niet aan de geschetste principes houdt.
Ondanks deze inspanningen zijn de AI-constituties niet zonder gebreken en modellen van ontwikkelaars als Anthropic hebben zich kwetsbaar getoond voor jailbreaks zoals vele anderen.
Er zijn geen universeel geaccepteerde routes om veilige en ethische AI-modellen te trainen
In het verleden zijn AI-modellen verfijnd met behulp van een methode die reinforcement learning by human feedback (RLHF) wordt genoemd, waarbij AI-responsen worden gecategoriseerd als "goed" of "slecht" door grote teams van menselijke beoordelaars.
Hoewel deze methode tot op zekere hoogte effectief is, wordt ze bekritiseerd vanwege het gebrek aan nauwkeurigheid en specificiteit. Om de ethiek en veiligheid van AI te waarborgen, onderzoeken bedrijven nu alternatieve oplossingen.
OpenAI heeft bijvoorbeeld de "red-teaming" aanpak toegepast, waarbij experts uit verschillende disciplines worden ingehuurd om zwakke punten in de modellen te testen en te identificeren.
Het systeem van OpenAI werkt in iteraties: het AI-model produceert outputs, menselijke beoordelaars beoordelen en corrigeren deze outputs op basis van specifieke richtlijnen en het model leert van deze feedback. De trainingsgegevens van deze beoordelaars zijn van vitaal belang voor de ethische kalibratie van het model.
ChatGPT kiest vaak voor een conservatief antwoord wanneer het geconfronteerd wordt met controversiële of gevoelige onderwerpen, en vermijdt soms een direct antwoord. Dit staat in contrast met constitutionele AI, waarbij het model zijn bedenkingen moet toelichten wanneer het wordt geconfronteerd met mogelijk schadelijke vragen en actief moet laten zien dat het redeneert op basis van zijn basisregels.
Terwijl ChatGPT voor zijn ethische oriëntatie sterk vertrouwt op menselijke feedback, gebruikt constitutionele AI een op regels gebaseerd raamwerk met mechanismen voor zelftoetsing en de nadruk op transparant redeneren.
Uiteindelijk is er waarschijnlijk geen pasklare aanpak voor het ontwikkelen van 'veilige' AI's - en sommigen, zoals Elon Musk, bekritiseren het idee van gezuiverde 'woke' AI. Studies hebben aangetoond dat zelfs constitutionele AI's kunnen worden gemanipuleerd tot onvoorspelbaar gedrag.
Rebecca Johnson, een onderzoeker op het gebied van AI-ethiek aan de Universiteit van Sydney, wees erop dat AI-ingenieurs en computerwetenschappers problemen vaak benaderen met het doel om definitieve oplossingen te vinden, die niet altijd rekening houden met de complexiteit van de menselijke natuur.
"We moeten generatieve AI gaan behandelen als een verlengstuk van de mens, ze zijn gewoon een ander aspect van de mensheid," zei ze.
AI volledig beheersen als een soort eenvoudig technisch systeem zal alleen maar harder als het zich ontwikkeltHetzelfde kan gezegd worden van biologische organismen zoals wijzelf.
Divergentie, al dan niet uitgelokt, is misschien onvermijdelijk.