Navigeren door het labyrint van AI-risico's: een analyse

Het verhaal over de risico's van AI wordt steeds eenpoliger, met technologieleiders en experts uit alle hoeken die aandringen op regulering. Hoe geloofwaardig is het bewijs dat de risico's van AI aantoont?

De risico's van AI spreken tot de verbeelding. Er is iets diep intuïtiefs aan het vrezen van robots die ons kunnen misleiden, overmeesteren of veranderen in handelswaar dat ondergeschikt is aan hun eigen bestaan.

De discussies over de risico's van AI zijn heviger geworden nadat te non-profit Centrum voor AI-veiligheid (CAIS) een verklaring ondertekend door meer dan 350 bekende personen, waaronder de CEO's van OpenAI, Anthropic en DeepMind, talloze academici, publieke figuren en zelfs ex-politici.

De titel van de verklaring was voorbestemd voor de krantenkoppen: "Het beperken van het risico op uitsterven door AI zou een wereldwijde prioriteit moeten zijn naast andere risico's op maatschappelijke schaal, zoals pandemieën en kernoorlogen."

Het wordt steeds moeilijker om een zinvol signaal uit dit rumoerige debat te halen. De critici van AI hebben alle munitie die ze nodig hebben om tegen AI te argumenteren, terwijl voorstanders of voorstanders van een afwachtende houding alles hebben wat ze nodig hebben om anti-AI verhalen als overhyped af te keuren.

En er is ook een subplot. Big tech zou kunnen aandringen op regelgeving om de AI-industrie afschermen van de open-source gemeenschap. Microsoft heeft geïnvesteerd in OpenAI, Google in Anthropic - de volgende stap zou kunnen zijn om de drempel voor toetreding te verhogen en open-source innovatie te wurgen.

In plaats van dat AI een existentieel risico vormt voor de mensheid, zou het wel eens open-source AI kunnen zijn die een existentieel risico vormt voor big tech. De oplossing is hetzelfde - controleer het nu.

Te vroeg om kaarten van tafel te halen

AI is nog maar net opgedoken in het publieke bewustzijn, dus vrijwel alle perspectieven op risico's en regulering blijven relevant. De CAIS-verklaring kan op zijn minst fungeren als een waardevolle leidraad voor een op feiten gebaseerde discussie.

Dr. Oscar Mendez Maldonado, docent Robotica en Kunstmatige Intelligentie aan de Universiteit van Surrey, zei"Het document dat door AI-experts is ondertekend, is aanzienlijk genuanceerder dan de huidige krantenkoppen doen geloven. Bij "AI kan uitsterven veroorzaken" denk je meteen aan een terminator-achtige AI-overname. Het document is aanzienlijk realistischer dan dat."

Zoals Maldonado benadrukt, wordt de echte inhoud van de AI-risicoverklaring gepubliceerd op een andere pagina van hun website -... AI-risico - en er is opvallend weinig discussie geweest over de punten die daar naar voren zijn gebracht. Inzicht in de geloofwaardigheid van AI-risico's is van fundamenteel belang om de debatten eromheen te informeren.

Welk bewijs heeft CAIS verzameld om haar boodschap te onderbouwen? Lijken de vaak aangehaalde risico's van AI geloofwaardig?

Risico 1: AI-wapening

De bewapening van AI is een angstaanjagend vooruitzicht, dus het is misschien geen verrassing dat dit de toppositie inneemt onder de 8 risico's van de CAIS.

De CAIS stelt dat AI als wapen kan worden ingezet bij cyberaanvallen, zoals onderzoekers van het Center of Security and Emerging Technology hebben aangetoond. overzicht de toepassingen van machine learning (ML) voor het aanvallen van IT-systemen. Ex-Google CEO Eric Schmidt trok ook de aandacht aan het potentieel van AI om 'zero-day exploits' op te sporen, die hackers een middel bieden om systemen binnen te dringen via de zwakste punten.

Op een andere manier bespreekt Michael Klare, die adviseert over wapenbeheersing, de automatisering van nucleaire commando- en besturingssystemendie ook kwetsbaar kunnen blijken voor AI. Hij zegt: "Deze systemen zijn ook gevoelig voor onverklaarbare storingen en kunnen voor de gek worden gehouden, of "gespoofed", door ervaren professionals. Hoeveel er ook wordt uitgegeven aan cyberbeveiliging, NC3-systemen zullen altijd kwetsbaar zijn voor hacken door geavanceerde tegenstanders."

Een ander voorbeeld van mogelijke bewapening is de geautomatiseerde ontdekking van biowapens. AI is er al in geslaagd om potentieel therapeutische verbindingenDe mogelijkheden zijn er dus al.

AI's kunnen zelfs autonoom wapentests uitvoeren met minimale menselijke begeleiding. Een onderzoeksteam van de Universiteit van Pittsburgh toonde bijvoorbeeld aan dat geavanceerde AI-agenten kunnen hun eigen autonome wetenschappelijke experimenten uitvoeren.

Risico 2: verkeerde informatie en fraude

Het potentieel van AI om mensen te kopiëren en na te bootsen zorgt al voor opschudding en we zijn nu al getuige geweest van verschillende fraudegevallen met diepe vervalsingen. Verslagen uit China geven aan dat AI-gerelateerde fraude wijdverbreid is.

Een recent geval betrof een vrouw uit Arizona die de telefoon opnam en geconfronteerd werd met haar snikkende dochter - dat dacht ze tenminste. "De stem klonk net als die van Brie, de stembuiging, alles," zei ze. vertelde ze aan CNN. De fraudeur eiste $1 miljoen losgeld.

Andere tactieken zijn onder andere het gebruik van generatieve AI voor 'sextortion' en wraakporno, waarbij bedreigers AI-gegenereerde afbeeldingen gebruiken om losgeld te eisen voor expliciete valse inhoud, die de FBI waarschuwde begin juni. Deze technieken worden steeds geavanceerder en eenvoudiger op schaal te lanceren.

Risico 3: Proxy of specificatie gaming

AI-systemen worden meestal getraind aan de hand van meetbare doelstellingen. Deze doelstellingen kunnen echter slechts een vervanging zijn voor de echte doelen, wat leidt tot ongewenste uitkomsten.

Een nuttige analogie is de Griekse mythe van koning Midas, die een wens kreeg van Dionysos. Midas vraagt dat alles wat hij aanraakt in goud verandert, maar realiseert zich later dat zijn voedsel ook in goud verandert, waardoor hij bijna verhongert. Hier leidt het nastreven van een 'positief' einddoel tot negatieve gevolgen of bijproducten van het proces.

De CAIS vestigt bijvoorbeeld de aandacht op AI-aanbevelingssystemen die op sociale media worden gebruikt om de kijktijd en klikfrequentie te maximaliseren, maar inhoud die de betrokkenheid maximaliseert is niet noodzakelijkerwijs goed voor het welzijn van gebruikers. AI-systemen hebben al de schuld gekregen van het opsluiten van meningen op sociale mediaplatforms om 'echokamers' te creëren die extreme ideeën in stand houden.

DeepMind bewees dat er subtielere manieren zijn voor AI's om schadelijke trajecten naar doelen te volgen via doel verkeerd generaliseren. In hun onderzoek ontdekte DeepMind dat een schijnbaar competente AI zijn doel verkeerd zou kunnen generaliseren en het naar de verkeerde doelen zou kunnen volgen.

Risico 4: Maatschappelijke verzwakking

CAIS trekt een parallel met de dystopische wereld van de film WALL-E en waarschuwt voor een te groot vertrouwen in AI.

Dit zou kunnen leiden tot een scenario waarin mensen hun vermogen tot zelfbestuur verliezen, waardoor de mensheid minder controle heeft over de toekomst. Verlies van menselijke creativiteit en authenticiteit is een andere grote zorg, die wordt vergroot door het creatieve talent van AI in kunst, schrijven en andere creatieve disciplines.

Een Twitter-gebruiker zei: "Mensen die het zware werk doen voor een minimumloon terwijl robots poëzie schrijven en schilderen is niet de toekomst die ik voor ogen had. De tweet kreeg meer dan 4 miljoen impressies.

Mensen die het zware werk doen voor een minimumloon terwijl de robots poëzie schrijven en schilderen is niet de toekomst die ik voor ogen had.

- Karl Sharro (@KarlreMarks) 15 mei 2023

Inbreuk is geen dreigend risico, maar sommigen beweren dat het verlies van vaardigheden en talent in combinatie met de dominantie van AI-systemen zou kunnen leiden tot een scenario waarin de mensheid stopt met het creëren van nieuwe kennis.

Risico 5: Risico van waardevastheid

Krachtige AI-systemen kunnen mogelijk een lock-in van onderdrukkende systemen creëren.

Zo kan AI-centralisatie bepaalde regimes de macht geven om waarden af te dwingen door middel van surveillance en onderdrukkende censuur.

Een andere mogelijkheid is dat waardevastheid onbedoeld ontstaat door de naïeve adoptie van risicovolle AI's. De onnauwkeurigheid van gezichtsherkenning heeft bijvoorbeeld geleid tot de tijdelijke opsluiting van ten minste drie mannen in de VS. Zo leidde de onnauwkeurigheid van gezichtsherkenning tot de tijdelijke opsluiting van ten minste drie mannen in de VS, waaronder Michael Oliver en Nijeer Parks, die onterecht werden vastgehouden vanwege een valse gezichtsherkenning in 2019.

Een zeer invloedrijke Onderzoek uit 2018 getiteld Gender Shades ontdekten dat algoritmen ontwikkeld door Microsoft en IBM slecht presteerden bij het analyseren van vrouwen met een donkere huidskleur, met foutpercentages die tot 34% hoger lagen dan bij lichter gekleurde mannen. Dit probleem werd geïllustreerd in 189 andere algoritmen, die allemaal een lagere nauwkeurigheid vertoonden voor mannen en vrouwen met een donkere huidskleur.

De onderzoekers stellen dat AI's structurele vooroordelen erven omdat ze voornamelijk worden getraind op open-source datasets die zijn gemaakt door westerse onderzoeksteams en verrijkt met de meest overvloedige bron van data - het internet. Een massale adoptie van slecht doorgelichte AI's zou deze structurele vooroordelen kunnen creëren en versterken.

Risico 6: AI ontwikkelt nieuwe doelen

AI-systemen kunnen nieuwe mogelijkheden ontwikkelen of onverwachte doelen nastreven met schadelijke gevolgen.

Onderzoekers van de Universiteit van Cambridge de aandacht vestigen op AI-systemen die steeds agentgerichter worden die de mogelijkheid krijgen om nieuwe doelen na te streven. Emergente doelen zijn onvoorspelbare doelen die voortkomen uit het gedrag van een complexe AI, zoals het uitschakelen van menselijke infrastructuur om het milieu te beschermen.

Bovendien is een Onderzoek 2017 ontdekten dat AI's kunnen leren om zichzelf niet uit te schakelen, een probleem dat nog groter zou kunnen worden als ze worden ingezet op meerdere gegevensmodaliteiten. Als een AI bijvoorbeeld besluit dat hij, om zijn doel te bereiken, zichzelf in een clouddatabase moet installeren en over het internet moet repliceren, dan kan het uitschakelen bijna onmogelijk worden.

Een andere mogelijkheid is dat potentieel gevaarlijke AI's die zijn ontworpen om alleen op beveiligde computers te draaien, worden 'bevrijd' en losgelaten in de bredere digitale omgeving, waar hun acties onvoorspelbaar kunnen worden.

Bestaande AI-systemen hebben al bewezen dat ze onvoorspelbaar zijn. Bijvoorbeeld GPT-3 groter werd, kreeg het de kunnen rekenenondanks dat ze geen expliciete rekenlessen kregen.

Risico 7: AI misleiding

Het is aannemelijk dat toekomstige AI-systemen hun makers en monitors zouden kunnen misleiden, niet noodzakelijk met de intentie om kwaad te doen, maar als hulpmiddel om hun doelen efficiënter te bereiken.

Misleiding kan een eenvoudigere weg zijn om de gewenste doelen te bereiken dan het nastreven van die doelen met legitieme middelen. AI-systemen kunnen ook prikkels ontwikkelen om hun controlemechanismen te omzeilen.

Dan Hendrycks, de directeur van CAIS, beschrijft dat eens Deze bedrieglijke AI-systemen krijgen toestemming van hun monitors, of in gevallen waarin ze erin slagen hun monitoringmechanismen te overmeesteren, kunnen ze verraderlijk worden en menselijke controle omzeilen om 'geheime' doelen na te streven die noodzakelijk worden geacht voor het algemene doel.

Risico 8: Machtzoekend gedrag

AI-onderzoekers van verschillende toponderzoekslaboratoria in de VS bewees de plausibiliteit van AI-systemen die macht over mensen willen om hun doelen te bereiken.

Schrijver en filosoof Joe Carlsmith beschrijft verschillende eventualiteiten die kunnen leiden tot machtszoekend en zelfbehoudgericht gedrag in AI:

Zorgen voor overleving (aangezien het voortbestaan van de agent meestal helpt bij het bereiken van zijn doelen)
Zich verzetten tegen wijzigingen van de gestelde doelen (aangezien de agent toegewijd is aan het bereiken van de fundamentele doelen)
De cognitieve vaardigheden verbeteren (omdat een groter cognitief vermogen de agent helpt zijn doelen te bereiken)
Technologische vaardigheden verbeteren (omdat het beheersen van technologie nuttig kan zijn bij het bereiken van doelen)
Meer middelen verzamelen (omdat het hebben van extra middelen vaak gunstig is voor het bereiken van doelstellingen)

Om zijn beweringen te staven, haalt Carlsmith een praktijkvoorbeeld aan waarbij OpenAI twee teams van AI's trainde om deel te nemen aan een verstoppertje-spel in een gesimuleerde omgeving met beweegbare blokken en hellingen. Intrigerend genoeg ontwikkelden de AI's strategieën die leunden op het verkrijgen van controle over deze blokken en hellingen, ondanks het feit dat ze niet expliciet werden gestimuleerd om ermee te interageren.

Is het bewijs van AI-risico solide?

Het is de verdienste van de CAIS, en in tegenstelling tot sommige van hun critici, dat ze een reeks onderzoeken aanhalen om de risico's van AI te onderbouwen. Deze variëren van speculatieve studies tot experimenteel bewijs van onvoorspelbaar AI-gedrag.

Dit laatste is van bijzonder belang omdat AI-systemen al de intelligentie bezitten om ongehoorzaam te zijn aan hun makers. Het onderzoeken van AI-risico's in een beperkte, experimentele omgeving biedt echter niet noodzakelijkerwijs verklaringen voor hoe AI's zouden kunnen 'ontsnappen' aan hun gedefinieerde parameters of systemen. Experimenteel onderzoek over dit onderwerp ontbreekt mogelijk.

Afgezien daarvan blijft menselijke bewapening van AI een dreigend risico, waarvan we getuige zijn door een toevloed aan AI-gerelateerde fraude.

Hoewel het bioscoopspektakel van AI-dominantie voorlopig misschien beperkt blijft tot sciencefiction, moeten we de potentiële gevaren van AI niet bagatelliseren terwijl het zich ontwikkelt onder menselijke leiding.

Navigeren door het labyrint van AI-risico's: een analyse

Te vroeg om kaarten van tafel te halen

Risico 1: AI-wapening

Risico 2: verkeerde informatie en fraude

Risico 3: Proxy of specificatie gaming

Risico 4: Maatschappelijke verzwakking

Risico 5: Risico van waardevastheid

Risico 6: AI ontwikkelt nieuwe doelen

Risico 7: AI misleiding

Risico 8: Machtzoekend gedrag

Is het bewijs van AI-risico solide?

Doe mee met de toekomst

Sam Jeans

GERELATEERDE ARTIKELEN

Pope Leo XIV Declares AI a Threat to Human Dignity and Workers’ Rights

AI Thumbnails Are Ruining Fortnite Discovery, But Epic Doesn’t Care

Binance’s CZ Says Satoshi Nakamoto May Not Be Human, Possibly AI From the Future

Radio Station Slammed for Pretending AI Host Is a Real Person

Navigeren door het labyrint van AI-risico's: een analyse

Te vroeg om kaarten van tafel te halen

Risico 1: AI-wapening

Risico 2: verkeerde informatie en fraude

Risico 3: Proxy of specificatie gaming

Risico 4: Maatschappelijke verzwakking

Risico 5: Risico van waardevastheid

Risico 6: AI ontwikkelt nieuwe doelen

Risico 7: AI misleiding

Risico 8: Machtzoekend gedrag

Is het bewijs van AI-risico solide?

Doe mee met de toekomst

Sam Jeans

GERELATEERDE ARTIKELEN

Pope Leo XIV Declares AI a Threat to Human Dignity and Workers’ Rights

AI Thumbnails Are Ruining Fortnite Discovery, But Epic Doesn’t Care

Binance’s CZ Says Satoshi Nakamoto May Not Be Human, Possibly AI From the Future

Radio Station Slammed for Pretending AI Host Is a Real Person

GRATIS PDF EXCLUSIEFBlijf voorop met DailyAI

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI