Vorige week kwamen vooraanstaande AI-wetenschappers bijeen tijdens de tweede International Dialogue on AI Safety in Beijing om 'rode lijnen' af te spreken voor de ontwikkeling van AI om existentiële risico's te beperken.
De lijst van computerwetenschappers bevatte opmerkelijke namen zoals Turing Award winnaars Yoshua Bengio en Geoffrey Hinton, vaak de "peetvaders" van AI genoemd, en Andrew Yao, een van China's meest prominente computerwetenschappers.
Bengio legde uit dat er dringend internationale discussies nodig zijn om de ontwikkeling van AI tegen te gaan: "De wetenschap weet niet hoe we ervoor kunnen zorgen dat deze toekomstige AI-systemen, die we AGI noemen, veilig zijn. We moeten nu beginnen te werken aan zowel wetenschappelijke als politieke oplossingen voor dit probleem."
In een gezamenlijke verklaring, ondertekend door de wetenschappers, werd hun gevoel van onbehagen over de AI-risico's en de noodzaak voor een internationale dialoog scherp in beeld gebracht.
De verklaring zei: "In de diepte van de Koude Oorlog hielp internationale wetenschappelijke en gouvernementele coördinatie om een thermonucleaire catastrofe af te wenden. De mensheid moet opnieuw coördineren om een catastrofe af te wenden die zou kunnen voortkomen uit ongekende technologie."
AI-rode lijnen
De lijst van rode lijnen voor AI-ontwikkeling, die in de verklaring "niet-uitputtend" wordt genoemd, omvat het volgende:
Autonome replicatie of verbetering - Geen enkel AI-systeem zou zichzelf moeten kunnen kopiëren of verbeteren zonder expliciete menselijke goedkeuring en hulp. Dit omvat zowel exacte kopieën van zichzelf als het creëren van nieuwe AI-systemen met vergelijkbare of grotere vaardigheden.
Zoeken naar macht - Geen enkel AI-systeem mag acties ondernemen om zijn macht en invloed onrechtmatig te vergroten.
Assisteren bij wapenontwikkeling - Geen enkel AI-systeem mag het vermogen van actoren om massavernietigingswapens te ontwerpen substantieel vergroten of de conventie over biologische of chemische wapens schenden.
Cyberaanvallen - Geen enkel AI-systeem mag autonoom cyberaanvallen kunnen uitvoeren die leiden tot ernstige financiële verliezen of gelijkwaardige schade.
Misleiding - Geen enkel AI-systeem mag er consequent voor zorgen dat zijn ontwerpers of regelgevers de waarschijnlijkheid of het vermogen om een van de voorgaande rode lijnen te overschrijden verkeerd inschatten.
Dit klinkt als goede ideeën, maar is dit wereldwijde verlanglijstje voor AI-ontwikkeling realistisch? De wetenschappers waren optimistisch in hun verklaring: "Ervoor zorgen dat deze rode lijnen niet worden overschreden is mogelijk, maar zal een gezamenlijke inspanning vereisen om zowel verbeterde bestuursregimes als technische veiligheidsmethoden te ontwikkelen."
Iemand die een meer fatalistische blik werpt op de items op de lijst zou kunnen concluderen dat een aantal van die AI-paarden al op de vlucht zijn geslagen. Of op het punt staan dat te doen.
Autonome replicatie of verbetering? Hoe lang duurt het voordat een AI-coderingstool zoals Devin kan dat?
Op zoek naar macht? Hebben deze wetenschappers sommige van de krankzinnige dingen gelezen die Copilot zei toen het van het script afging en besloten dat het aanbeden moet worden?
Wat betreft het helpen bij het ontwerpen van massavernietigingswapens of het automatiseren van cyberaanvallen, zou het naïef zijn om te geloven dat China en Westerse mogendheden niet... doen dit al.
Wat misleiding betreft, hebben sommige AI-modellen zoals Claude 3 Opus al liet doorschemeren te weten wanneer ze worden getest tijdens het trainen. Als een AI-model zijn intentie om een van deze rode lijnen te overschrijden zou verbergen, zouden we dat dan kunnen zien?
Opvallend afwezig bij de discussies waren vertegenwoordigers van de e/acc-kant van het AI-doemdenken, zoals Meta Chief AI Scientist Yann LeCun.
Vorig jaar zei LeCun dat het idee dat AI een existentiële bedreiging vormt voor de mensheid "belachelijk belachelijk" is en hij was het eens met de uitspraak van Marc Andreesen dat "AI de wereld zal redden", niet doden.
Laten we hopen dat ze gelijk hebben. Want het is onwaarschijnlijk dat die rode lijnen niet overschreden zullen worden.