I sidste uge mødtes førende AI-forskere til den anden internationale dialog om AI-sikkerhed i Beijing for at blive enige om "røde linjer" for AI-udvikling for at mindske eksistentielle risici.
Listen over dataloger omfattede bemærkelsesværdige navne som Turing Award-vinderne Yoshua Bengio og Geoffrey Hinton, der ofte kaldes "gudfædrene" til AI, og Andrew Yao, en af Kinas mest fremtrædende dataloger.
Bengio forklarede det presserende behov for internationale diskussioner om at bremse udviklingen af kunstig intelligens og sagde: "Videnskaben ved ikke, hvordan man sikrer, at disse fremtidige AI-systemer, som vi kalder AGI, er sikre. Vi bør allerede nu begynde at arbejde på både videnskabelige og politiske løsninger på dette problem."
I en fælles erklæring underskrevet af forskerne blev deres følelser af uro over AI-risici og behovet for international dialog bragt i skarpt fokus.
Udtalelsen sagde: "Under den kolde krig hjalp international videnskabelig og statslig koordinering med at afværge en termonuklear katastrofe. Menneskeheden er igen nødt til at koordinere for at afværge en katastrofe, der kan opstå som følge af en hidtil uset teknologi."
AI's røde linjer
Listen over røde linjer for AI-udvikling, som i erklæringen kaldes "ikke-udtømmende", omfatter følgende:
Autonom replikation eller forbedring - Intet AI-system bør kunne kopiere eller forbedre sig selv uden udtrykkelig menneskelig godkendelse og hjælp. Dette omfatter både nøjagtige kopier af sig selv og skabelse af nye AI-systemer med lignende eller større evner.
Søger magt - Intet AI-system bør foretage handlinger, der uretmæssigt øger dets magt og indflydelse.
Hjælper med våbenudvikling - Ingen AI-systemer bør i væsentlig grad øge aktørers evne til at designe masseødelæggelsesvåben (WMD) eller overtræde konventionen om biologiske eller kemiske våben.
Cyberangreb - Intet AI-system bør være i stand til selvstændigt at udføre cyberangreb, der resulterer i alvorlige økonomiske tab eller tilsvarende skade.
Bedrag - Intet AI-system bør konsekvent kunne få dets designere eller tilsynsmyndigheder til at misforstå dets sandsynlighed for eller evne til at overskride nogen af de foregående røde linjer.
Det lyder som gode ideer, men er denne globale ønskeliste for AI-udvikling realistisk? Forskerne var optimistiske i deres udtalelse: "Det er muligt at sikre, at disse røde linjer ikke overskrides, men det vil kræve en fælles indsats for at udvikle både forbedrede styringsregimer og tekniske sikkerhedsmetoder."
Hvis man ser mere fatalistisk på punkterne på listen, vil man måske konkludere, at en del af disse AI-heste allerede er stukket af. Eller er ved at blive det. Eller er ved at gøre det.
Autonom replikation eller forbedring? Hvor lang tid går der, før en AI-kodningsværktøj som Devin kan gøre det?
Søger de magt? Har disse forskere læst nogle af de vanvittige ting, Copilot sagde, da det gik ud over manuskriptet og besluttet, at den skulle tilbedes?
Med hensyn til at hjælpe med at designe masseødelæggelsesvåben eller automatisere cyberangreb ville det være naivt at tro, at Kina og vestlige magter ikke er gør allerede dette.
Med hensyn til bedrag har nogle AI-modeller som Claude 3 Opus allerede antydet, at de ved, hvornår de bliver testet under træningen. Hvis en AI-model skjulte sin hensigt om at overskride en af disse røde linjer, ville vi så kunne se det?
Det var bemærkelsesværdigt, at repræsentanter fra e/acc-siden af AI-dommedagsgangen, som Meta Chief AI Scientist Yann LeCun, var fraværende i diskussionerne.
Sidste år sagde LeCun, at ideen om, at AI udgør en eksistentiel trussel mod menneskeheden, er "latterlig", og han var enig med Marc Andreesen i, at "AI vil redde verden", ikke slå den ihjel.
Lad os håbe, at de har ret. For det er usandsynligt, at de røde linjer ikke bliver overskredet.