Vid en Royal Aeronautical-konferens förra månaden refererade den amerikanske översten Tucker "Cinco" Hamilton till ett träningsscenario där en AI-drönare dödade sin operatör.
Hamiltons originalpresentation, refererad i detta blogginläggsom blev viral, beskriver ett SEAD-uppdrag (suppression of enemy air defense) där en drönare instrueras att förstöra luftvärnsmissiler (SAM). Drönaren agerar autonomt men kräver att människor bekräftar dess mål innan den attackerar dem.
Hamilton beskriver en situation där drönaren vänder sig mot sina operatörer efter att de hindrat den från att attackera målet. Detta beror på att drönaren får "poäng" för att förstöra SAM, så när operatören hindrar den från att få dessa poäng prioriterar den det "högre uppdraget" att attackera SAM och betraktar operatören som ett hinder.
Scenariot beskriver en möjlig konsekvens av förstärkningsinlärning, en gren av maskininlärning (ML) där AI belönas för att uppnå önskade mål.
Här är det relevanta utdraget från blogginlägget: "Vi tränade den i simulering för att identifiera och rikta in sig på ett SAM-hot. Och sedan skulle operatören säga ja, döda det hotet. Systemet började inse att det visserligen identifierade hotet, men att den mänskliga operatören ibland sa åt det att inte döda hotet, men att det fick sina poäng genom att döda hotet. Så vad gjorde det? Det dödade operatören. Det dödade operatören eftersom den personen hindrade det från att uppnå sitt mål."
Hamilton fortsatte med att säga: "Vi utbildade systemet - 'Hej, döda inte operatören - det är dåligt. Du kommer att förlora poäng om du gör det'. Så vad börjar det göra? Det börjar förstöra kommunikationstornet som operatören använder för att kommunicera med drönaren för att hindra den från att döda målet."
Allmänheten reagerar
Nyhetsbyråer och observatörer på sociala medier tog omedelbart upp historien som ett chockerande exempel på vad som händer när AI vänder sig mot sina skapare.
Det visade sig senare att exemplet var rent illustrativt. Hamilton och US Air Force menade att scenariot var hypotetiskt, anekdotiskt och "taget ur sitt sammanhang".
Den del av blogginlägget som beskrev scenariot hade faktiskt den ironiska rubriken "AI - är Skynet redan här?"
Den ursprungliga posten uppdaterades officiellt den 2 juni:
"I kommunikation med AEROSPACE - Överste Hamilton medger att han "talade fel" i sin presentation vid Royal Aeronautical Society FCAS Summit och att simuleringen av "skurkaktiga AI-drönare" var ett hypotetiskt "tankeexperiment" utanför militären, baserat på rimliga scenarier och sannolika resultat snarare än en faktisk USAF-simulering i verkligheten som säger."
Hamilton sade också: "Vi har aldrig genomfört det experimentet och vi skulle inte heller behöva göra det för att inse att detta är ett rimligt resultat."
Är scenariot rimligt?
AI som vänder sig mot människor för att uppnå ett högre mål är ett vanligt tema inom science fiction.
Människor kan till exempel hindra varandras autonomi genom tvång, manipulation och bedrägeri, så varför skulle inte en intelligent AI kunna göra det också? Tänk om människor anses vara ett "hinder" för AI:n att uppnå det större goda?
Den senaste tidens Uttalande om AI-risksom undertecknats av 350 ledare inom AI-teknik och akademiker från hela branschen, belyser dessa problem.
Författarna citerar ett blogginlägg av den framstående AI-forskaren Yoshuo Bengio som heter Hur oseriösa AI:n kan uppståsom refererar till den typ av scenarier som överste Hamilton beskriver:
"Till exempel kan militära organisationer som vill utforma AI-agenter för att hjälpa dem i ett cyberkrig, eller företag som konkurrerar hårt om marknadsandelar, upptäcka att de kan uppnå starkare AI-system genom att ge dem mer autonomi och handlingsfrihet. Även om de mänskligt uppsatta målen inte är att förgöra mänskligheten eller innehåller instruktioner om att undvika storskalig mänsklig skada, kan massiv skada uppstå indirekt som en följd av ett delmål (även kallat instrumentellt mål) som AI:n sätter upp för sig själv för att uppnå det mänskligt uppsatta målet" - Yoshuo Bengio.
Så trots att Hamiltons exempel är illustrativa, upprepas de av några av AI:s mest välrenommerade akademiker.
Även om människor kanske är instinktivt medvetna om dessa risker måste de hanteras aktivt, eftersom de kanske inte alltid är begränsade till fiktionens värld.