Generativa AI-system, hallucinationer och ökande teknisk skuld

27 februari 2024

teknisk skuld AI

I takt med att AI-system som stora språkmodeller (LLM) växer i storlek och komplexitet upptäcker forskarna spännande grundläggande begränsningar. 

Nya studier från Google och University of Singapore har avslöjat mekaniken bakom AI-"hallucinationer" - där modeller genererar övertygande men fabricerad information - och ackumuleringen av "teknisk skuld", vilket kan skapa röriga, opålitliga system över tid.

Utöver de tekniska utmaningarna är det fortfarande en öppen fråga att anpassa AI:s kapacitet och incitament till mänskliga värderingar.

När företag som OpenAI strävar mot artificiell allmän intelligens (AGI) måste man erkänna gränserna för nuvarande system för att säkra vägen framåt.

Men att noggrant erkänna risker är i strid med Silicon Valleys motto att "gå snabbt fram och förstöra saker", vilket kännetecknar AI FoU liksom det gjorde för tekniska innovationer före det. 

Studie 1: AI-modeller ackumulerar "teknisk skuld

Maskininlärning framhålls ofta som kontinuerligt skalbart, med system som erbjuder ett modulärt, integrerat ramverk för utveckling. 

Men i bakgrunden kan utvecklarna bygga upp en hög nivå av "teknisk skuld" som de kommer att behöva lösa längre fram.

I en Googles forskningsrapport, "Maskininlärning: The High-Interest Credit Card of Technical Debt", diskuterar forskare begreppet teknisk skuld i samband med ML-system. 

D. Sculley, VD för Kaggle och mångårig Google-forskare, och hans kollegor hävdar att ML visserligen erbjuder kraftfulla verktyg för att snabbt bygga komplexa system, men att dessa "snabba vinster" ofta är missvisande. 

Den enkla och snabba implementeringen av ML-modeller kan dölja de framtida bördor som de medför för systemets underhåll och utveckling.

Som författarna beskriver uppstår denna dolda skuld på grund av flera ML-specifika riskfaktorer som utvecklare bör undvika eller omarbeta.

Här är de viktigaste insikterna:

  • ML-system är till sin natur komplexa på ett sätt som går utöver ren kodning. Detta kan leda till vad författarna kallar "boundary erosion", där de tydliga linjerna mellan olika systemkomponenter suddas ut på grund av de ömsesidiga beroenden som ML-modellerna skapar. Detta gör det svårt att isolera och genomföra förbättringar utan att påverka andra delar av systemet.
  • Rapporten belyser också problemet med "sammanflätning", där förändringar i någon del av ett ML-system, t.ex. indata eller modellparametrar, kan få oförutsägbara effekter på resten av systemet. Om man ändrar en liten parameter kan det leda till en kaskad av effekter som påverkar hela modellens funktion och integritet.
  • Ett annat problem är skapandet av "dolda återkopplingsslingor", där ML-modeller påverkar sina egna träningsdata på oförutsedda sätt. Detta kan leda till system som utvecklas i oavsiktliga riktningar, vilket förvärrar svårigheten att hantera och förstå systemets beteende.
  • Författarna tar också upp "databeroenden", t.ex. när insignaler ändras över tid, som är särskilt problematiska eftersom de är svårare att upptäcka.

Varför teknisk skuld är viktigt

Teknisk skuld berör ML-systemens långsiktiga hälsa och effektivitet.

När utvecklare skyndar sig för att få ML-system att fungera kan de ignorera de röriga invecklade datahanteringen eller fallgroparna med att "limma" ihop olika delar.

Detta kan fungera på kort sikt men kan leda till en trasslig röra som är svår att dissekera, uppdatera eller ens förstå senare.


Att till exempel använda ML-modeller som de är från ett bibliotek verkar effektivt tills du fastnar i en mardröm med "limkod", där det mesta av systemet bara är silvertejp som håller ihop bitar som inte var avsedda att passa ihop. 

Eller ta "pipeline-djungler", som beskrivs i en föregående artikel av D. Sculley och kollegor, där dataförberedelse blir en labyrint av sammanflätade processer, så att en förändring känns som att desarmera en bomb.

Konsekvenserna av teknisk skuld

Till att börja med är det så att ju mer invecklat ett system blir, desto svårare blir det att förbättra eller underhålla det. Detta hämmar inte bara innovation utan kan också leda till mer allvarliga problem. 

Om ett ML-system till exempel börjar fatta beslut baserade på föråldrade eller partiska data eftersom det är för krångligt att uppdatera dem, kan det förstärka eller förstärka samhälleliga fördomar

Dessutom, i kritiska applikationer som sjukvård eller autonoma fordon kan en sådan teknisk skuld få allvarliga konsekvenser, inte bara i form av tid och pengar utan även för människors välbefinnande.

I studien beskrivs det så här: "Alla skulder är inte nödvändigtvis dåliga, men tekniska skulder tenderar att öka. Att skjuta upp arbetet för att betala av den leder till ökade kostnader, skörhet i systemet och minskad innovationstakt."

Det är också en påminnelse för företag och konsumenter att kräva transparens och ansvarighet i den AI-teknik de använder.

Målet är trots allt att utnyttja kraften i AI för att göra livet bättre, inte att fastna i en oändlig cykel av teknisk skuldåterbetalning.

Studie 2: Det går inte att skilja hallucinationer från LLM:er

I en annan men relaterad studie från National University of Singapore undersökte forskarna Ziwei Xu, Sanjay Jain och Mohan Kankanhalli de inneboende begränsningarna hos LLM.

"Hallucinationer är oundvikliga: An Innate Limitation of Large Language Models" utforskar AI-hallucinationer, som beskriver fall där AI-system genererar trovärdig men felaktig eller helt fabricerad information. 

Hallucinationsfenomenen utgör en stor teknisk utmaning, eftersom de visar på en grundläggande skillnad mellan vad en AI-modell producerar och vad som anses vara "sanningen på marken" - en idealisk modell som alltid producerar korrekt och logisk information. 

Att förstå hur och varför generativ AI hallucinerar är av största vikt när tekniken integreras i kritiska sektorer som polis och rättsväsende, hälso- och sjukvård samt juridik.

Teoretiska grunder för hallucinationer

Studien börjar med att lägga fram ett teoretiskt ramverk för att förstå hallucinationer hos LLM-personer. 

Forskare cskapade en teoretisk modell som kallas "den formella världen". Denna förenklade, kontrollerade miljö gjorde det möjligt för dem att observera de förhållanden under vilka AI-modeller misslyckas med att anpassa sig till markens sanning.

De testade sedan två stora familjer av LLM:er:

  1. Lama 2: Specifikt användes 70-miljarder-parameterversionen (llama2-70b-chat-hf) som är tillgänglig på HuggingFace. Denna modell representerar en av de nyare posterna i den stora språkmodellarenan, utformad för ett brett utbud av textgenererings- och förståelsesuppgifter.
  2. Generativa förträngda transformatorer (GPT): Studien omfattade tester på GPT-3.5, särskilt modellen gpt-3.5-turbo-16k med 175 miljarder parametrar, och GPT-4 (gpt-4-0613), för vilken det exakta antalet parametrar inte har offentliggjorts. 

LLM:erna ombads lista strängar av en viss längd med hjälp av ett angivet alfabet, en till synes enkel beräkningsuppgift.

Mer specifikt fick modellerna i uppgift att generera alla möjliga strängar med längder som varierade från 1 till 7, med hjälp av alfabet med två tecken (t.ex. {a, b}) och tre tecken (t.ex. {a, b, c}).

Utdata utvärderades baserat på om de innehöll alla och endast strängarna av den angivna längden från det givna alfabetet.

Resultat

Resultaten visade en tydlig begränsning i modellernas förmåga att slutföra uppgiften korrekt när komplexiteten ökade (dvs. när strängens längd eller alfabetets storlek ökade). För att vara specifik:

  • Modellerna fungerade tillfredsställande för kortare strängar och mindre alfabet men vacklade när uppgiftens komplexitet ökade.
  • Inte ens den avancerade GPT-4-modellen, den mest sofistikerade LLM som finns tillgänglig just nu, lyckades lista alla strängar över vissa längder.

Det här visar att hallucinationer inte är ett enkelt fel som kan lappas eller rättas till - de är en grundläggande aspekt av hur dessa modeller förstår och återger mänskligt språk.

Som studien beskriver, "LLM:er kan inte lära sig allt av de beräkningsbara funktionerna och kommer därför alltid att hallucinera. Eftersom den formella världen är a del av den verkliga världen som är mycket mer komplicerat, hallucinationer är också oundviklig för LLM:er i den verkliga världen."

Konsekvenserna för applikationer med höga insatser är enorma. I sektorer som sjukvård, finans eller juridik, där korrekt information kan få allvarliga konsekvenser, kan det leda till allvarliga fel om man förlitar sig på en LLM utan en säkerhetsfunktion för att filtrera bort dessa hallucinationer.

Denna studie uppmärksammades av AI-experten Dr. Gary Marcus och den framstående kognitiva psykologen Dr. Steven Pinker.

Djupare frågor är i spel

Den ackumulerade tekniska skulden och de oundvikliga hallucinationerna hos LLM är symptomatiska för en djupare fråga - det nuvarande paradigmet för AI-utveckling kan i sig vara felinriktat för att skapa högintelligenta system och på ett tillförlitligt sätt anpassa sig till mänskliga värderingar och faktiska sanningar.

Inom känsliga områden räcker det inte med att ha ett AI-system som har rätt för det mesta. Teknisk skuld och hallucinationer hotar båda modellintegriteten över tid. 

Att åtgärda detta är inte bara en teknisk utmaning utan en tvärvetenskaplig utmaning som kräver input från AI-etik, policy och domänspecifik expertis för att navigera säkert.

Just nu verkar detta gå stick i stäv med principerna för en bransch som lever upp till mottot "move fast and break things".

Låt oss hoppas att människor inte är "sakerna".

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Sam Jeans

Sam är en vetenskaps- och teknikskribent som har arbetat i olika AI-startups. När han inte skriver läser han medicinska tidskrifter eller gräver igenom lådor med vinylskivor.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar