Generative AI-systemer, hallusinasjoner og økende teknisk gjeld

27. februar 2024

teknisk gjeld AI

Etter hvert som AI-systemer som store språkmodeller (LLM-er) vokser i størrelse og kompleksitet, avdekker forskerne spennende grunnleggende begrensninger. 

Nyere studier fra Google og University of Singapore har avdekket mekanismene bak AI-"hallusinasjoner" - der modeller genererer overbevisende, men fabrikkert informasjon - og akkumuleringen av "teknisk gjeld", som kan skape rotete, upålitelige systemer over tid.

Utover de tekniske utfordringene er det fortsatt et åpent spørsmål å tilpasse AIs evner og insentiver til menneskelige verdier.

Når selskaper som OpenAI presser på for å utvikle kunstig generell intelligens (AGI), er det viktig å erkjenne grensene for dagens systemer for å sikre veien videre.

Men å være nøye med å erkjenne risikoer er i strid med Silicon Valleys motto om å "gå raskt frem og ødelegge ting", som kjennetegner forskning og utvikling innen kunstig intelligens, slik det også var for teknologiske innovasjoner før det. 

Studie 1: AI-modeller pådrar seg "teknisk gjeld

Maskinlæring fremheves ofte som kontinuerlig skalerbar, med systemer som tilbyr et modulært, integrert rammeverk for utvikling. 

I bakgrunnen kan imidlertid utviklerne pådra seg en stor "teknisk gjeld" som de må løse på sikt.

I en Googles forskningsoppgaveI artikkelen "Machine Learning: The High-Interest Credit Card of Technical Debt", diskuterer forskere begrepet teknisk gjeld i forbindelse med ML-systemer. 

Kaggle-sjef og mangeårig Google-forsker D. Sculley og kolleger hevder at selv om ML tilbyr kraftige verktøy for raskt å bygge komplekse systemer, er disse "quick wins" ofte misvisende. 

Den enkle og raske implementeringen av ML-modeller kan skjule de fremtidige byrdene de medfører for systemvedlikehold og -utvikling.

Som forfatterne beskriver, oppstår denne skjulte gjelden som følge av flere ML-spesifikke risikofaktorer som utviklere bør unngå eller refaktorere.

Her er de viktigste innsiktene:

  • ML-systemer er i sin natur mer komplekse enn koding alene. Dette kan føre til det forfatterne kaller "grenseerosjon", der de klare grensene mellom ulike systemkomponenter blir utydelige på grunn av den gjensidige avhengigheten som ML-modellene skaper. Dette gjør det vanskelig å isolere og implementere forbedringer uten at det påvirker andre deler av systemet.
  • Artikkelen belyser også problemet med "sammenfiltring", der endringer i en hvilken som helst del av et ML-system, for eksempel inngangsfunksjoner eller modellparametere, kan ha uforutsigbare effekter på resten av systemet. Hvis man endrer én liten parameter, kan det utløse en kaskade av effekter som påvirker hele modellens funksjon og integritet.
  • Et annet problem er at det oppstår "skjulte tilbakekoblingssløyfer", der ML-modeller påvirker sine egne treningsdata på uforutsette måter. Dette kan føre til systemer som utvikler seg i en utilsiktet retning, noe som gjør det enda vanskeligere å styre og forstå systemets atferd.
  • Forfatterne tar også for seg "dataavhengighet", for eksempel når inngangssignaler endrer seg over tid, noe som er spesielt problematisk fordi det er vanskeligere å oppdage.

Hvorfor teknisk gjeld er viktig

Teknisk gjeld berører ML-systemenes langsiktige helse og effektivitet.

Når utviklere skynder seg å få ML-systemer opp å gå, kan de komme til å overse de vanskelige detaljene i datahåndteringen eller fallgruvene ved å "lime" sammen ulike deler.

Dette kan fungere på kort sikt, men kan føre til et uoversiktlig virvar som er vanskelig å dissekere, oppdatere eller forstå senere.


For eksempel virker det effektivt å bruke ML-modeller som de er fra et bibliotek, helt til du sitter fast med et mareritt av "limkode", der det meste av systemet bare er gaffateip som holder sammen biter og brikker som ikke var ment å passe sammen. 

Eller ta "rørledningsjungler", beskrevet i en tidligere artikkel av D. Sculley og kolleger, der databearbeiding blir en labyrint av sammenflettede prosesser, slik at det å gjøre en endring føles som å desarmere en bombe.

Konsekvensene av teknisk gjeld

For det første er det vanskeligere å forbedre eller vedlikeholde et system jo mer innfløkt det er. Dette hemmer ikke bare innovasjon, men kan også føre til mer uhyggelige problemer. 

Hvis et ML-system for eksempel begynner å ta beslutninger basert på utdaterte eller partiske data fordi det er for tungvint å oppdatere, kan det forsterke eller forsterke samfunnsmessige fordommer

I kritiske bruksområder som helsetjenester eller autonome kjøretøy, kan en slik teknisk gjeld få alvorlige konsekvenser, ikke bare i form av tid og penger, men også for menneskers velferd.

Som studien beskriver: "Ikke all gjeld er nødvendigvis dårlig, men teknisk gjeld har en tendens til å øke. Å utsette arbeidet for å betale den fører til økte kostnader, et skjørt system og redusert innovasjonstakt."

Det er også en påminnelse til bedrifter og forbrukere om å kreve åpenhet og ansvarlighet når det gjelder AI-teknologiene de tar i bruk.

Målet er tross alt å utnytte kraften i kunstig intelligens til å gjøre livet bedre, ikke å havne i en endeløs syklus med nedbetaling av teknisk gjeld.

Studie 2: Du kan ikke skille hallusinasjoner fra LLM-er

I en annen, men relatert studie fra National University of Singapore undersøkte forskerne Ziwei Xu, Sanjay Jain og Mohan Kankanhalli de iboende begrensningene ved LLM-er.

"Hallusinasjon er uunngåelig: An Innate Limitation of Large Language Models" handler om AI-hallusinasjoner, som beskriver tilfeller der AI-systemer genererer plausibel, men unøyaktig eller helt oppdiktet informasjon. 

Hallusinasjonsfenomenene utgjør en stor teknisk utfordring, ettersom de belyser et fundamentalt gap mellom resultatet av en AI-modell og det som anses som "sannheten" - en ideell modell som alltid produserer korrekt og logisk informasjon. 

Å forstå hvordan og hvorfor generativ AI hallusinerer, er avgjørende når teknologien integreres i kritiske sektorer som politi- og rettsvesen, helsevesen og juridiske tjenester.

Teoretisk grunnlag for hallusinasjoner

Studien begynner med å legge frem et teoretisk rammeverk for å forstå hallusinasjoner hos LLM-er. 

Forskere created en teoretisk modell kjent som "den formelle verden". Dette forenklede, kontrollerte miljøet gjorde det mulig for dem å observere under hvilke forhold AI-modeller ikke stemmer overens med virkeligheten.

Deretter testet de to store familier av LLM-er:

  1. Lama 2: Spesifikt ble versjonen med 70 milliarder parametere (llama2-70b-chat-hf) som er tilgjengelig på HuggingFace, brukt. Denne modellen er en av de nyere modellene for store språkmodeller, og er utviklet for et bredt spekter av tekstgenererings- og forståelsesoppgaver.
  2. Generative forhåndstrenede transformatorer (GPT): Studien omfattet tester på GPT-3.5, nærmere bestemt modellen gpt-3.5-turbo-16k med 175 milliarder parametere, og GPT-4 (gpt-4-0613), der det nøyaktige antallet parametere ikke er oppgitt. 

LLM-ene ble bedt om å liste opp strenger av en gitt lengde ved hjelp av et spesifisert alfabet, en tilsynelatende enkel beregningsoppgave.

Mer spesifikt fikk modellene i oppgave å generere alle mulige strenger med lengder fra 1 til 7, ved hjelp av alfabeter med to tegn (f.eks. {a, b}) og tre tegn (f.eks. {a, b, c}).

Utdataene ble evaluert basert på om de inneholdt alle og bare strengene med den angitte lengden fra det gitte alfabetet.

Resultater

Resultatene viste en klar begrensning i modellenes evne til å fullføre oppgaven korrekt etter hvert som kompleksiteten økte (dvs. etter hvert som strenglengden eller størrelsen på alfabetet økte). Nærmere bestemt

  • Modellene fungerte tilfredsstillende for kortere strenger og mindre alfabeter, men sviktet etter hvert som oppgavens kompleksitet økte.
  • Selv den avanserte GPT-4-modellen, den mest sofistikerte LLM-modellen som er tilgjengelig akkurat nå, klarte ikke å liste opp alle strenger over en viss lengde.

Dette viser at hallusinasjoner ikke er en enkel feil som kan fikses eller korrigeres - de er et grunnleggende aspekt ved hvordan disse modellene forstår og gjenskaper menneskelig språk.

Som studien beskriver, "LLM-er kan ikke lære alt av de beregnbare funksjonene og vil derfor alltid hallusinere. Siden den formelle verden er en del av den virkelige verden som er mye mer komplisert, hallusinasjoner er også uunngåelig for LLM-er i den virkelige verden."

Konsekvensene for søknader der det står mye på spill, er enorme. I sektorer som helse, finans og juss, der nøyaktigheten av informasjon kan få alvorlige konsekvenser, kan det å stole på en LLM uten en sikkerhetsmekanisme for å filtrere bort disse hallusinasjonene føre til alvorlige feil.

Denne studien ble lagt merke til av AI-eksperten Dr. Gary Marcus og den fremtredende kognitive psykologen Dr. Steven Pinker.

Dypereliggende problemer spiller inn

Akkumuleringen av teknisk gjeld og de uunngåelige hallusinasjonene i LLM-er er symptomatiske for et dypere problem - det nåværende paradigmet for AI-utvikling kan i seg selv være feil innrettet for å skape høyintelligente systemer som på en pålitelig måte er i tråd med menneskelige verdier og faktiske sannheter.

På sensitive områder er det ikke nok å ha et AI-system som har rett mesteparten av tiden. Både teknisk gjeld og hallusinasjoner truer modellintegriteten over tid. 

Å løse dette er ikke bare en teknisk utfordring, men en tverrfaglig utfordring som krever innspill fra AI-etikk, politikk og domenespesifikk ekspertise for å navigere trygt.

Akkurat nå er dette tilsynelatende i strid med prinsippene til en bransje som lever opp til mottoet "move fast and break things".

La oss håpe at det ikke er mennesker som er "tingene".

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Sam Jeans

Sam er en vitenskaps- og teknologiskribent som har jobbet i ulike oppstartsbedrifter innen kunstig intelligens. Når han ikke skriver, leser han medisinske tidsskrifter eller graver seg gjennom esker med vinylplater.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser