Generative AI-systemer, hallucinationer og stigende teknisk gæld

Efterhånden som AI-systemer som store sprogmodeller (LLM'er) vokser i størrelse og kompleksitet, afdækker forskere spændende grundlæggende begrænsninger.

Nylige undersøgelser fra Google og University of Singapore har afdækket mekanikken bag AI-"hallucinationer" - hvor modeller genererer overbevisende, men fabrikerede oplysninger - og ophobningen af "teknisk gæld", som kan skabe rodede, upålidelige systemer over tid.

Ud over de tekniske udfordringer er det stadig et åbent spørgsmål at afstemme AI's evner og incitamenter med menneskelige værdier.

Når virksomheder som OpenAI skubber på mod kunstig generel intelligens (AGI), betyder det at sikre vejen frem at anerkende grænserne for de nuværende systemer.

Men en omhyggelig anerkendelse af risici er i modstrid med Silicon Valleys motto om at "bevæge sig hurtigt og ødelægge ting", som kendetegner F&U inden for kunstig intelligens, ligesom det gjorde for teknologiske innovationer før det.

Studie 1: AI-modeller oparbejder 'teknisk gæld'

Maskinlæring udråbes ofte som kontinuerligt skalerbar, og systemerne tilbyder en modulær, integreret ramme for udvikling.

Men i baggrunden oparbejder udviklerne måske en høj grad af "teknisk gæld", som de bliver nødt til at løse hen ad vejen.

I en Google-forskningsrapportI artiklen "Machine Learning: The High-Interest Credit Card of Technical Debt", diskuterer forskere begrebet teknisk gæld i forbindelse med ML-systemer.

Kaggle CEO og mangeårig Google-forsker D. Sculley og kolleger hævder, at selvom ML tilbyder stærke værktøjer til hurtigt at opbygge komplekse systemer, er disse "quick wins" ofte misvisende.

Den enkle og hurtige implementering af ML-modeller kan skjule de fremtidige byrder, de påfører systemets vedligeholdelsesevne og udvikling.

Som forfatterne beskriver, stammer denne skjulte gæld fra flere ML-specifikke risikofaktorer, som udviklere bør undgå eller refaktorere.

Her er de vigtigste indsigter:

ML-systemer introducerer i sagens natur et niveau af kompleksitet, der går ud over kodning alene. Det kan føre til det, forfatterne kalder "grænseerosion", hvor de klare linjer mellem forskellige systemkomponenter bliver slørede på grund af den gensidige afhængighed, som ML-modellerne skaber. Det gør det vanskeligt at isolere og implementere forbedringer uden at påvirke andre dele af systemet.
Artiklen fremhæver også problemet med "sammenfiltring", hvor ændringer i en hvilken som helst del af et ML-system, f.eks. inputfunktioner eller modelparametre, kan have uforudsigelige effekter på resten af systemet. Ændring af en lille parameter kan udløse en kaskade af effekter, der påvirker hele modellens funktion og integritet.
Et andet problem er skabelsen af "skjulte feedbacksløjfer", hvor ML-modeller påvirker deres egne træningsdata på uforudsete måder. Det kan føre til systemer, der udvikler sig i utilsigtede retninger, hvilket gør det endnu sværere at styre og forstå systemets adfærd.
Forfatterne beskæftiger sig også med "dataafhængighed", som f.eks. når inputsignaler ændrer sig over tid, hvilket er særligt problematisk, da det er sværere at opdage.

Hvorfor teknisk gæld er vigtig

Teknisk gæld berører ML-systemers sundhed og effektivitet på lang sigt.

Når udviklere har travlt med at få ML-systemer op at køre, overser de måske de indviklede detaljer i datahåndteringen eller faldgruberne ved at "lime" forskellige dele sammen.

Det fungerer måske på kort sigt, men kan føre til et virvar, der er svært at dissekere, opdatere eller forstå senere.

GenAI er en lavine af teknisk gæld*, der venter på at ske

Bare i denne uge
ChatGPT gik "bersærk" med næsten ingen reel forklaring
Sora kan ikke konsekvent udlede, hvor mange ben en kat har
Geminis mangfoldighedsindsats kørte helt af sporet.... pic.twitter.com/qzrVlpX9yz

- Gary Marcus @ AAAI 2024 (@GaryMarcus) 24. februar 2024

For eksempel virker det effektivt at bruge ML-modeller som de er fra et bibliotek, indtil man sidder med et "limkode"-mareridt, hvor det meste af systemet bare er gaffatape, der holder sammen på stumper og stykker, som ikke var beregnet til at passe sammen.

Eller tænk på "rørledningsjungler", beskrevet i en tidligere artikel af D. Sculley og kolleger, hvor dataforberedelse bliver en labyrint af sammenflettede processer, så det at foretage en ændring føles som at desarmere en bombe.

Konsekvenserne af teknisk gæld

Jo mere indviklet et system bliver, jo sværere er det at forbedre eller vedligeholde det. Det kvæler ikke kun innovation, men kan også føre til mere uhyggelige problemer.

Hvis et ML-system for eksempel begynder at træffe beslutninger baseret på forældede eller forudindtagede data, fordi det er for besværligt at opdatere, kan det forstærke eller forstærker samfundsmæssige fordomme.

Desuden er der i kritiske applikationer som sundhedspleje eller autonome køretøjer, kan en sådan teknisk gæld få alvorlige konsekvenser, ikke kun i form af tid og penge, men også for menneskers velbefindende.

Som undersøgelsen beskriver: "Ikke al gæld er nødvendigvis dårlig, men teknisk gæld har en tendens til at vokse. Hvis man udskyder arbejdet for at betale den tilbage, resulterer det i stigende omkostninger, et skrøbeligt system og mindre innovation."

Det er også en påmindelse til virksomheder og forbrugere om at kræve gennemsigtighed og ansvarlighed i de AI-teknologier, de tager i brug.

Når alt kommer til alt, er målet at udnytte kraften i AI til at gøre livet bedre, ikke at blive fanget i en endeløs cyklus af tilbagebetaling af teknisk gæld.

Studie 2: Du kan ikke adskille hallucinationer fra LLM'er

I en anden, men relateret undersøgelse Fra National University of Singapore undersøgte forskerne Ziwei Xu, Sanjay Jain og Mohan Kankanhalli de iboende begrænsninger i LLM'er.

"Hallucinationer er uundgåelige: An Innate Limitation of Large Language Models" udforsker arten af AI-hallucinationer, som beskriver tilfælde, hvor AI-systemer genererer plausible, men unøjagtige eller helt fabrikerede oplysninger.

Hallucinationsfænomenerne udgør en stor teknisk udfordring, da de fremhæver en grundlæggende kløft mellem en AI-models output og det, der betragtes som "grundsandheden" - en ideel model, der altid producerer korrekt og logisk information.

At forstå, hvordan og hvorfor generativ AI hallucinerer, er altafgørende, når teknologien integreres i kritiske sektorer som politi og retsvæsen, sundhedspleje og juridiske forhold.

Hvad nu, hvis man kunne *bevise*, at hallucinationer er uundgåelige hos LLM'er?

Ville det ændre sig?
- Hvordan ser du på LLM'er?
- Hvor meget vil du investere i dem?
- Hvor meget vil du prioritere forskning i alternativer?

Det viser en ny artikel: https://t.co/r0eP3mFxQg
h/t... pic.twitter.com/Id2kdaCSGk

- Gary Marcus @ AAAI 2024 (@GaryMarcus) 25. februar 2024

Teoretisk grundlag for hallucinationer

Undersøgelsen begynder med at opstille en teoretisk ramme for at forstå hallucinationer hos LLM'er.

Forskere created en teoretisk model kendt som den "formelle verden". Dette forenklede, kontrollerede miljø gjorde det muligt for dem at observere de forhold, hvorunder AI-modeller ikke stemmer overens med den grundlæggende sandhed.

Derefter testede de to store familier af LLM'er:

Lama 2: Specifikt blev versionen med 70 milliarder parametre (llama2-70b-chat-hf), der er tilgængelig på HuggingFace, brugt. Denne model repræsenterer en af de nyere indgange til arenaen for store sprogmodeller, der er designet til en bred vifte af tekstgenererings- og forståelsesopgaver.
Generative fortrænet transformatorer (GPT): Undersøgelsen omfattede test af GPT-3.5, specifikt den 175 milliarder parametre store gpt-3.5-turbo-16k-model, og GPT-4 (gpt-4-0613), hvor det nøjagtige antal parametre ikke er oplyst.

LLM'erne blev bedt om at opremse strenge af en given længde ved hjælp af et bestemt alfabet, en tilsyneladende simpel beregningsopgave.

Mere specifikt fik modellerne til opgave at generere alle mulige strenge af varierende længde fra 1 til 7 ved hjælp af alfabeter med to tegn (f.eks. {a, b}) og tre tegn (f.eks. {a, b, c}).

Outputtene blev vurderet ud fra, om de indeholdt alle og kun strenge af den angivne længde fra det givne alfabet.

Resultater

Resultaterne viste en klar begrænsning i modellernes evne til at udføre opgaven korrekt, når kompleksiteten steg (dvs. når strenglængden eller alfabetets størrelse steg). Mere specifikt:

Modellerne klarede sig godt med kortere strenge og mindre alfabeter, men vaklede, da opgavens kompleksitet steg.
Selv den avancerede GPT-4-model, den mest sofistikerede LLM, der findes lige nu, kunne ikke liste alle strenge ud over visse længder.

Det viser, at hallucinationer ikke er en simpel fejl, der kan lappes eller rettes - de er et grundlæggende aspekt af, hvordan disse modeller forstår og gengiver det menneskelige sprog.

Som undersøgelsen beskriver, "LLM'ere kan ikke lære alt af de beregnelige funktioner og vil derfor altid hallucinere. Eftersom den formelle verden er en del af den virkelige verden, som er meget mere kompliceret, hallucinationer er også uundgåelig for LLM'ere i den virkelige verden."

Konsekvenserne for ansøgninger, hvor der er meget på spil, er enorme. I sektorer som sundhed, finans eller jura, hvor nøjagtigheden af oplysninger kan have alvorlige konsekvenser, kan det føre til alvorlige fejl at stole på en LLM uden en sikkerhedsforanstaltning til at filtrere disse hallucinationer fra.

Denne undersøgelse fangede AI-eksperten Dr. Gary Marcus' og den fremtrædende kognitive psykolog Dr. Steven Pinkers opmærksomhed.

Hallucinationer er uundgåelige med store sprogmodeller på grund af deres design: ingen repræsentation af fakta eller ting, kun statistiske interkorrelationer. Nyt bevis på "en medfødt begrænsning" ved LLM'er. https://t.co/Hl1kqxJGXt

- Steven Pinker (@sapinker) 25. februar 2024

Dybere problemer er på spil

Akkumuleringen af teknisk gæld og de uundgåelige hallucinationer i LLM'er er symptomatiske for et dybere problem - det nuværende paradigme for AI-udvikling kan i sagens natur være forkert indrettet til at skabe meget intelligente systemer og pålideligt afstemt med menneskelige værdier og faktuel sandhed.

På følsomme områder er det ikke nok at have et AI-system, der har ret det meste af tiden. Teknisk gæld og hallucinationer truer begge modellens integritet over tid.

At løse dette er ikke kun en teknisk udfordring, men en tværfaglig udfordring, der kræver input fra AI-etik, politik og domænespecifik ekspertise for at navigere sikkert.

Lige nu er det tilsyneladende i modstrid med principperne i en branche, der lever op til mottoet "move fast and break things".

Lad os håbe, at mennesker ikke er 'tingene'.

Generative AI-systemer, hallucinationer og stigende teknisk gæld