Naarmate AI-systemen zoals grote taalmodellen (LLM's) groter en complexer worden, ontdekken onderzoekers intrigerende fundamentele beperkingen.
Recente studies van Google en de Universiteit van Singapore hebben de mechanismen blootgelegd achter AI "hallucinaties" - waarbij modellen overtuigende maar verzonnen informatie genereren - en de accumulatie van "technische schuld", die na verloop van tijd rommelige, onbetrouwbare systemen kunnen creëren.
Naast de technische uitdagingen blijft het een open vraag om de capaciteiten en stimulansen van AI af te stemmen op menselijke waarden.
Terwijl bedrijven als OpenAI de weg naar kunstmatige algemene intelligentie (AGI) inslaan, betekent het beveiligen van het pad dat voor ons ligt dat we de grenzen van de huidige systemen moeten erkennen.
Het zorgvuldig erkennen van risico's staat echter haaks op het motto van Silicon Valley om "snel te gaan en dingen kapot te maken", dat kenmerkend is voor AI R&D, net als voor tech-innovaties daarvoor.
Onderzoek 1: AI-modellen bouwen 'technische schuld' op
Machine learning wordt vaak aangeprezen als continu schaalbaar, met systemen die een modulair, geïntegreerd raamwerk voor ontwikkeling bieden.
Op de achtergrond kunnen ontwikkelaars echter een grote 'technische schuld' opbouwen die ze later moeten oplossen.
In een Google onderzoeksartikel, "Machine Learning: The High-Interest Credit Card of Technical Debt" bespreken onderzoekers het concept van technische schuld in de context van ML-systemen.
Kaggle CEO en lange tijd Google onderzoeker D. Sculley en collega's stellen dat ML weliswaar krachtige hulpmiddelen biedt om snel complexe systemen te bouwen, maar dat deze "quick wins" vaak misleidend zijn.
De eenvoud en snelheid van het implementeren van ML modellen kan de toekomstige lasten maskeren die ze met zich meebrengen voor de onderhoudbaarheid en evolutie van het systeem.
Zoals de auteurs beschrijven, komt deze verborgen schuld voort uit verschillende ML-specifieke risicofactoren die ontwikkelaars zouden moeten vermijden of refactoren.
Dit zijn de belangrijkste inzichten:
- ML-systemen introduceren door hun aard een niveau van complexiteit dat verder gaat dan codering alleen. Dit kan leiden tot wat de auteurs "boundary erosion" noemen, waarbij de duidelijke grenzen tussen verschillende systeemcomponenten vervagen door de onderlinge afhankelijkheden die ontstaan door ML modellen. Dit maakt het moeilijk om verbeteringen te isoleren en te implementeren zonder andere delen van het systeem te beïnvloeden.
- Het artikel belicht ook het probleem van "verstrengeling", waarbij veranderingen in een onderdeel van een ML systeem, zoals invoerkenmerken of modelparameters, onvoorspelbare effecten kunnen hebben op de rest van het systeem. Het veranderen van één kleine parameter kan een cascade van effecten teweegbrengen die de functie en integriteit van het hele model beïnvloedt.
- Een ander probleem is het ontstaan van "verborgen feedback loops", waarbij ML modellen hun eigen trainingsgegevens op onvoorziene manieren beïnvloeden. Dit kan leiden tot systemen die zich in onbedoelde richtingen ontwikkelen, waardoor het nog moeilijker wordt om het gedrag van het systeem te beheren en te begrijpen.
- De auteurs gaan ook in op "gegevensafhankelijkheden", zoals wanneer ingangssignalen in de loop van de tijd veranderen, die bijzonder problematisch zijn omdat ze moeilijker te detecteren zijn.
Waarom technische schuld belangrijk is
Technische schuld heeft te maken met de gezondheid op lange termijn en efficiëntie van ML-systemen.
Wanneer ontwikkelaars zich haasten om ML-systemen aan de praat te krijgen, negeren ze misschien de rommelige details van gegevensverwerking of de valkuilen van het 'aan elkaar lijmen' van verschillende onderdelen.
Dit werkt misschien op korte termijn, maar kan leiden tot een warboel die later moeilijk te ontleden, bij te werken of zelfs te begrijpen is.
⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️
GenAI is een lawine van technische schuld* die staat te gebeuren
Deze week nog
👉ChatGPT werd "gek" zonder echte uitleg
👉Sora kan niet consequent afleiden hoeveel poten een kat heeft
👉Gemini's diversiteitsinterventie liep volledig uit de rails.... pic.twitter.com/qzrVlpX9yz- Gary Marcus @ AAAI 2024 (@GaryMarcus) 24 februari 2024
Het lijkt bijvoorbeeld efficiënt om ML-modellen uit een bibliotheek te gebruiken, totdat je opgescheept zit met een nachtmerrie van "lijmcode", waarbij het grootste deel van het systeem gewoon ducttape is dat stukjes en beetjes bij elkaar houdt die niet bedoeld waren om bij elkaar te passen.
Of denk aan "pipeline jungles", beschreven in een eerder artikel van D. Sculley en collega's, waar de voorbereiding van gegevens een labyrint van met elkaar verstrengelde processen wordt, zodat het maken van een verandering voelt als het onschadelijk maken van een bom.
De implicaties van technische schuld
Om te beginnen, hoe ingewikkelder een systeem wordt, hoe moeilijker het is om het te verbeteren of te onderhouden. Dit verstikt niet alleen innovatie, maar kan ook leiden tot meer sinistere problemen.
Als een ML-systeem bijvoorbeeld beslissingen begint te nemen op basis van verouderde of bevooroordeelde gegevens omdat het te omslachtig is om deze bij te werken, kan dit de kwaliteit van het systeem versterken of de betrouwbaarheid ervan aantasten. maatschappelijke vooroordelen versterken.
In kritieke toepassingen zoals gezondheidszorg of autonome voertuigen, kan zo'n technische schuld ernstige gevolgen hebben, niet alleen in termen van tijd en geld, maar ook in termen van menselijk welzijn.
Zoals het onderzoek beschrijft: "Niet alle schulden zijn per definitie slecht, maar technische schulden hebben wel de neiging om zich op te stapelen. Het werk uitstellen om het af te betalen resulteert in toenemende kosten, een broos systeem en verminderde innovatie."
Het is ook een herinnering voor bedrijven en consumenten om transparantie en verantwoording te eisen in de AI-technologieën die ze gebruiken.
Het doel is immers om de kracht van AI in te zetten om het leven beter te maken, niet om te verzanden in een eindeloze cyclus van technische schuld afbetalen.
Studie 2: Je kunt hallucinaties niet scheiden van LLM's
In een andere maar gerelateerde studie van de National University of Singapore onderzochten onderzoekers Ziwei Xu, Sanjay Jain en Mohan Kankanhalli de inherente beperkingen van LLM's.
"Hallucinatie is onvermijdelijk: An Innate Limitation of Large Language Models" onderzoekt de aard van AI-hallucinaties, die gevallen beschrijven waarin AI-systemen plausibele maar onjuiste of volledig verzonnen informatie genereren.
De hallucinatieverschijnselen vormen een grote technische uitdaging, omdat ze een fundamentele kloof blootleggen tussen de output van een AI-model en wat wordt beschouwd als de "grondwaarheid" - een ideaal model dat altijd correcte en logische informatie produceert.
Begrijpen hoe en waarom generatieve AI hallucineert is van het grootste belang nu de technologie wordt geïntegreerd in kritieke sectoren zoals politie en justitie, gezondheidszorg en justitie.
Wat als je zou kunnen *bewijzen* dat hallucinaties onvermijdelijk zijn bij LLM's?
Zou dat veranderen
- Hoe kijkt u aan tegen LLM's?
- Hoeveel zou je erin investeren?
- Hoeveel prioriteit zou u geven aan onderzoek naar alternatieven?In een nieuw artikel wordt dit aangetoond: https://t.co/r0eP3mFxQg
h/t... pic.twitter.com/Id2kdaCSGk- Gary Marcus @ AAAI 2024 (@GaryMarcus) 25 februari 2024
Theoretische grondslagen van hallucinaties
De studie begint met het schetsen van een theoretisch kader om hallucinaties bij LLM's te begrijpen.
Onderzoekers ceen theoretisch model gecreëerd dat bekend staat als de "formele wereld". Deze vereenvoudigde, gecontroleerde omgeving stelde hen in staat om te observeren onder welke omstandigheden AI-modellen niet overeenkomen met de grondwaarheid.
Vervolgens testten ze twee grote families van LLM's:
- Lama 2: Specifiek werd de versie met 70 miljard parameters (llama2-70b-chat-hf) gebruikt die beschikbaar is op HuggingFace. Dit model is een van de nieuwere modellen op het gebied van grote taalmodellen en is ontworpen voor een groot aantal taken op het gebied van tekstgeneratie en tekstbegrip.
- Generatieve voorgetrainde transformatoren (GPT): Het onderzoek omvatte tests op GPT-3.5, met name het gpt-3.5-turbo-16k-model met 175 miljard parameters, en GPT-4 (gpt-4-0613), waarvoor het exacte aantal parameters niet bekend is gemaakt.
LLM's werd gevraagd om strings van een bepaalde lengte op te sommen met behulp van een gespecificeerd alfabet, een ogenschijnlijk eenvoudige rekentaak.
Meer specifiek kregen de modellen de opdracht om alle mogelijke reeksen van lengtes variërend van 1 tot 7 te genereren, met alfabetten van twee tekens (bijv. {a, b}) en drie tekens (bijv. {a, b, c}).
De uitgangen werden geëvalueerd op basis van de vraag of ze alle en alleen de strings van de opgegeven lengte uit het gegeven alfabet bevatten.
Bevindingen
De resultaten lieten een duidelijke beperking zien in het vermogen van de modellen om de taak correct uit te voeren naarmate de complexiteit toenam (d.w.z. naarmate de lengte van de tekenreeks of de grootte van het alfabet toenam). Specifiek:
- De modellen presteerden adequaat voor kortere strings en kleinere alfabetten, maar haperden naarmate de taak complexer werd.
- Met name het geavanceerde GPT-4 model, de meest geavanceerde LLM die op dit moment beschikbaar is, kon niet alle strings opnoemen die langer waren dan bepaalde lengtes.
Dit laat zien dat hallucinaties geen simpele fout zijn die kan worden opgelapt of gecorrigeerd - ze zijn een fundamenteel aspect van hoe deze modellen menselijke taal begrijpen en repliceren.
Zoals het onderzoek beschrijft, "LLM's kunnen niet alles leren van de berekenbare functies en zal daarom altijd hallucineren. Omdat de formele wereld is een onderdeel van de echte wereld die is veel ingewikkelder, hallucinaties zijn ook onvermijdelijk voor echte LLM's."
De implicaties voor toepassingen waarbij veel op het spel staat, zijn enorm. In sectoren als gezondheidszorg, financiën of recht, waar de nauwkeurigheid van informatie ernstige gevolgen kan hebben, kan het vertrouwen op een LLM zonder een fail-safe om deze hallucinaties eruit te filteren leiden tot ernstige fouten.
Deze studie trok de aandacht van AI-expert Dr. Gary Marcus en eminent cognitief psycholoog Dr. Steven Pinker.
Hallucinatie is onvermijdelijk bij grote taalmodellen vanwege hun ontwerp: geen weergave van feiten of dingen, alleen statistische intercorrelaties. Nieuw bewijs voor "een aangeboren beperking" van LLM's. https://t.co/Hl1kqxJGXt
- Steven Pinker (@sapinker) 25 februari 2024
Er spelen diepere problemen
De opeenstapeling van technische schulden en de onvermijdelijkheid van hallucinaties in LLM's zijn symptomatisch voor een dieper probleem - het huidige paradigma van AI-ontwikkeling is mogelijk inherent verkeerd afgestemd om hoogintelligente systemen te maken en betrouwbaar afgestemd op menselijke waarden en feitelijke waarheid.
Op gevoelige gebieden is het niet genoeg om een AI-systeem te hebben dat het meestal bij het rechte eind heeft. Technische schuld en hallucinaties bedreigen beide na verloop van tijd de integriteit van het model.
Dit oplossen is niet alleen een technische uitdaging, maar een multidisciplinaire uitdaging, waarbij input nodig is van AI-ethiek, beleid en domeinspecifieke expertise om veilig te navigeren.
Op dit moment lijkt dit in strijd te zijn met de principes van een industrie die zich houdt aan het motto "snel bewegen en dingen kapot maken".
Laten we hopen dat mensen niet de 'dingen' zijn.