Onderzoekers van de universiteit van Berkeley, Californië, ontwikkelden een AI-voorspellingssysteem dat toekomstige gebeurtenissen kan voorspellen met een nauwkeurigheid die vergelijkbaar is met die van menselijke crowd wisdom.
Omdat LLM's niet speciaal zijn gebouwd voor het voorspellen van gebeurtenissen, bouwde het team een voorspellingssysteem bovenop GPT-4 met behulp van een nieuwe benadering die retrieval-augmented reasoning wordt genoemd.
Dit meerstappenproces bestond uit het trainen van GPT-4 om relevante informatie te zoeken, de relevantie ervan te beoordelen en deze te integreren in het redeneerproces voordat een voorspelling werd gedaan.
Zo werkt het:
- Ophalen: Het AI-systeem gebruikt GPT-4 om zoekopdrachten te genereren op basis van de voorspellingsvraag en subvragen, waarbij een brede reeks potentieel relevante nieuwsartikelen wordt opgehaald.
- Relevantie-evaluatie: GPT-4 evalueert de relevantie van elk opgehaald artikel en verwijdert laag scorende artikelen om de informatiepool te verkleinen.
- Samenvatting: GPT-4 brengt elk artikel terug tot de kernpunten en concentreert zich op details met betrekking tot de prognosevraag.
- Redenering: Met behulp van "scratchpad prompts" analyseert GPT-4 de samengevatte artikelen en produceert een gedetailleerde voorspelling met een verklarende redenering. Deze aanwijzingen begeleiden het denkproces van het model en moedigen een systematische benadering van redeneren aan.
Het Berkeley-team ging vervolgens nog een stap verder met zelfgestuurde fijnafstelling.
Ze genereerden een groot aantal AI-voorspellingen op vragen uit het verleden met bekende antwoorden en selecteerden voorbeelden waarbij de AI beter presteerde dan de "wisdom of the crowd" - gedefinieerd als de samengevoegde voorspellingen van menselijke voorspellers.
Door GPT-4 te verfijnen op deze voorbeelden, leerden de onderzoekers het model redeneerpatronen na te bootsen die de beste voorspellingen opleverden.
Resultaten
Bij het testen van voorspellingsvragen vanaf juni 2023 behaalde de AI een Brier-score van 0,179, vergeleken met de menselijke voorspellingsscore van 0,149.
De AI presteerde vooral goed op vragen met een hoge menselijke onzekerheid vroeg in het voorspellingsproces en wanneer het toegang had tot voldoende relevante artikelen over een bepaald onderwerp.
De auteurs schrijven in de onderzoekVoor zover wij weten is dit het eerste geautomatiseerde systeem met een voorspellingscapaciteit die het niveau van de menselijke menigte benadert, die over het algemeen sterker is dan individuele menselijke voorspellers."
Er was een kleine eigenaardigheid, want het systeem leek te verslechteren naarmate er meer artikelen waren om mee te werken en er dus meer zekerheid was over de voorspelling. Dit kan komen doordat het model zijn voorspellingen 'afdekt'.
Onderzoekers beschrijven het als volgt: "We veronderstellen dat dit voortkomt uit de neiging van ons model om voorspellingen af te dekken vanwege zijn veiligheidstraining."
Implicaties
Volgens de onderzoekers kunnen beleidsmakers, bedrijven en volksgezondheidsfunctionarissen allemaal profiteren van deze vorm van taalgestuurde AI-voorspelling.
"In de toekomst kunnen politieke besluitvormers de AI's raadplegen over welke acties het meest waarschijnlijk tot de gewenste resultaten zullen leiden", zegt Dan Hendrycks van het Center for AI Safety in Californië.
Hij stelt voor dat voorspellende modellen de komende gevaren van AI zouden kunnen aanpakken. "Voorspellende bots zouden ons helpen bij het anticiperen op en vermijden van deze risico's", aldus Hendrycks. vertelde de New Scientist.
Er zijn andere pogingen gedaan om complexe levensgebeurtenissen te voorspellen met AI, waaronder een model dat door Deense onderzoekers is getraind om de risico's van vroegtijdig overlijden voorspellen.
Het gebruik van AI voor voorspellende toepassingen die invloed hebben op het leven van mensen roept ethische vragen op, zoals de garantie dat deze systemen transparant, onbevooroordeeld en ethisch gefundeerd zijn.
Deze nieuwe studie van Berkeley schetst hoe AI effectieve voorspellingen kan doen, maar we kunnen niet meten hoe precies het tot zijn beslissingen komt.
Het gebruik van AI om grote maatschappelijke en individuele gebeurtenissen te voorspellen lijkt misschien een dystopisch concept, maar het is al een wijdverbreide praktijk in vele delen van de wereld.
In verschillende democratische landen, waaronder de VS, het VK, Brazilië, Australië en Nederland, wordt AI gebruikt voor politietoezicht en welzijnsbesluitvorming.
Zou een AI op dit moment aspecten van jouw toekomst kunnen voorspellen? Het is zeker mogelijk.