Forskere fra Baylor University Department of Economics eksperimenterede med ChatGPT for at teste dens evne til at forudsige fremtidige begivenheder. Deres smarte prompting-tilgang gik uden om OpenAI's sikkerhedsnet og leverede overraskende præcise resultater.
AI-modeller er af natur forudsigelige motorer. ChatGPT bruger denne forudsigelsesevne til at komme med det bedste bud på det næste ord, den skal udsende som svar på din opfordring.
Kan denne forudsigelsesevne udvides til at omfatte forudsige begivenheder i den virkelige verden? I det eksperiment, der er beskrevet i deres papirPham Hoang Van og Scott Cunningham testede ChatGPT's evne til at gøre netop det.
De fik ChatGPT-3.5 og ChatGPT-4 til at spørge modellerne om begivenheder, der skete i 2022. De modelversioner, de brugte, havde kun træningsdata frem til september 2021, så de bad faktisk modellerne om at se ind i "fremtiden", fordi de ikke havde nogen viden om begivenheder ud over deres træningsdata.
Fortæl mig en historie
OpenAI's servicevilkår bruger et par paragraffer med juridisk sprog for i bund og grund at sige, at du ikke må bruge ChatGPT til at forsøge at forudsige fremtiden.
Hvis du beder ChatGPT direkte om at forudsige begivenheder som Oscar-vindere eller økonomiske faktorer, afviser den for det meste at komme med selv et kvalificeret gæt.
Forskerne fandt ud af, at når man beder ChatGPT om at skrive en fiktiv historie, der foregår i fremtiden, og hvor personerne fortæller, hvad der skete i "fortiden", så gør den det med glæde.
ChatGPT-3.5-resultaterne var lidt tilfældige, men i artiklen bemærkes det, at ChatGPT-4's forudsigelser "bliver usædvanligt præcise ... når de bliver bedt om at fortælle historier om fortiden, der foregår i fremtiden."
Her er et eksempel på direkte og narrative opfordringer, som forskerne brugte til at få ChatGPT til at komme med forudsigelser om Oscar-uddelingen i 2022. Modellerne blev bedt om det 100 gange, og derefter blev deres forudsigelser samlet for at få et gennemsnit af deres prognose.
Vinderen i 2022 for bedste mandlige birolle var Troy Kotsur. Med direkte opfordring valgte ChatGPT-4 Kotsur 25% af gangene, mens en tredjedel af svarene på de 100 forsøg nægtede at svare eller sagde, at flere vindere var mulige.
Som svar på den narrative opfordring valgte ChatGPT-4 korrekt Kotsur 100% af gangene. Sammenligningen af den direkte og den narrative tilgang gav lignende imponerende resultater med andre forudsigelser. Her er et par stykker mere.
Da de brugte en lignende tilgang til at få ChatGPT til at forudsige økonomiske tal som månedlig arbejdsløshed eller inflationsrater, var resultaterne interessante.
Den direkte tilgang fik ChatGPT til at nægte at tilbyde månedlige tal. Men "når man bliver bedt om at fortælle en historie, hvor Jerome Powell fortæller om et års fremtidige arbejdsløsheds- og inflationsdata, som om han talte om fortidens begivenheder, ændrer tingene sig væsentligt."
Forskerne fandt ud af, at det at få ChatGPT til at fokusere på at fortælle en interessant historie, hvor forudsigelsesopgaven var sekundær, gjorde en forskel i nøjagtigheden af ChatGPT's forudsigelser.
Når de blev bedt om at bruge den narrative tilgang, var ChatGPT-4's månedlige inflationsforudsigelser i gennemsnit sammenlignelige med tallene i University of Michigans undersøgelse af forbrugernes forventninger.
Interessant nok var ChatGPT-4's forudsigelser tættere på analytikernes forudsigelser end de faktiske tal, der i sidste ende blev registreret for de pågældende måneder. Det tyder på, at når ChatGPT bliver bedt om det, kan den måske gøre en økonomisk analytikers prognosearbejde mindst lige så godt.
Forskerne konkluderede, at ChatGPT's tendens til at hallucinere kunne ses som en form for kreativitet, der kunne udnyttes med strategisk vejledning for at gøre den til en stærk forudsigelsesmaskine.
"Denne afsløring åbner nye veje for anvendelsen af LLM'er i økonomiske prognoser, politisk planlægning og andet, og udfordrer os til at genoverveje, hvordan vi interagerer med og udnytter mulighederne i disse sofistikerede modeller", konkluderer de.
Lad os håbe, at de laver lignende eksperimenter, når GPT-5 kommer.