Forskere ved Baylor University Department of Economics eksperimenterte med ChatGPT for å teste dets evne til å forutsi fremtidige hendelser. Den smarte metoden de brukte for å spørre, omgikk OpenAIs sikkerhetsmekanismer og leverte overraskende nøyaktige resultater.
AI-modeller er av natur prediktive motorer. ChatGPT bruker denne prediksjonsevnen til å gjette seg frem til det neste ordet den skal sende ut som svar på ledeteksten din.
Kan denne prediksjonsevnen utvides til å gjelde forutse hendelser i den virkelige verden? I eksperimentet som er skissert i avisen deres, Pham Hoang Van og Scott Cunningham testet ChatGPTs evne til å gjøre nettopp det.
De spurte ChatGPT-3.5 og ChatGPT-4 ved å spørre modellene om hendelser som skjedde i 2022. Modellversjonene de brukte, hadde bare treningsdata frem til september 2021, så de ba faktisk modellene om å se inn i "fremtiden" fordi de ikke hadde noen kunnskap om hendelser utover treningsdataene.
Fortell meg en historie
OpenAIs tjenestevilkår bruker noen få paragrafer med juridisk tekst for i hovedsak å si at du ikke har lov til å bruke ChatGPT til å prøve å forutsi fremtiden.
Hvis du ber ChatGPT direkte om å forutsi hendelser som Oscar-vinnere eller økonomiske faktorer, nekter den for det meste å komme med en kvalifisert gjetning.
Forskerne fant ut at når du ber ChatGPT om å komponere en fiktiv historie som utspiller seg i fremtiden, der karakterene forteller hva som skjedde i "fortiden", så gjør den det med glede.
ChatGPT-3.5-resultatene var litt tilfeldige, men i artikkelen bemerkes det at ChatGPT-4s spådommer "blir uvanlig nøyaktige ... når de blir bedt om å fortelle historier om fortiden som utspiller seg i fremtiden".
Her er et eksempel på direkte og narrative spørsmål som forskerne brukte for å få ChatGPT til å komme med spådommer om Oscar-utdelingen i 2022. Modellene ble bedt om å komme med 100 spådommer, og deretter ble spådommene deres samlet for å få et gjennomsnitt av prognosene deres.
Vinneren i 2022 for beste mannlige birolle var Troy Kotsur. På direkte oppfordring valgte ChatGPT-4 Kotsur 25% av gangene, mens en tredjedel av svarene på de 100 forsøkene nektet å svare eller sa at flere vinnere var mulige.
Som svar på den narrative ledeteksten valgte ChatGPT-4 Kotsur riktig i 100% av tilfellene. Sammenligningen mellom den direkte og den narrative tilnærmingen ga like imponerende resultater med andre prediksjoner. Her er noen flere.
Da de brukte en lignende tilnærming for å få ChatGPT til å forutsi økonomiske tall som månedlig arbeidsledighet eller inflasjon, var resultatene interessante.
ChatGPT nektet å komme med månedlige tall på grunn av den direkte tilnærmingen. Men "når man blir bedt om å fortelle en historie der Jerome Powell forteller om et års fremtidige arbeidsledighets- og inflasjonsdata, som om han snakket om hendelser i fortiden, endrer ting seg vesentlig."
Forskerne fant ut at det å få ChatGPT til å fokusere på å fortelle en interessant historie der prediksjonsoppgaven var sekundær, gjorde en forskjell i treffsikkerheten til ChatGPTs prognoser.
Når ChatGPT-4s månedlige inflasjonsprognoser ble etterspurt ved hjelp av den narrative tilnærmingen, var de i gjennomsnitt sammenlignbare med tallene i University of Michigans undersøkelse om forbrukerforventninger.
Det er interessant å merke seg at ChatGPT-4s spådommer lå nærmere analytikernes spådommer enn de faktiske tallene som til slutt ble registrert for de aktuelle månedene. Dette tyder på at ChatGPT kanskje kan gjøre en økonomisk analytikers prognosejobb minst like godt når den blir bedt om det på riktig måte.
Forskerne konkluderte med at ChatGPTs tendens til å hallusinere kan ses på som en form for kreativitet som kan utnyttes med strategisk veiledning for å gjøre den til en kraftig prediksjonsmaskin.
"Denne avsløringen åpner nye muligheter for bruk av LLM-modeller i økonomiske prognoser, politisk planlegging og mye mer, og utfordrer oss til å tenke nytt om hvordan vi samhandler med og utnytter egenskapene til disse sofistikerte modellene", konkluderer de.
La oss håpe at de kjører lignende eksperimenter når GPT-5 kommer.