AI forandrer den videnskabelige forskning, men uden ordentlig vejledning kan den gøre mere skade end gavn.
Det er den spidse konklusion af en nyt papir offentliggjort i Science Advances af et tværfagligt team på 19 forskere under ledelse af datalogerne Arvind Narayanan og Sayash Kapoor fra Princeton University.
Teamet hævder, at misbrug af maskinlæring på tværs af videnskabelige discipliner giver næring til en reproducerbarhedskrise, der truer med at underminere selve grundlaget for videnskaben.
"Når vi går fra traditionelle statistiske metoder til maskinlæringsmetoder, er der langt flere måder at skyde sig selv i foden på". sagde Narayanan.som leder Princetons Center for Information Technology Policy.
"Hvis vi ikke griber ind for at forbedre vores videnskabelige standarder og rapporteringsstandarder, når det gælder maskinlæringsbaseret videnskab, risikerer vi, at ikke bare én disciplin, men mange forskellige videnskabelige discipliner genopdager disse kriser den ene efter den anden."
Ifølge forfatterne er problemet, at maskinlæring hurtigt er blevet taget i brug inden for næsten alle videnskabelige områder, ofte uden klare standarder for at sikre resultaternes integritet og reproducerbarhed.
De fremhæver, at tDer er allerede udgivet tusindvis af artikler, der bruger fejlbehæftede maskinlæringsmetoder.
Men det Princeton-ledede team siger, at der stadig er tid til at undgå denne forestående krise. De har udarbejdet en simpel tjekliste over bedste praksis, som, hvis den bliver udbredt, kan sikre pålideligheden af maskinlæring inden for videnskaben.
Tjeklisten, der hedder REFORMS (Recommendations for Machine-learning-based Science), består af 32 spørgsmål fordelt på otte nøgleområder:
- Mål for undersøgelsen: Angiv klart den videnskabelige påstand, der fremsættes, og hvordan maskinlæring vil blive brugt til at understøtte den. Begrund valget af maskinlæring frem for traditionelle statistiske metoder.
- Beregningsmæssig reproducerbarhed: Giv koden, data, specifikationer for computermiljøet, dokumentation og et reproduktionsscript, der er nødvendigt for, at andre kan reproducere undersøgelsens resultater uafhængigt.
- Datakvalitet: Dokumenter datakilder, stikprøveramme, resultatvariabler, stikprøvestørrelse og mængden af manglende data. Begrund, at datasættet er passende og repræsentativt for det videnskabelige spørgsmål.
- Forbehandling af data: Rapporter, hvordan data blev renset, omdannet og opdelt i trænings- og testsæt. Giv en begrundelse for eventuelle data, der blev udelukket.
- Modellering: Beskriv og begrund alle afprøvede modeller, den metode, der blev brugt til at vælge den/de endelige model(ler), og hyperparameterindstillingsprocessen. Sammenlign performance med passende baselines.
- Lækage af data: Kontrollér, at modelleringsprocessen ikke utilsigtet har brugt oplysninger fra testdataene, og at inputfunktioner ikke lækker resultatet.
"Det er et systematisk problem med systematiske løsninger", forklarer Kapoor.
Men omkostningerne ved at gøre det forkert kan være enorme. Fejlbehæftet videnskab kan ødelægge lovende forskning, afskrække forskere og underminere offentlighedens tillid til videnskaben.
Tidligere forskning, som f.eks. Naturens store undersøgelse af akademikere om generativ AI i videnskaben, viste, at AI's dybere og progressive integration i videnskabelige arbejdsgange er uundgåelig.
Deltagerne fremhævede masser af fordele - 66% bemærkede, at AI muliggør hurtigere databehandling, 58% mente, at det forbedrer beregningerne, og 55% sagde, at det sparer tid og penge.
Men 53% mente, at resultaterne ikke kunne reproduceres, 58% var bekymrede for bias, og 55% mente, at AI kunne muliggøre svigagtig forskning.
Vi så beviser på dette, da forskere udgav en artikel med nonsens AI-genererede diagrammer i tidsskriftet Frontiers - en rotte med gigantiske testikler, intet mindre. Komisk, men det viste, hvordan peer review måske ikke engang fanger åbenlyse anvendelser af AI.
I sidste ende er AI som ethvert værktøj kun så sikkert og effektivt som mennesket bag det. Uforsigtig brug, selv om det er utilsigtet, kan føre videnskaben på afveje.
De nye retningslinjer har til formål at holde "ærlige mennesker ærlige", som Narayanan udtrykte det.
Udbredt anvendelse blandt forskere, bedømmere og tidsskrifter kan sætte en ny standard for videnskabelig integritet i AI's tidsalder.
Men det bliver en udfordring at skabe konsensus, især fordi reproducerbarhedskrisen allerede flyver under radaren.