AI förändrar den vetenskapliga forskningen, men utan rätt vägledning kan den göra mer skada än nytta.
Det är den tydliga slutsatsen av en nytt papper som publicerades i Science Advances av ett tvärvetenskapligt team med 19 forskare under ledning av datavetarna Arvind Narayanan och Sayash Kapoor från Princeton University.
Teamet hävdar att missbruk av maskininlärning inom vetenskapliga discipliner driver på en reproducerbarhetskris som hotar att undergräva själva grunden för vetenskapen.
"När vi går från traditionella statistiska metoder till maskininlärningsmetoder finns det betydligt fler sätt att skjuta sig själv i foten", säger han. sade Narayanansom är chef för Princetons Center for Information Technology Policy.
"Om vi inte vidtar åtgärder för att förbättra våra vetenskapliga standarder och rapporteringsstandarder när det gäller maskininlärningsbaserad vetenskap riskerar vi att inte bara en disciplin utan många olika vetenskapliga discipliner återupptäcker dessa kriser en efter en."
Enligt författarna är problemet att maskininlärning snabbt har anammats av nästan alla vetenskapliga områden, ofta utan tydliga standarder för att säkerställa resultatens integritet och reproducerbarhet.
De betonar att tTusentals artiklar som använder bristfälliga maskininlärningsmetoder har redan publicerats.
Men det Princeton-ledda teamet säger att det fortfarande finns tid att undvika denna överhängande kris. De har lagt fram en enkel checklista med bästa praxis som, om de antas allmänt, kan skydda tillförlitligheten för maskininlärning inom vetenskapen.
Checklistan, som kallas REFORMS (Recommendations for Machine-learning-based Science), består av 32 frågor inom åtta nyckelområden:
- Mål för studien: Tydligt ange det vetenskapliga påstående som görs och hur maskininlärning kommer att användas för att stödja det. Motivera valet av maskininlärning framför traditionella statistiska metoder.
- Beräkningsmässig reproducerbarhet: Tillhandahålla kod, data, specifikationer för datormiljö, dokumentation och ett reproduktionsskript som behövs för att andra ska kunna reproducera studiens resultat på egen hand.
- Datakvalitet: Dokumentera datakällor, urvalsram, utfallsvariabler, urvalsstorlek och mängden saknade data. Motivera att datasetet är lämpligt och representativt för den vetenskapliga frågeställningen.
- Förbehandling av data: Rapportera hur data har rensats, omvandlats och delats upp i tränings- och testuppsättningar. Ange en motivering för alla data som uteslutits.
- Modellering: Beskriv och motivera alla modeller som prövats, den metod som använts för att välja den/de slutliga modellen/modellerna och hyperparameterinställningsprocessen. Jämför prestanda mot lämpliga baslinjer.
- Dataläckage: Kontrollera att modelleringsprocessen inte oavsiktligt har använt information från testdata och att indatafunktioner inte läcker ut resultatet.
"Det här är ett systematiskt problem med systematiska lösningar", förklarar Kapoor.
Kostnaderna för att göra fel är dock kan bli enorma. Felaktig vetenskap kan sänka lovande forskning, avskräcka forskare och undergräva allmänhetens förtroende för vetenskapen.
Tidigare forskning, till exempel Naturens storskaliga undersökning av akademiker om generativ AI inom vetenskapen, visade att en djupare och progressiv integrering av AI i vetenskapliga arbetsflöden är oundviklig.
Deltagarna lyfte fram många fördelar - 66% noterade att AI möjliggör snabbare databehandling, 58% trodde att det förbättrar beräkningar och 55% sa att det sparar tid och pengar.
Men 53% ansåg att resultaten inte skulle kunna upprepas, 58% oroade sig för partiskhet och 55% trodde att AI skulle kunna möjliggöra bedräglig forskning.
Vi såg bevis på detta när forskare publicerade en artikel med nonsens AI-genererade diagram i tidskriften Frontiers - en råtta med gigantiska testiklar, inte mindre. Komiskt, men det visade hur peer review kanske inte ens fångar upp uppenbart uppenbara användningar av AI.
I slutändan är AI, precis som alla andra verktyg, bara så säkert och effektivt som människan bakom det. Oförsiktig användning, även om den är oavsiktlig, kan leda vetenskapen på villovägar.
De nya riktlinjerna syftar till att hålla "ärliga människor ärliga", som Narayanan uttryckte det.
Ett brett införande bland forskare, granskare och tidskrifter skulle kunna sätta en ny standard för vetenskaplig integritet i AI-åldern.
Att skapa konsensus kommer dock att bli en utmaning, särskilt eftersom reproducerbarhetskrisen redan flyger under radarn.