Forskere ved Universitetet i Bonn, ledet av professor Dr. Jürgen Bajorath, har avdekket hvordan "svarte bokser" med kunstig intelligens fungerer i farmasøytisk forskning.
Deres studiesom nylig ble publisert i Nature Machine Intelligence, avslører at AI-modeller for legemiddeloppdagelse hovedsakelig baserer seg på å gjenkalle eksisterende data i stedet for å lære seg nye kjemiske interaksjoner. Dette utfordrer tidligere antakelser om hvordan kunstig intelligens gjør spådommer på dette feltet.
Forskere bruker maskinlæring til å finne molekyler som effektivt interagerer med målproteiner, noe som ofte innebærer å forutsi hvilke molekyler som vil binde seg sterkt til målproteiner, etterfulgt av eksperimentell validering av disse prediksjonene.
Denne formen for AI-assistert legemiddeloppdagelse fikk store gjennombrudd i 2023, inkludert en MIT-utviklet modell som analyserte millioner av stoffer for potensielle terapeutiske effekter, har AI-oppdagede legemidler som viser lovende for å bremse aldringog AI-genererte proteiner som viser utmerket bindingsstyrke.
Spørsmålet Bajorath og teamet forsøkte å finne svar på, er hvordan noen av disse modellene oppnår sine resultater.
Forskerteamet fokuserte på grafnevrale nettverk (GNN), en type maskinlæringsapplikasjon som er mye brukt i legemiddelforskning. GNN-er trenes opp ved hjelp av grafer som representerer potensielle legemiddelinteraksjoner.
Men som professor Bajorath påpeker: "Hvordan GNN-ene kommer frem til sine spådommer, er som en svart boks vi ikke kan få et glimt inn i."
For å avmystifisere denne prosessen grundig analyserte teamet seks ulike GNN-arkitekturer. Andrea Mastropietro, forfatter av studien og doktorgradskandidat ved Sapienza-universitetet i Roma, sier: "GNN-ene er svært avhengige av dataene de er trent med."
Forskerne oppdaget at GNN-ene hovedsakelig baserer seg på kjemiske likheter fra treningsdataene sine for å komme med spådommer, i stedet for å lære seg spesifikke interaksjoner mellom forbindelser og proteiner.
Det betyr i praksis at AI-modellene ofte "husker" i stedet for å "lære" nye interaksjoner.
"Clever Hans-effekten" innen AI
Forskerne sammenligner dette fenomenet med "Clever Hans-effekten", der en hest ser ut til å utføre aritmetikk ved å tolke subtile signaler fra føreren sin i stedet for å forstå matematikk.
På samme måte handler AI-ens prediksjoner mer om å gjenkalle kjente data enn å forstå komplekse kjemiske interaksjoner.
Funnene tyder på at GNNs evne til å lære kjemiske interaksjoner er overvurdert, og at enklere metoder kan være like effektive.
Noen GNN-er viste imidlertid potensial for å lære flere interaksjoner, noe som tyder på at forbedrede opplæringsteknikker kan forbedre ytelsen deres.
Prof. Bajoraths teamet utvikler også metoder for å klargjøre AI-modellenes funksjonalitet i jakten på "Explainable AI", et fremvoksende felt som skal gjøre AIs beslutningsprosesser transparente og forståelige.