Forskare vid universitetet i Bonn, under ledning av professor Dr. Jürgen Bajorath, har avslöjat det inre arbetet i "svarta lådor" AI som används inom läkemedelsforskning.
Deras studiesom nyligen publicerades i Nature Machine Intelligence, visar att AI-modeller för läkemedelsupptäckt främst är beroende av att återkalla befintliga data snarare än att lära sig nya kemiska interaktioner. Detta utmanar tidigare antaganden om hur AI gör förutsägelser inom detta område.
Forskarna använder maskininlärning för att hitta molekyler som effektivt interagerar med målproteiner, vilket ofta innebär att de förutsäger vilka molekyler som kommer att binda starkt till målproteinerna, följt av experimentell validering av dessa förutsägelser.
Denna form av AI-assisterad läkemedelsupptäckt fick stora genombrott under 2023, inklusive en MIT-utvecklad modell som analyserade miljontals föreningar för potentiella terapeutiska effekter, upptäckte AI läkemedel som visade lovande för att bromsa åldrandet, och AI-genererade proteiner som visar utmärkt bindningsstyrka.
Frågan som Bajorath och hans team försökte besvara var: Hur uppnår vissa av dessa modeller sina resultat?
Forskargruppen fokuserade på Graph Neural Networks (GNN), en typ av maskininlärningsapplikation som ofta används inom läkemedelsforskning. GNN tränas med hjälp av grafer som representerar potentiella läkemedelsinteraktioner.
Men, som professor Bajorath påpekar, "hur GNN:erna kommer fram till sina förutsägelser är som en svart låda som vi inte kan få en glimt av".
För att på ett heltäckande sätt avmystifiera denna process analyserade teamet sex olika GNN-arkitekturer. Andrea Mastropietro, författare till studien och doktorand vid Sapienza University i Rom, säger: "GNN är mycket beroende av de data som de tränas med."
Forskarna upptäckte att GNN:erna främst förlitar sig på kemiska likheter från sina träningsdata för att göra förutsägelser snarare än att lära sig specifika interaktioner mellan föreningar och proteiner.
Det innebär i praktiken att AI-modellerna ofta "minns" snarare än "lär sig" nya interaktioner.
"Clever Hans-effekten" inom AI
Forskarna liknar detta fenomen vid "Clever Hans-effekten", där en häst verkar utföra aritmetiska beräkningar genom att tolka subtila signaler från sin skötare snarare än att faktiskt förstå matematik.
På samma sätt handlar AI:s förutsägelser mer om att återkalla kända data än att förstå komplexa kemiska interaktioner.
Resultaten tyder på att GNN:s förmåga att lära sig kemiska interaktioner är överskattad, och att enklare metoder kan vara lika effektiva.
Vissa GNN visade dock potential att lära sig fler interaktioner, vilket tyder på att förbättrade utbildningstekniker skulle kunna förbättra deras prestanda.
Prof. Bajoraths team utvecklar också metoder för att klargöra AI-modellens funktionalitet i strävan efter "Explainable AI", ett framväxande område för att göra AI:s beslutsprocesser transparenta och begripliga.