Científicos de la Universidad de Bonn, dirigidos por el catedrático Jürgen Bajorath, han descubierto el funcionamiento interno de las "cajas negras" de las IA que intervienen en la investigación farmacéutica.
Su estudiarpublicado recientemente en Nature Machine Intelligence, revela que los modelos de IA en el descubrimiento de fármacos dependen predominantemente de recordar datos existentes en lugar de aprender nuevas interacciones químicas. Esto desafía las suposiciones previas sobre cómo la IA hace predicciones en este campo.
Los investigadores utilizan el aprendizaje automático para localizar moléculas que interactúen eficazmente con las proteínas diana, lo que a menudo implica predecir qué moléculas se unirán fuertemente a las proteínas diana, seguido de la validación experimental de estas predicciones.
Esta forma de descubrimiento de fármacos asistido por IA experimentó grandes avances en 2023, incluyendo un Modelo desarrollado por el MIT que analizaba millones de compuestos en busca de posibles efectos terapéuticos, los fármacos descubiertos por la IA que mostraban prometedoras para frenar el envejecimientoy las proteínas generadas por la IA que muestran excelente resistencia de encuadernación.
La pregunta que Bajorath y su equipo intentaron responder es: ¿cómo consiguen algunos de estos modelos sus resultados?
El equipo de investigación se centró en las redes neuronales gráficas (GNN), un tipo de aplicación de aprendizaje automático muy utilizada en el descubrimiento de fármacos. Las GNN se entrenan con grafos que representan posibles interacciones entre fármacos.
Sin embargo, como señala el profesor Bajorath, "cómo llegan las GNN a sus predicciones es como una caja negra a la que no podemos asomarnos".
Para desmitificar exhaustivamente este proceso, el equipo analizó seis arquitecturas GNN diferentes. Andrea Mastropietro, autor del estudio y doctorando en la Universidad Sapienza de Roma, afirma: "Las GNN dependen mucho de los datos con los que se entrenan."
Los investigadores descubrieron que las GNN se basan principalmente en las similitudes químicas de sus datos de entrenamiento para hacer predicciones, en lugar de aprender interacciones específicas entre compuestos y proteínas.
Esto significa esencialmente que los modelos de IA a menudo "recuerdan" más que "aprenden" nuevas interacciones.
El "efecto Hans el listo" en la IA
Los investigadores comparan este fenómeno con el "efecto Clever Hans", en el que un caballo parece realizar operaciones aritméticas interpretando sutiles indicaciones de su cuidador en lugar de comprender realmente las matemáticas.
Del mismo modo, las predicciones de la IA se basan más en el recuerdo de datos conocidos que en la comprensión de interacciones químicas complejas.
Los resultados sugieren que la capacidad de las GNN para aprender interacciones químicas está sobrevalorada, y que métodos más sencillos podrían ser igualmente eficaces.
Sin embargo, algunas GNN mostraron potencial para aprender más interacciones, lo que indica que la mejora de las técnicas de entrenamiento podría aumentar su rendimiento.
Prof. Bajorath's también está desarrollando métodos para aclarar la funcionalidad de los modelos de IA en busca de una "IA explicable", un campo emergente para hacer transparentes y comprensibles los procesos de toma de decisiones de la IA.