Los científicos han desarrollado un sistema de IA capaz de simular cientos de millones de años de evolución de las proteínas, creando una nueva proteína fluorescente distinta de las que se encuentran en la naturaleza.
El equipo de investigación, dirigido por Alexander Rives en EvolutionaryScale, creó un gran modelo de lenguaje (LLM) llamado ESM3 para procesar y generar información sobre secuencias, estructuras y funciones de proteínas.
Al entrenarse con datos de miles de millones de proteínas naturales, ESM3 aprendió a predecir cómo podrían evolucionar y cambiar las proteínas con el tiempo.
Los investigadores sostienen que ESM3 no se limita a recuperar o recombinar información existente sobre proteínas.
En cambio, parece haber desarrollado una comprensión de los principios fundamentales que rigen la estructura y la función de las proteínas, lo que le permite generar diseños realmente novedosos.
"ESM3 es un simulador emergente que se ha aprendido a partir de la resolución de una tarea de predicción de fichas sobre datos generados por la evolución", explican los investigadores en el estudiar.
"Se ha teorizado que las redes neuronales descubren la estructura subyacente de los datos que se les entrena para predecir. De este modo, resolver la tarea de predicción de tokens requeriría que el modelo aprendiera la estructura profunda que determina qué pasos puede dar la evolución, es decir, la biología fundamental de las proteínas."
Para probar el modelo, el equipo recurrió al ESM3 para diseñar una proteína verde fluorescente (GFP) totalmente nueva, un tipo de proteína responsable de la bioluminiscencia en ciertos animales marinos y muy utilizada en la investigación biotecnológica.
La proteína generada por la IA, denominada esmGFP, sólo comparte 58% de su secuencia con las proteínas fluorescentes conocidas más similares.
Sorprendentemente, la esmGFP exhibe un brillo comparable al de las GFP naturales y mantiene la estructura característica en forma de barril, esencial para la fluorescencia.
Los investigadores calculan que producir una proteína tan distante de las GFP conocidas habría llevado más de 500 millones de años de evolución natural.
Más información sobre el estudio
El proceso de generación de esmGFP implicó varios pasos clave:
- Datos: Los investigadores entrenaron ESM3 con aproximadamente 2.780 millones de proteínas naturales recogidas de bases de datos de secuencias y estructuras. Esto incluye datos de UniRef, MGnify, JGI y otras fuentes.
- Arquitectura: ESM3 utiliza una arquitectura basada en transformadores con algunas modificaciones, incluido un mecanismo de "atención geométrica" para procesar estructuras de proteínas en 3D.
- Para consultar: Los investigadores proporcionaron a ESM3 información estructural mínima a partir de una plantilla GFP (la proteína fluorescente).
- Generación: ESM3 utilizó esta indicación para generar nuevas secuencias y estructuras de proteínas mediante un proceso iterativo.
- Filtrado: Miles de diseños candidatos fueron evaluados computacionalmente y filtrados para encontrar los candidatos más fuertes.
- Pruebas experimentales: Los diseños más prometedores se sintetizaron y probaron en el laboratorio para determinar su actividad fluorescente.
- Perfeccionamiento: Tras identificar una variante de GFP tenue pero distante, los investigadores utilizaron ESM3 para optimizar aún más el diseño, produciendo finalmente una proteína fluorescente más brillante.
Las implicaciones de esta investigación van más allá de la creación de una única proteína novedosa.
ESM3 demuestra su capacidad para explorar espacios de diseño de proteínas muy alejados de los que ha producido la evolución natural, lo que abre nuevas vías para crear proteínas con las funciones o propiedades deseadas.
La Dra. Tiffany Taylor, catedrática de Ecología y Evolución Microbiana de la Universidad de Bath, que no participó en el estudio, a LiveScience: "Ahora mismo, aún nos falta la comprensión fundamental de cómo se comportan las proteínas, especialmente las 'nuevas para la ciencia', cuando se introducen en un sistema vivo, pero este es un nuevo paso genial que nos permite abordar la biología sintética de una forma nueva."
"Los modelos de IA como el ESM3 permitirán descubrir nuevas proteínas que las limitaciones de la selección natural nunca permitirían, creando innovaciones en ingeniería de proteínas que la evolución no puede", añadió el Dr. Taylor.
Diseño generativo de proteínas
La investigación y el diseño de proteínas impulsados por la IA han alcanzado su punto álgido, con DeepMindAlphaFold 3 predecir cómo se pliegan las proteínas con una precisión increíble.
Las proteínas diseñadas con IA también han demostrado excelente resistencia de encuadernacióndemostrando que tienen usos prácticos.
Sin embargo, como ocurre con cualquier tecnología de rápida evolución que interactúa de algún modo con la biología, existen riesgos.
En primer lugar, si las proteínas diseñadas por la IA se escaparan al medio ambiente, podrían interactuar con los ecosistemas naturales, incluso superando a las proteínas naturales o perturbando los procesos biológicos existentes.
En segundo lugar, podrían desencadenar interacciones inesperadas dentro de los organismos vivos, pudiendo incluso crear agentes biológicos nocivos o toxinas.
Los investigadores han pedido recientemente barreras éticas para que el diseño de proteínas de IA evite resultados arriesgados en este apasionante, aunque impredecible, campo.