Des scientifiques ont mis au point un système d'intelligence artificielle capable de simuler des centaines de millions d'années d'évolution des protéines, créant ainsi une nouvelle protéine fluorescente qui ne ressemble à aucune autre dans la nature.
L'équipe de recherche, dirigée par Alexander Rives à EvolutionaryScale, a créé un grand modèle de langage (LLM) appelé ESM3 pour traiter et générer des informations sur les séquences, les structures et les fonctions des protéines.
En s'entraînant sur des données provenant de milliards de protéines naturelles, ESM3 a appris à prédire comment les protéines pouvaient évoluer et se modifier au fil du temps.
Les chercheurs affirment que l'ESM3 ne se contente pas de récupérer ou de recombiner les informations existantes sur les protéines.
Au contraire, elle semble avoir développé une compréhension des principes fondamentaux régissant la structure et la fonction des protéines, ce qui lui permet de générer des conceptions véritablement nouvelles.
"ESM3 est un simulateur émergent qui a été appris en résolvant une tâche de prédiction de jetons sur des données générées par l'évolution", expliquent les chercheurs dans le document étude.
"La théorie veut que les réseaux neuronaux découvrent la structure sous-jacente des données qu'ils sont entraînés à prédire. Ainsi, pour résoudre la tâche de prédiction des jetons, il faudrait que le modèle apprenne la structure profonde qui détermine les étapes de l'évolution, c'est-à-dire la biologie fondamentale des protéines."
Pour tester le modèle, l'équipe a demandé à ESM3 de concevoir une toute nouvelle protéine fluorescente verte (GFP) - un type de protéine responsable de la bioluminescence chez certains animaux marins et largement utilisée dans la recherche biotechnologique.
La protéine générée par l'IA, appelée esmGFP, ne partage que 58% de sa séquence avec les protéines fluorescentes connues les plus similaires.
Il est remarquable que l'esmGFP présente une luminosité comparable à celle des GFP naturelles et qu'elle conserve la structure caractéristique en forme de tonneau, essentielle à la fluorescence.
Les chercheurs estiment que la production d'une protéine aussi éloignée des GFP connues aurait nécessité plus de 500 millions d'années d'évolution naturelle.
En savoir plus sur l'étude
Le processus de génération de l'esmGFP comporte plusieurs étapes clés :
- Données: Les chercheurs ont entraîné ESM3 sur environ 2,78 milliards de protéines naturelles provenant de bases de données de séquences et de structures. Il s'agit de données provenant d'UniRef, MGnify, JGI et d'autres sources.
- L'architecture: ESM3 utilise une architecture basée sur les transformateurs avec quelques modifications, y compris un mécanisme d'"attention géométrique" pour traiter les structures de protéines en 3D.
- Prompt à l'action: Les chercheurs ont fourni à ESM3 des informations structurelles minimales à partir d'un modèle de GFP (protéine fluorescente).
- Génération: ESM3 a utilisé cette invite pour générer de nouvelles séquences et structures de protéines par le biais d'un processus itératif.
- Filtrage: Des milliers de modèles candidats ont été évalués par calcul et filtrés pour trouver les candidats les plus forts.
- Essais expérimentaux: Les modèles les plus prometteurs ont été synthétisés et testés en laboratoire pour l'activité de fluorescence.
- Raffinement: Après avoir identifié une variante de la GFP peu lumineuse mais éloignée, les chercheurs ont utilisé l'ESM3 pour optimiser davantage la conception, produisant finalement une protéine fluorescente plus lumineuse.
Les implications de cette recherche vont au-delà de la création d'une seule nouvelle protéine.
ESM3 démontre une capacité à explorer des espaces de conception de protéines très éloignés de ce que l'évolution naturelle a produit, ouvrant de nouvelles voies pour créer des protéines avec des fonctions ou des propriétés souhaitées.
Tiffany Taylor, professeur d'écologie microbienne et d'évolution à l'université de Bath, qui n'a pas participé à l'étude, a déclaré à LiveScience: "À l'heure actuelle, nous manquons encore de connaissances fondamentales sur la manière dont les protéines, en particulier celles qui sont "nouvelles pour la science", se comportent lorsqu'elles sont introduites dans un système vivant, mais il s'agit là d'une nouvelle étape intéressante qui nous permet d'aborder la biologie synthétique d'une nouvelle manière."
"La modélisation de l'IA comme ESM3 permettra de découvrir de nouvelles protéines que les contraintes de la sélection naturelle ne permettraient jamais, créant ainsi des innovations dans l'ingénierie des protéines que l'évolution ne peut pas réaliser", a ajouté le Dr Taylor.
Conception générative de protéines
La recherche et la conception de protéines basées sur l'IA sont en plein essor. DeepMindAlphaFold 3 prédire la façon dont les protéines se replient avec une précision incroyable.
Les protéines conçues par l'IA ont également montré excellente force de liaisonLes produits de l'agriculture et de l'élevage sont des produits de consommation courante, ce qui montre qu'ils ont des utilisations pratiques.
Cependant, comme pour toute technologie en évolution rapide qui interagit d'une manière ou d'une autre avec la biologie, il existe des risques.
Premièrement, si des protéines conçues par l'IA s'échappaient dans l'environnement, elles pourraient potentiellement interagir avec les écosystèmes naturels, voire même surpasser les protéines naturelles ou perturber les processus biologiques existants.
Deuxièmement, ils pourraient déclencher des interactions inattendues au sein des organismes vivants, voire créer des agents biologiques nocifs ou des toxines.
Les chercheurs ont récemment appelé à garde-fous éthiques pour la conception de l'IA et des protéines afin d'éviter les résultats risqués dans ce domaine passionnant, bien qu'imprévisible.