La startup EvolutionaryScale a lancé ESM3, un LLM génératif de 98B paramètres pour "programmer la biologie".
L'entreprise se concentre sur la protéomique, l'étude des interactions, de la fonction, de la composition et des structures des protéines et de leurs activités cellulaires.
Alors que les modèles multimodaux tels que GPT-4 peuvent générer du texte ou des images, ESM3 est un outil d'IA pour le prototypage et la création. nouvelles protéines.
Lorsqu'un ribosome crée une protéine, il utilise l'ARNm qui porte le code de fabrication d'une protéine spécifique.
Tous les organismes vivants partagent le même code génétique pour les 20 mêmes acides aminés. Si vous pouviez lire et comprendre ce code, vous pourriez programmer le ribosome pour qu'il fabrique une protéine à la demande.
EvolutionaryScale affirme qu'ESM3 "comprend toutes ces données biologiques, les traduit et les parle couramment pour les utiliser comme un outil génératif".
Au lieu d'un processus laborieux et coûteux d'essais et d'erreurs en laboratoire, ESM3 peut prédire la forme et la fonction d'une protéine dans une simulation.
Nous avons formé ESM3 et nous sommes heureux de vous présenter EvolutionaryScale.
ESM3 est un modèle de langage génératif pour la programmation de la biologie. Des expériences ont montré qu'ESM3 peut simuler 500 millions d'années d'évolution pour générer de nouvelles protéines fluorescentes.
En savoir plus : https://t.co/iAC3lkj0iV pic.twitter.com/AhWtC4vxlF
- Alex Rives (@alexrives) 25 juin 2024
ESM3 est entraîné sur des milliards de protéines trouvées dans la nature. L'une des principales difficultés rencontrées lors de la création du modèle a été la symbolisation de la structure tridimensionnelle de la protéine et de ses fonctions.
Il fallait donc trouver un moyen d'écrire chaque structure et fonction tridimensionnelle sous la forme d'une séquence de lettres à l'aide d'alphabets discrets.
Une fois entraîné sur des milliards de protéines, ESM3 parle couramment le langage de la nature et peut raisonner sur la séquence, la structure et la fonction des protéines.
Pour démontrer les capacités d'ESM3, EvolutionaryScale l'a utilisé pour générer une nouvelle protéine fluorescente verte (GFP). Les GFP sont responsables de la magnifique fluorescence que l'on observe chez certaines formes de vie comme les méduses ou les coraux.
Les GFP sont incroyablement rares dans la nature. La société estime que la nouvelle protéine qu'elle appelle esmGFP "représente l'équivalent de plus de 500 millions d'années d'évolution naturelle réalisée par un simulateur d'évolution".
EvolutionaryScale met le modèle ESM3 en libre accès et espère qu'il "permettra aux scientifiques d'explorer les frontières de la conception des protéines et de la biologie synthétique, et d'inventer de nouvelles solutions pour certains des problèmes les plus importants auxquels notre monde est confronté".
Le double usage et la nature open-source d'un outil tel que l'ESM3 soulèvent des risques potentiels que l'entreprise affirme vouloir atténuer grâce à son cadre de développement responsable.
L'utilisation de l'IA pour programmer la biologie de manière prévisible pourrait conduire à des protéines qui capturent le carbone, consomment des polluants tenaces tels que les plastiques, ou à de nouveaux médicaments.
Les progrès de l'IA dans des outils tels que ESM3, AlphaFold et CRISPR pourraient bientôt conduire à l'éradication de maladies et de problèmes environnementaux qui ont posé des défis aux scientifiques pendant des décennies.