ИИ-стартап EvolutionaryScale выпустил ESM3, генеративный LLM с 98B-параметрами для "программирования биологии".
Компания специализируется на протеомике - изучении взаимодействия, функций, состава и структуры белков, а также их клеточной активности.
В то время как мультимодальные модели, такие как GPT-4, могут генерировать текст или изображения, ESM3 - это инструмент ИИ для прототипирования и создания новые белки.
Когда рибосома создает белок, она использует мРНК, которая несет в себе код для создания конкретного белка.
Каждый живой организм имеет один и тот же генетический код, состоящий из 20 аминокислот. Если бы вы могли прочитать и понять этот код, вы могли бы запрограммировать рибосому на создание белка по требованию.
Компания EvolutionaryScale утверждает, что ESM3 "понимает все эти биологические данные, переводит их и свободно говорит на них, чтобы использовать в качестве генеративного инструмента".
Вместо кропотливого и дорогостоящего процесса проб и ошибок в лаборатории, ESM3 может предсказать форму и функцию белка с помощью симуляции.
Мы обучили ESM3 и с радостью представляем EvolutionaryScale.
ESM3 - это генеративная языковая модель для программирования биологии. В ходе экспериментов мы обнаружили, что ESM3 может моделировать 500 миллионов лет эволюции для создания новых флуоресцентных белков.
Читать далее: https://t.co/iAC3lkj0iV pic.twitter.com/AhWtC4vxlF
- Алекс Райвз (@alexrives) 25 июня 2024 года
ESM3 обучена на миллиардах белков, встречающихся в природе. Одна из самых сложных задач при создании модели заключалась в токенизации трехмерной структуры белка и его функций.
Это потребовало разработки способа записи каждой трехмерной структуры и функции в виде последовательности букв с помощью дискретных алфавитов.
После обучения на миллиардах белков ESM3 свободно говорит на языке природы и может рассуждать о последовательности, структуре и функциях белков.
В качестве демонстрации возможностей ESM3 компания EvolutionaryScale использовала его для генерации нового зеленого флуоресцентного белка (GFP). GFP отвечают за красивую флуоресценцию, которую мы видим у некоторых живых организмов, таких как медузы или кораллы.
GFP невероятно редки в природе. По оценкам компании, новый белок, который она назвала esmGFP, "представляет собой эквивалент более 500 миллионов лет естественной эволюции, проведенной с помощью эволюционного симулятора".
Компания EvolutionaryScale выкладывает модель ESM3 в открытый доступ и надеется, что она "позволит ученым исследовать границы дизайна белков и синтетической биологии, а также изобрести новые решения для некоторых из самых важных проблем, стоящих перед нашим миром".
Двойное назначение и открытый исходный код такого инструмента, как ESM3, создают потенциальные риски, которые, по словам компании, будут снижены с помощью системы ответственного развития.
Использование искусственного интеллекта для предсказуемого программирования биологии может привести к появлению белков, улавливающих углерод, поглощающих стойкие загрязнители, такие как пластик, или новых лекарств.
Достижения ИИ в таких инструментах, как ESM3, AlphaFold и CRISPR, могут вскоре привести к искоренению болезней и экологических проблем, которые десятилетиями не давали покоя ученым.