A empresa de IA EvolutionaryScale lançou o ESM3, um LLM generativo de 98B parâmetros para "biologia de programação".
A empresa está centrada na proteómica, o estudo das interacções, da função, da composição e das estruturas das proteínas e das suas actividades celulares.
Enquanto os modelos multimodais como o GPT-4 podem gerar texto ou imagens, o ESM3 é uma ferramenta de IA para criar protótipos e criar novas proteínas.
Quando um ribossoma cria uma proteína, utiliza o ARNm que contém o código para produzir uma proteína específica.
Todos os organismos vivos partilham o mesmo código genético nos mesmos 20 aminoácidos. Se conseguíssemos ler e compreender esse código, poderíamos programar o ribossoma para produzir uma proteína a pedido.
A EvolutionaryScale diz que o ESM3 "compreende todos estes dados biológicos, traduz-os e fala-os fluentemente para ser utilizado como uma ferramenta generativa".
Em vez de um processo meticuloso e dispendioso de tentativa e erro num laboratório, o ESM3 pode prever a forma e a função de uma proteína numa simulação.
Treinámos o ESM3 e estamos entusiasmados por apresentar o EvolutionaryScale.
O ESM3 é um modelo de linguagem generativa para programação biológica. Em experiências, descobrimos que o ESM3 pode simular 500 milhões de anos de evolução para gerar novas proteínas fluorescentes.
Ler mais: https://t.co/iAC3lkj0iV pic.twitter.com/AhWtC4vxlF
- Alex Rives (@alexrives) 25 de junho de 2024
O ESM3 foi treinado em milhares de milhões de proteínas encontradas na natureza. Um dos maiores desafios na criação do modelo foi a simbolização da estrutura tridimensional da proteína e das suas funções.
Isto exigiu o desenvolvimento de uma forma de escrever cada estrutura e função tridimensional como uma sequência de letras utilizando alfabetos discretos.
Uma vez treinado em milhares de milhões de proteínas, o ESM3 fala fluentemente a linguagem da natureza e pode raciocinar sobre a sequência, a estrutura e a função das proteínas.
Como demonstração das capacidades do ESM3, a EvolutionaryScale utilizou-o para gerar uma nova proteína verde fluorescente (GFP). As GFPs são responsáveis pela bela fluorescência que vemos nalgumas formas de vida, como as medusas ou os corais.
As GFPs são incrivelmente raras na natureza. A empresa estima que a nova proteína, a que chama esmGFP, "representa um equivalente a mais de 500 milhões de anos de evolução natural efectuada por um simulador evolutivo".
A EvolutionaryScale está a disponibilizar abertamente o modelo ESM3 e espera que este "permita aos cientistas explorar as fronteiras da conceção de proteínas e da biologia sintética e inventar novas soluções para alguns dos problemas mais importantes que o nosso mundo enfrenta".
A natureza de dupla utilização e de código aberto de uma ferramenta como o ESM3 levanta riscos potenciais que a empresa afirma que irá mitigar com o seu Quadro de Desenvolvimento Responsável.
A utilização da IA para programar a biologia de forma previsível poderá conduzir a proteínas que capturam carbono, consomem poluentes persistentes como os plásticos ou novos medicamentos.
Os avanços da IA em ferramentas como o ESM3, o AlphaFold e o CRISPR poderão em breve levar à erradicação de doenças e problemas ambientais que desafiaram os cientistas durante décadas.