La empresa de IA EvolutionaryScale ha lanzado ESM3, un LLM generativo de 98.000 parámetros para "programar biología".
La empresa se centra en la proteómica, el estudio de las interacciones, la función, la composición y las estructuras de las proteínas y sus actividades celulares.
Mientras que los modelos multimodales como GPT-4 pueden generar texto o imágenes, ESM3 es una herramienta de IA para crear prototipos y nuevas proteínas.
Cuando un ribosoma crea una proteína, utiliza ARNm que contiene el código para fabricar una proteína específica.
Todos los organismos vivos comparten el mismo código genético a través de los mismos 20 aminoácidos. Si se pudiera leer y comprender ese código, se podría programar el ribosoma para fabricar una proteína a la carta.
EvolutionaryScale dice que ESM3 "entiende todos estos datos biológicos, los traduce y los habla con fluidez para utilizarlos como herramienta generativa".
En lugar de un laborioso y costoso proceso de ensayo y error en un laboratorio, ESM3 puede predecir la forma y la función de una proteína en una simulación.
Hemos formado a ESM3 y estamos encantados de presentar EvolutionaryScale.
ESM3 es un modelo de lenguaje generativo para programar biología. En los experimentos, descubrimos que ESM3 puede simular 500M de años de evolución para generar nuevas proteínas fluorescentes.
Más información: https://t.co/iAC3lkj0iV pic.twitter.com/AhWtC4vxlF
- Alex Rives (@alexrives) 25 de junio de 2024
ESM3 se ha entrenado con miles de millones de proteínas de la naturaleza. Uno de los mayores retos a la hora de crear el modelo fue tokenizar la estructura tridimensional de la proteína y sus funciones.
Para ello fue necesario desarrollar una forma de escribir cada estructura y función tridimensional como una secuencia de letras utilizando alfabetos discretos.
Una vez entrenado con miles de millones de proteínas, ESM3 habla con fluidez el lenguaje de la naturaleza y puede razonar sobre la secuencia, la estructura y la función de las proteínas.
Como demostración de las capacidades de ESM3, EvolutionaryScale lo utilizó para generar una nueva proteína verde fluorescente (GFP). Las GFP son responsables de la hermosa fluorescencia que vemos en algunas formas de vida como las medusas o los corales.
Las GFP son increíblemente raras en la naturaleza. La empresa estima que la nueva proteína que denomina esmGFP "representa un equivalente a más de 500 millones de años de evolución natural realizada por un simulador evolutivo."
EvolutionaryScale pone el modelo ESM3 a disposición del público y espera que "permita a los científicos explorar las fronteras del diseño de proteínas y la biología sintética, e inventar nuevas soluciones para algunos de los problemas más importantes a los que se enfrenta nuestro mundo".
El doble uso y la naturaleza de código abierto de una herramienta como ESM3 plantea riesgos potenciales que la empresa afirma que mitigará con su Marco de Desarrollo Responsable.
Utilizar la IA para programar la biología de forma predecible podría dar lugar a proteínas que capturen carbono, consuman contaminantes persistentes como los plásticos, o nuevos medicamentos.
Los avances de la IA en herramientas como ESM3, AlphaFold y CRISPR pueden conducir pronto a la erradicación de enfermedades y problemas medioambientales que han desafiado a los científicos durante décadas.