AI-startupen EvolutionaryScale har släppt ESM3, en generativ LLM med 98B parametrar för "programmering av biologi".
Bolaget är inriktat på proteomik, dvs studier av proteiners interaktioner, funktion, sammansättning och strukturer samt deras cellulära aktiviteter.
Medan multimodala modeller som GPT-4 kan generera text eller bilder, är ESM3 ett AI-verktyg för att skapa prototyper och nya proteiner.
När en ribosom skapar ett protein använder den mRNA som bär koden för att skapa ett specifikt protein.
Alla levande organismer delar samma genetiska kod över samma 20 aminosyror. Om man kunde läsa och förstå den koden skulle man kunna programmera ribosomen att tillverka ett protein på beställning.
EvolutionaryScale säger att ESM3 "förstår alla dessa biologiska data, översätter dem och talar dem flytande så att de kan användas som ett generativt verktyg".
I stället för en mödosam och kostsam process med försök och misstag i ett laboratorium kan ESM3 förutsäga ett proteins form och funktion i en simulering.
Vi har utbildat ESM3 och vi är glada över att kunna presentera EvolutionaryScale.
ESM3 är en generativ språkmodell för programmering av biologi. I experiment fann vi att ESM3 kan simulera 500 miljoner års evolution för att generera nya fluorescerande proteiner.
Läs mer om detta: https://t.co/iAC3lkj0iV pic.twitter.com/AhWtC4vxlF
- Alex Rives (@alexrives) 25 juni 2024
ESM3 har tränats på miljarder proteiner som finns i naturen. En av de största utmaningarna med att skapa modellen var att tokenisera den tredimensionella proteinstrukturen och dess funktioner.
Detta krävde att man utvecklade ett sätt att skriva varje tredimensionell struktur och funktion som en sekvens av bokstäver med hjälp av diskreta alfabet.
När ESM3 har tränats på miljarder proteiner talar den naturens språk flytande och kan resonera kring proteinernas sekvens, struktur och funktion.
Som en demonstration av ESM3:s förmågor använde EvolutionaryScale den för att generera ett nytt grönt fluorescerande protein (GFP). GFP:er är ansvariga för den vackra fluorescens som vi ser i vissa livsformer som maneter eller koraller.
GFP:er är otroligt sällsynta i naturen. Företaget uppskattar att det nya protein som de kallar esmGFP "motsvarar över 500 miljoner år av naturlig evolution utförd av en evolutionär simulator".
EvolutionaryScale gör ESM3-modellen öppet tillgänglig och hoppas att den ska "göra det möjligt för forskare att utforska gränserna för proteindesign och syntetisk biologi och uppfinna nya lösningar på några av de viktigaste problemen i vår värld".
Att ett verktyg som ESM3 har dubbla användningsområden och öppen källkod innebär potentiella risker som företaget säger att det kommer att minska med sitt Responsible Development Framework.
Att använda AI för att programmera biologi på ett förutsägbart sätt kan leda till proteiner som fångar upp kol, förbrukar envisa föroreningar som plast eller nya läkemedel.
AI-framsteg i verktyg som ESM3, AlphaFold och CRISPR kan snart leda till utrotning av sjukdomar och miljöproblem som har utmanat forskare i årtionden.