AI-oppstartsbedriften EvolutionaryScale har lansert ESM3, en generativ LLM med 98B parametere for "programmering av biologi".
Selskapet fokuserer på proteomikk, som er studiet av interaksjoner, funksjon, sammensetning og strukturer av proteiner og deres cellulære aktiviteter.
Mens multimodale modeller som GPT-4 kan generere tekst eller bilder, er ESM3 et AI-verktøy for å lage prototyper og skape nye proteiner.
Når et ribosom lager et protein, bruker det mRNA som bærer koden for å lage et spesifikt protein.
Alle levende organismer deler den samme genetiske koden over de samme 20 aminosyrene. Hvis du kunne lese og forstå denne koden, kunne du programmere ribosomet til å lage et protein på forespørsel.
EvolutionaryScale sier at ESM3 "forstår alle disse biologiske dataene, oversetter dem og snakker dem flytende slik at de kan brukes som et generativt verktøy".
I stedet for en møysommelig og kostbar prosess med prøving og feiling i et laboratorium, kan ESM3 forutsi formen og funksjonen til et protein i en simulering.
Vi har trent ESM3, og vi gleder oss til å introdusere EvolutionaryScale.
ESM3 er en generativ språkmodell for programmering av biologi. I eksperimenter fant vi ut at ESM3 kan simulere 500 millioner års evolusjon for å generere nye fluorescerende proteiner.
Les mer om dette: https://t.co/iAC3lkj0iV pic.twitter.com/AhWtC4vxlF
- Alex Rives (@alexrives) 25. juni 2024
ESM3 er trent på tvers av milliarder av proteiner som finnes i naturen. En av de største utfordringene med å lage modellen var å symbolisere den tredimensjonale proteinstrukturen og dens funksjoner.
Dette krevde at man utviklet en måte å skrive alle tredimensjonale strukturer og funksjoner som en sekvens av bokstaver ved hjelp av diskrete alfabeter.
Når ESM3 er trent opp på milliarder av proteiner, snakker den naturens språk flytende og kan resonnere seg frem til proteiners sekvens, struktur og funksjon.
Som en demonstrasjon av ESM3s evner brukte EvolutionaryScale det til å generere et nytt grønt fluorescerende protein (GFP). GFP er ansvarlig for den vakre fluorescensen vi ser i enkelte livsformer, som maneter og koraller.
GFP-er er utrolig sjeldne i naturen. Selskapet anslår at det nye proteinet, som de kaller esmGFP, "tilsvarer over 500 millioner år med naturlig evolusjon utført av en evolusjonssimulator".
EvolutionaryScale gjør ESM3-modellen åpent tilgjengelig og håper at den vil "gjøre det mulig for forskere å utforske grensene for proteindesign og syntetisk biologi, og finne nye løsninger på noen av de viktigste problemene verden står overfor".
Det at et verktøy som ESM3 har dobbeltbruk og åpen kildekode, medfører potensielle risikoer som selskapet sier at det vil redusere med sitt rammeverk for ansvarlig utvikling.
Ved å bruke kunstig intelligens til å programmere biologi på en forutsigbar måte kan vi utvikle proteiner som fanger karbon, forbruker gjenstridige miljøgifter som plast, eller nye medisiner.
KI-fremskritt med verktøy som ESM3, AlphaFold og CRISPR kan snart føre til utryddelse av sykdommer og miljøproblemer som har utfordret forskere i flere tiår.