Forskere har utviklet et AI-system som kan simulere hundrevis av millioner av år med proteinevolusjon og skape et nytt fluorescerende protein som ikke finnes i naturen.
Forskerteamet, ledet av Alexander Rives ved EvolutionaryScale, har utviklet en stor språkmodell (LLM) kalt ESM3 for å behandle og generere informasjon om proteinsekvenser, -strukturer og -funksjoner.
Ved å trene på data fra milliarder av naturlige proteiner lærte ESM3 å forutsi hvordan proteiner kan utvikle seg og endre seg over tid.
Forskerne hevder at ESM3 ikke bare henter eller rekombinerer eksisterende proteininformasjon.
I stedet ser det ut til at den har utviklet en forståelse av de grunnleggende prinsippene som styrer proteiners struktur og funksjon, noe som gjør den i stand til å generere helt nye design.
"ESM3 er en fremvoksende simulator som har blitt lært fra å løse en token-prediksjonsoppgave på data generert av evolusjon", forklarer forskerne i studie.
"Det har vært en teori om at nevrale nettverk oppdager den underliggende strukturen i dataene de er trent til å forutsi. For å løse oppgaven med å predikere tokener må modellen lære seg den dype strukturen som bestemmer hvilke steg evolusjonen kan ta, det vil si den grunnleggende biologien til proteiner."
For å teste modellen fikk teamet ESM3 til å designe et helt nytt grønt fluorescerende protein (GFP) - en type protein som er ansvarlig for bioluminescens hos visse marine dyr og mye brukt i bioteknologisk forskning.
Det AI-genererte proteinet, kalt esmGFP, deler bare 58% av sekvensen med de mest lignende kjente fluorescerende proteinene.
Bemerkelsesverdig nok har esmGFP en lysstyrke som kan sammenlignes med naturlig forekommende GFP-er, og den opprettholder den karakteristiske tønneformede strukturen som er avgjørende for fluorescens.
Forskerne anslår at det ville ha tatt over 500 millioner år med naturlig evolusjon å produsere et protein som er så fjernt fra kjente GFP-er.
Mer om studien
Prosessen med å generere esmGFP involverte flere viktige trinn:
- Data: Forskerne trente ESM3 på ca. 2,78 milliarder naturlige proteiner hentet fra sekvens- og strukturdatabaser. Dette inkluderte data fra UniRef, MGnify, JGI og andre kilder.
- Arkitektur: ESM3 bruker en transformatorbasert arkitektur med noen modifikasjoner, inkludert en mekanisme for "geometrisk oppmerksomhet" for å behandle 3D-proteinstrukturer.
- Prompting: Forskerne forsynte ESM3 med minimal strukturell informasjon fra en mal GFP (det fluorescerende proteinet).
- Generasjon: ESM3 brukte denne ledeteksten til å generere nye proteinsekvenser og -strukturer gjennom en iterativ prosess.
- Filtrering: Tusenvis av designkandidater ble evaluert og filtrert for å finne de sterkeste kandidatene.
- Eksperimentell testing: De mest lovende designene ble syntetisert og testet i laboratoriet for fluorescensaktivitet.
- Forfining: Etter å ha identifisert en svak, men fjern GFP-variant, brukte forskerne ESM3 til å optimalisere designet ytterligere, og til slutt produserte de et lysere fluorescerende protein.
Implikasjonene av denne forskningen strekker seg lenger enn til å skape et enkelt nytt protein.
ESM3 demonstrerer en evne til å utforske proteinutformingsområder som ligger langt unna det den naturlige evolusjonen har frembrakt, noe som åpner nye muligheter for å skape proteiner med ønskede funksjoner eller egenskaper.
Dr. Tiffany Taylor, professor i mikrobiell økologi og evolusjon ved University of Bath, som ikke var involvert i studien, fortalte LiveScience: "Akkurat nå mangler vi fortsatt den grunnleggende forståelsen av hvordan proteiner, spesielt de som er "nye for vitenskapen", oppfører seg når de blir introdusert i et levende system, men dette er et kult nytt skritt som gjør at vi kan nærme oss syntetisk biologi på en ny måte."
"AI-modellering som ESM3 vil gjøre det mulig å oppdage nye proteiner som det naturlige utvalget aldri ville ha tillatt, og dermed skape innovasjoner innen proteinkonstruksjon som evolusjonen ikke kan", legger Dr. Taylor til.
Generativ proteindesign
AI-drevet proteinforskning og -design har nådd et høyt nivå, med DeepMind's AlphaFold 3 og forutsi hvordan proteiner folder seg med utrolig nøyaktighet.
AI-designede proteiner har også vist utmerket bindingsstyrkeog viser at de har praktiske bruksområder.
Men som med all teknologi i rask utvikling som på en eller annen måte interagerer med biologi, finnes det risikoer.
For det første kan AI-designede proteiner som slipper ut i miljøet, potensielt påvirke naturlige økosystemer og til og med utkonkurrere naturlige proteiner eller forstyrre eksisterende biologiske prosesser.
For det andre kan de utløse uventede interaksjoner i levende organismer, og potensielt skape skadelige biologiske agenser eller giftstoffer.
Forskere etterlyste nylig etiske kjøreregler for AI-proteindesign for å forhindre risikable utfall på dette spennende, men uforutsigbare feltet.