AI-modell simulerer 500 millioner år med evolusjon for å skape et nytt fluorescerende protein

19. juli 2024

  • Forskere skapte en AI-modell for å generere helt nye, funksjonelle proteiner
  • Proteinet, som aldri før er sett i naturen, speiler de som brukes i bioluminescens
  • Denne prosessen omgår i hovedsak millioner av år med proteinevolusjon
Ai-protein

Forskere har utviklet et AI-system som kan simulere hundrevis av millioner av år med proteinevolusjon og skape et nytt fluorescerende protein som ikke finnes i naturen.

Forskerteamet, ledet av Alexander Rives ved EvolutionaryScale, har utviklet en stor språkmodell (LLM) kalt ESM3 for å behandle og generere informasjon om proteinsekvenser, -strukturer og -funksjoner. 

Ved å trene på data fra milliarder av naturlige proteiner lærte ESM3 å forutsi hvordan proteiner kan utvikle seg og endre seg over tid.

Forskerne hevder at ESM3 ikke bare henter eller rekombinerer eksisterende proteininformasjon. 

I stedet ser det ut til at den har utviklet en forståelse av de grunnleggende prinsippene som styrer proteiners struktur og funksjon, noe som gjør den i stand til å generere helt nye design.

"ESM3 er en fremvoksende simulator som har blitt lært fra å løse en token-prediksjonsoppgave på data generert av evolusjon", forklarer forskerne i studie.

"Det har vært en teori om at nevrale nettverk oppdager den underliggende strukturen i dataene de er trent til å forutsi. For å løse oppgaven med å predikere tokener må modellen lære seg den dype strukturen som bestemmer hvilke steg evolusjonen kan ta, det vil si den grunnleggende biologien til proteiner."

For å teste modellen fikk teamet ESM3 til å designe et helt nytt grønt fluorescerende protein (GFP) - en type protein som er ansvarlig for bioluminescens hos visse marine dyr og mye brukt i bioteknologisk forskning.

Det AI-genererte proteinet, kalt esmGFP, deler bare 58% av sekvensen med de mest lignende kjente fluorescerende proteinene.

Bemerkelsesverdig nok har esmGFP en lysstyrke som kan sammenlignes med naturlig forekommende GFP-er, og den opprettholder den karakteristiske tønneformede strukturen som er avgjørende for fluorescens. 

Forskerne anslår at det ville ha tatt over 500 millioner år med naturlig evolusjon å produsere et protein som er så fjernt fra kjente GFP-er.

Mer om studien

Prosessen med å generere esmGFP involverte flere viktige trinn:

  1. Data: Forskerne trente ESM3 på ca. 2,78 milliarder naturlige proteiner hentet fra sekvens- og strukturdatabaser. Dette inkluderte data fra UniRef, MGnify, JGI og andre kilder.
  2. Arkitektur: ESM3 bruker en transformatorbasert arkitektur med noen modifikasjoner, inkludert en mekanisme for "geometrisk oppmerksomhet" for å behandle 3D-proteinstrukturer.
  3. Prompting: Forskerne forsynte ESM3 med minimal strukturell informasjon fra en mal GFP (det fluorescerende proteinet).
  4. Generasjon: ESM3 brukte denne ledeteksten til å generere nye proteinsekvenser og -strukturer gjennom en iterativ prosess.
  5. Filtrering: Tusenvis av designkandidater ble evaluert og filtrert for å finne de sterkeste kandidatene.
  6. Eksperimentell testing: De mest lovende designene ble syntetisert og testet i laboratoriet for fluorescensaktivitet.
  7. Forfining: Etter å ha identifisert en svak, men fjern GFP-variant, brukte forskerne ESM3 til å optimalisere designet ytterligere, og til slutt produserte de et lysere fluorescerende protein.

Implikasjonene av denne forskningen strekker seg lenger enn til å skape et enkelt nytt protein. 

ESM3 demonstrerer en evne til å utforske proteinutformingsområder som ligger langt unna det den naturlige evolusjonen har frembrakt, noe som åpner nye muligheter for å skape proteiner med ønskede funksjoner eller egenskaper.

Dr. Tiffany Taylor, professor i mikrobiell økologi og evolusjon ved University of Bath, som ikke var involvert i studien, fortalte LiveScience: "Akkurat nå mangler vi fortsatt den grunnleggende forståelsen av hvordan proteiner, spesielt de som er "nye for vitenskapen", oppfører seg når de blir introdusert i et levende system, men dette er et kult nytt skritt som gjør at vi kan nærme oss syntetisk biologi på en ny måte."

"AI-modellering som ESM3 vil gjøre det mulig å oppdage nye proteiner som det naturlige utvalget aldri ville ha tillatt, og dermed skape innovasjoner innen proteinkonstruksjon som evolusjonen ikke kan", legger Dr. Taylor til.

Generativ proteindesign

AI-drevet proteinforskning og -design har nådd et høyt nivå, med DeepMind's AlphaFold 3 og forutsi hvordan proteiner folder seg med utrolig nøyaktighet. 

AI-designede proteiner har også vist utmerket bindingsstyrkeog viser at de har praktiske bruksområder. 

Men som med all teknologi i rask utvikling som på en eller annen måte interagerer med biologi, finnes det risikoer. 

For det første kan AI-designede proteiner som slipper ut i miljøet, potensielt påvirke naturlige økosystemer og til og med utkonkurrere naturlige proteiner eller forstyrre eksisterende biologiske prosesser. 

For det andre kan de utløse uventede interaksjoner i levende organismer, og potensielt skape skadelige biologiske agenser eller giftstoffer. 

Forskere etterlyste nylig etiske kjøreregler for AI-proteindesign for å forhindre risikable utfall på dette spennende, men uforutsigbare feltet. 

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Sam Jeans

Sam er en vitenskaps- og teknologiskribent som har jobbet i ulike oppstartsbedrifter innen kunstig intelligens. Når han ikke skriver, leser han medisinske tidsskrifter eller graver seg gjennom esker med vinylplater.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser