AI-modell simulerar 500 miljoner år av evolution för att skapa ett nytt fluorescerande protein

19 juli 2024

  • Forskare skapade en AI-modell för att generera helt nya, funktionella proteiner
  • Proteinet, som aldrig tidigare setts i naturen, liknar de som används i bioluminescens
  • Denna process förbigår i princip miljontals år av proteinevolution
Ai protein

Forskare har utvecklat ett AI-system som kan simulera hundratals miljoner år av proteinevolution och skapa ett nytt fluorescerande protein som inte liknar något som finns i naturen.

Forskargruppen, som leds av Alexander Rives på EvolutionaryScale, skapade en stor språkmodell (LLM) kallad ESM3 för att bearbeta och generera information om proteinsekvenser, strukturer och funktioner. 

Genom att träna på data från miljarder naturliga proteiner lärde sig ESM3 att förutsäga hur proteiner kan utvecklas och förändras över tid.

Forskarna menar att ESM3 inte bara hämtar eller rekombinerar befintlig proteininformation. 

Istället verkar den ha utvecklat en förståelse för de grundläggande principer som styr proteinernas struktur och funktion, vilket gör det möjligt för den att skapa helt nya konstruktioner.

"ESM3 är en framväxande simulator som har lärt sig genom att lösa en uppgift för att förutsäga symboler på data som genererats av evolutionen", förklarar forskarna i studie.

"Det finns en teori om att neurala nätverk upptäcker den underliggande strukturen i de data som de är tränade att förutsäga. För att lösa uppgiften att förutsäga token skulle modellen på så sätt behöva lära sig den djupa struktur som avgör vilka steg evolutionen kan ta, dvs. proteinernas grundläggande biologi."

För att testa modellen uppmanade teamet ESM3 att designa ett helt nytt grönt fluorescerande protein (GFP) - en typ av protein som är ansvarigt för bioluminescens hos vissa marina djur och som ofta används inom bioteknisk forskning.

Det AI-genererade proteinet, som kallas esmGFP, delar endast 58% av sin sekvens med de mest liknande kända fluorescerande proteinerna.

Anmärkningsvärt är att esmGFP uppvisar en ljusstyrka som är jämförbar med naturligt förekommande GFP:er och bibehåller den karakteristiska tunnformade struktur som är nödvändig för fluorescens. 

Forskarna uppskattar att det skulle ha tagit över 500 miljoner år av naturlig evolution att producera ett protein som ligger så långt från kända GFP:er.

Mer om studien

Processen för att generera esmGFP omfattade flera viktiga steg:

  1. Uppgifter: Forskarna tränade ESM3 på cirka 2,78 miljarder naturliga proteiner som samlats in från sekvens- och strukturdatabaser. Detta inkluderade data från UniRef, MGnify, JGI och andra källor.
  2. Arkitektur: ESM3 använder en transformatorbaserad arkitektur med vissa modifieringar, inklusive en mekanism för "geometrisk uppmärksamhet" för att bearbeta 3D-proteinstrukturer.
  3. Prompting: Forskarna försåg ESM3 med minimal strukturell information från en mall GFP (det fluorescerande proteinet).
  4. Generation: ESM3 använde denna uppmaning för att generera nya proteinsekvenser och strukturer genom en iterativ process.
  5. Filtrering: Tusentals kandidatdesigner utvärderades och filtrerades för att hitta de starkaste kandidaterna.
  6. Experimentell testning: De mest lovande konstruktionerna syntetiserades och testades i labbet för fluorescensaktivitet.
  7. Förädling: Efter att ha identifierat en svag men avlägsen GFP-variant använde forskarna ESM3 för att ytterligare optimera designen och slutligen producera ett ljusare fluorescerande protein.

Konsekvenserna av denna forskning sträcker sig längre än till skapandet av ett enda nytt protein. 

ESM3 visar en förmåga att utforska proteiners designutrymmen långt ifrån vad den naturliga evolutionen har producerat, vilket öppnar nya vägar för att skapa proteiner med önskade funktioner eller egenskaper.

Dr. Tiffany Taylor, professor i mikrobiell ekologi och evolution vid University of Bath, som inte var involverad i studien, berättade för LiveScience: "Just nu saknar vi fortfarande den grundläggande förståelsen för hur proteiner, särskilt de som är "nya för vetenskapen", beter sig när de introduceras i ett levande system, men detta är ett häftigt nytt steg som gör att vi kan närma oss syntetisk biologi på ett nytt sätt."

"AI-modellering som ESM3 kommer att göra det möjligt att upptäcka nya proteiner som det naturliga urvalet aldrig skulle tillåta, vilket skapar innovationer inom proteinteknik som evolutionen inte kan", tillade Dr. Taylor.

Generativ design av proteiner

AI-driven proteinforskning och design har nått en febernivå, med DeepMind's AlphaFold 3 förutsäga hur proteiner viks med otrolig precision. 

AI-designade proteiner har också visat utmärkt bindningsstyrkaoch visar att de har praktiska användningsområden. 

Men som med all teknik som utvecklas snabbt och som på något sätt interagerar med biologi finns det risker. 

För det första, om AI-designade proteiner skulle komma ut i miljön skulle de potentiellt kunna interagera med naturliga ekosystem och till och med konkurrera ut naturliga proteiner eller störa befintliga biologiska processer. 

För det andra kan de utlösa oväntade interaktioner inom levande organismer och eventuellt till och med skapa skadliga biologiska agens eller toxiner. 

Forskare efterlyste nyligen etiska skyddsvallar för AI-proteindesign för att förhindra riskfyllda resultat inom detta spännande, om än oförutsägbara, område. 

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Sam Jeans

Sam är en vetenskaps- och teknikskribent som har arbetat i olika AI-startups. När han inte skriver läser han medicinska tidskrifter eller gräver igenom lådor med vinylskivor.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar