Wetenschappers hebben een AI-systeem ontwikkeld dat honderden miljoenen jaren proteïne-evolutie kan simuleren, waardoor een nieuw fluorescerend eiwit is ontstaan dat niet in de natuur voorkomt.
Het onderzoeksteam, onder leiding van Alexander Rives van EvolutionaryScale, creëerde een groot taalmodel (LLM) genaamd ESM3 om informatie over eiwitsequenties, -structuren en -functies te verwerken en te genereren.
Door te trainen op gegevens van miljarden natuurlijke eiwitten leerde ESM3 voorspellen hoe eiwitten in de loop van de tijd zouden kunnen evolueren en veranderen.
De onderzoekers stellen dat ESM3 niet simpelweg bestaande eiwitinformatie ophaalt of recombineert.
In plaats daarvan lijkt het een begrip te hebben ontwikkeld van de fundamentele principes die de structuur en functie van eiwitten bepalen, waardoor het werkelijk nieuwe ontwerpen kan genereren.
"ESM3 is een emergente simulator die is geleerd van het oplossen van een token-voorspellingstaak op gegevens die door evolutie zijn gegenereerd," leggen de onderzoekers uit in de onderzoek.
"Er is een theorie dat neurale netwerken de onderliggende structuur ontdekken van de gegevens waarvoor ze getraind zijn om ze te voorspellen. Op deze manier zou het oplossen van de voorspellingstaak voor token vereisen dat het model de diepe structuur leert die bepaalt welke stappen evolutie kan nemen, dat wil zeggen de fundamentele biologie van eiwitten."
Om het model te testen, vroeg het team ESM3 om een geheel nieuw groen fluorescerend eiwit (GFP) te ontwerpen - een soort eiwit dat verantwoordelijk is voor de bioluminescentie in bepaalde zeedieren en veel gebruikt wordt in biotechnologisch onderzoek.
Het AI-gegenereerde eiwit, esmGFP genaamd, deelt slechts 58% van zijn sequentie met de meest vergelijkbare bekende fluorescerende eiwitten.
Opmerkelijk is dat esmGFP een helderheid vertoont die vergelijkbaar is met die van natuurlijk voorkomende GFP's en de karakteristieke tonvormige structuur behoudt die essentieel is voor fluorescentie.
De onderzoekers schatten dat de productie van een eiwit dat zo ver verwijderd is van bekende GFP's meer dan 500 miljoen jaar natuurlijke evolutie zou hebben gekost.
Meer over het onderzoek
Het proces van het genereren van esmGFP omvatte verschillende belangrijke stappen:
- Gegevens: Onderzoekers trainden ESM3 op ongeveer 2,78 miljard natuurlijke eiwitten, verzameld uit sequentie- en structuurdatabases. Dit omvatte gegevens van UniRef, MGnify, JGI en andere bronnen.
- Architectuur: ESM3 gebruikt een transformator-gebaseerde architectuur met enkele aanpassingen, waaronder een "geometrische aandacht" mechanisme om 3D eiwitstructuren te verwerken.
- Prompting: De onderzoekers voorzagen ESM3 van minimale structurele informatie van een sjabloon GFP (het fluorescerende eiwit).
- Generatie: ESM3 gebruikte deze prompt om nieuwe eiwitsequenties en -structuren te genereren via een iteratief proces.
- Filteren: Duizenden kandidaat-ontwerpen werden rekenkundig geëvalueerd en gefilterd om de sterkste kandidaten te vinden.
- Experimenteel testen: De meest veelbelovende ontwerpen werden gesynthetiseerd en in het lab getest op fluorescentieactiviteit.
- Verfijning: Na het identificeren van een zwakke maar verre GFP-variant, gebruikten de onderzoekers ESM3 om het ontwerp verder te optimaliseren en uiteindelijk een helderder fluorescerend eiwit te produceren.
De implicaties van dit onderzoek reiken verder dan de creatie van een enkel nieuw eiwit.
ESM3 laat zien dat het in staat is om eiwitontwerpruimten te verkennen die ver verwijderd zijn van wat de natuurlijke evolutie heeft voortgebracht, wat nieuwe wegen opent voor het maken van eiwitten met gewenste functies of eigenschappen.
Dr. Tiffany Taylor, professor Microbiële Ecologie en Evolutie aan de Universiteit van Bath, die niet betrokken was bij het onderzoek, vertelde LiveScience: "Op dit moment ontbreekt het ons nog aan fundamenteel begrip van hoe eiwitten, vooral die 'nieuw voor de wetenschap', zich gedragen wanneer ze in een levend systeem worden geïntroduceerd, maar dit is een coole nieuwe stap die ons in staat stelt om synthetische biologie op een nieuwe manier te benaderen."
"AI-modellering zoals ESM3 zal de ontdekking van nieuwe eiwitten mogelijk maken die de beperkingen van natuurlijke selectie nooit zouden toestaan, waardoor innovaties in eiwitengineering worden gecreëerd die evolutie niet kan," voegde Dr. Taylor toe.
Generatief eiwitontwerp
AI-gedreven eiwitonderzoek en -ontwerp heeft een hoge vlucht genomen, met DeepMindAlphaFold 3 met ongelooflijke nauwkeurigheid voorspellen hoe eiwitten zich vouwen.
AI-ontworpen eiwitten hebben ook aangetoond uitstekende bindkrachtZe laten zien dat ze praktische toepassingen hebben.
Maar zoals bij elke snel evoluerende technologie die op een of andere manier interageert met biologie, zijn er risico's.
Ten eerste, als AI-ontworpen eiwitten zouden ontsnappen in het milieu, zouden ze kunnen interageren met natuurlijke ecosystemen en zelfs natuurlijke eiwitten kunnen overtroeven of bestaande biologische processen verstoren.
Ten tweede zouden ze onverwachte interacties binnen levende organismen op gang kunnen brengen, waarbij mogelijk zelfs schadelijke biologische agentia of gifstoffen kunnen ontstaan.
Onderzoekers riepen onlangs op tot ethische vangrails voor AI-eiwitontwerp om riskante uitkomsten op dit spannende, maar onvoorspelbare gebied te voorkomen.