Forskere har udviklet et AI-system, der er i stand til at simulere hundredvis af millioner års proteinevolution og skabe et nyt fluorescerende protein, som ikke findes i naturen.
Forskerteamet, ledet af Alexander Rives fra EvolutionaryScale, skabte en stor sprogmodel (LLM) kaldet ESM3 til at behandle og generere information om proteinsekvenser, -strukturer og -funktioner.
Ved at træne på data fra milliarder af naturlige proteiner lærte ESM3 at forudsige, hvordan proteiner kunne udvikle sig og ændre sig over tid.
Forskerne hævder, at ESM3 ikke bare henter eller rekombinerer eksisterende proteininformation.
I stedet ser det ud til, at den har udviklet en forståelse af de grundlæggende principper for proteinstruktur og -funktion, som gør den i stand til at skabe helt nye designs.
"ESM3 er en emergent simulator, der er blevet lært ved at løse en token-forudsigelsesopgave på data genereret af evolutionen", forklarer forskerne i rapporten. undersøgelse.
"Det er blevet teoretiseret, at neurale netværk opdager den underliggende struktur i de data, de er trænet til at forudsige. På den måde vil løsningen af opgaven med at forudsige tokener kræve, at modellen lærer den dybe struktur, der bestemmer, hvilke skridt evolutionen kan tage, dvs. proteinernes grundlæggende biologi."
For at teste modellen fik teamet ESM3 til at designe et helt nyt grønt fluorescerende protein (GFP) - en type protein, der er ansvarlig for bioluminescens hos visse havdyr, og som er meget udbredt inden for bioteknologisk forskning.
Det AI-genererede protein, kaldet esmGFP, deler kun 58% af sin sekvens med de mest lignende kendte fluorescerende proteiner.
Bemærkelsesværdigt nok udviser esmGFP en lysstyrke, der kan sammenlignes med naturligt forekommende GFP'er, og bevarer den karakteristiske tøndeformede struktur, der er afgørende for fluorescens.
Forskerne vurderer, at det ville have taget over 500 millioner år med naturlig evolution at producere et protein, der ligger så langt fra kendte GFP'er.
Mere om undersøgelsen
Processen med at generere esmGFP involverede flere vigtige trin:
- Data: Forskerne trænede ESM3 på ca. 2,78 milliarder naturlige proteiner indsamlet fra sekvens- og strukturdatabaser. Dette omfattede data fra UniRef, MGnify, JGI og andre kilder.
- Arkitektur: ESM3 bruger en transformer-baseret arkitektur med nogle modifikationer, herunder en "geometrisk opmærksomhed"-mekanisme til at behandle 3D-proteinstrukturer.
- Prompting: Forskerne forsynede ESM3 med minimal strukturel information fra en skabelon GFP (det fluorescerende protein).
- Generation: ESM3 brugte denne prompt til at generere nye proteinsekvenser og -strukturer gennem en iterativ proces.
- Filtrering: Tusindvis af kandidatdesigns blev computerevalueret og filtreret for at finde de stærkeste kandidater.
- Eksperimentel afprøvning: De mest lovende designs blev syntetiseret og testet i laboratoriet for fluorescensaktivitet.
- Forædling: Efter at have identificeret en svag, men fjern GFP-variant, brugte forskerne ESM3 til yderligere at optimere designet og producerede i sidste ende et lysere fluorescerende protein.
Konsekvenserne af denne forskning rækker ud over skabelsen af et enkelt nyt protein.
ESM3 demonstrerer en evne til at udforske proteindesignområder, der ligger langt fra, hvad den naturlige evolution har frembragt, hvilket åbner nye muligheder for at skabe proteiner med ønskede funktioner eller egenskaber.
Dr. Tiffany Taylor, professor i mikrobiel økologi og evolution ved University of Bath, som ikke var involveret i undersøgelsen, fortalte LiveScience: "Lige nu mangler vi stadig den grundlæggende forståelse af, hvordan proteiner, især dem, der er "nye for videnskaben", opfører sig, når de introduceres i et levende system, men dette er et sejt nyt skridt, der giver os mulighed for at nærme os syntetisk biologi på en ny måde."
"AI-modellering som ESM3 vil gøre det muligt at opdage nye proteiner, som den naturlige udvælgelse aldrig ville tillade, og skabe innovationer inden for proteinteknologi, som evolutionen ikke kan", tilføjer Dr. Taylor.
Generativt proteindesign
AI-drevet proteinforskning og -design har nået et højdepunkt med DeepMind's AlphaFold 3 at forudsige, hvordan proteiner folder sig med utrolig nøjagtighed.
AI-designede proteiner har også vist Fremragende bindingsstyrkeog viser, at de har praktiske anvendelser.
Men som med enhver teknologi i rivende udvikling, der på en eller anden måde interagerer med biologi, er der risici.
For det første: Hvis AI-designede proteiner slipper ud i miljøet, kan de potentielt interagere med naturlige økosystemer og endda udkonkurrere naturlige proteiner eller forstyrre eksisterende biologiske processer.
For det andet kan de udløse uventede interaktioner i levende organismer og potentielt endda skabe skadelige biologiske stoffer eller toksiner.
Forskere opfordrede for nylig til Etiske værn for AI-proteindesign for at forhindre risikable udfald på dette spændende, men uforudsigelige område.