Gli scienziati hanno sviluppato un sistema di intelligenza artificiale in grado di simulare centinaia di milioni di anni di evoluzione delle proteine, creando una nuova proteina fluorescente diversa da quelle presenti in natura.
Il team di ricerca, guidato da Alexander Rives di EvolutionaryScale, ha creato un modello di linguaggio di grandi dimensioni (LLM) chiamato ESM3 per elaborare e generare informazioni su sequenze, strutture e funzioni delle proteine.
Addestrandosi sui dati di miliardi di proteine naturali, ESM3 ha imparato a prevedere come le proteine potrebbero evolvere e cambiare nel tempo.
I ricercatori sostengono che l'ESM3 non si limita a recuperare o ricombinare le informazioni sulle proteine esistenti.
Sembra invece che abbia sviluppato una comprensione dei principi fondamentali che regolano la struttura e la funzione delle proteine, consentendo di generare progetti veramente innovativi.
"ESM3 è un simulatore emergente che è stato appreso risolvendo un compito di predizione di token su dati generati dall'evoluzione", spiegano i ricercatori nel documento studio.
"È stato teorizzato che le reti neurali scoprano la struttura sottostante dei dati che sono addestrati a prevedere. In questo modo, la soluzione del compito di predizione dei token richiederebbe al modello di apprendere la struttura profonda che determina quali passi può compiere l'evoluzione, cioè la biologia fondamentale delle proteine".
Per testare il modello, il team ha chiesto all'ESM3 di progettare una proteina fluorescente verde (GFP) completamente nuova, un tipo di proteina responsabile della bioluminescenza in alcuni animali marini e ampiamente utilizzata nella ricerca biotecnologica.
La proteina generata dall'AI, denominata esmGFP, condivide solo 58% della sua sequenza con le proteine fluorescenti note più simili.
In particolare, esmGFP presenta una luminosità paragonabile a quella delle GFP presenti in natura e mantiene la caratteristica struttura a forma di barile essenziale per la fluorescenza.
I ricercatori stimano che la produzione di una proteina così distante dalle GFP conosciute avrebbe richiesto oltre 500 milioni di anni di evoluzione naturale.
Per saperne di più sullo studio
Il processo di generazione di esmGFP ha comportato diverse fasi chiave:
- Dati: I ricercatori hanno addestrato ESM3 su circa 2,78 miliardi di proteine naturali raccolte da database di sequenze e strutture. Si tratta di dati provenienti da UniRef, MGnify, JGI e altre fonti.
- Architettura: ESM3 utilizza un'architettura basata su trasformatori con alcune modifiche, tra cui un meccanismo di "attenzione geometrica" per elaborare le strutture proteiche 3D.
- Prompting: I ricercatori hanno fornito a ESM3 informazioni strutturali minime da un modello di GFP (la proteina fluorescente).
- Generazione: ESM3 ha utilizzato questo prompt per generare nuove sequenze e strutture proteiche attraverso un processo iterativo.
- Filtraggio: Migliaia di progetti candidati sono stati valutati computazionalmente e filtrati per trovare i candidati più forti.
- Test sperimentali: I progetti più promettenti sono stati sintetizzati e testati in laboratorio per verificare l'attività di fluorescenza.
- Raffinatezza: Dopo aver identificato una variante di GFP debole ma distante, i ricercatori hanno utilizzato ESM3 per ottimizzare ulteriormente il progetto, producendo infine una proteina fluorescente più luminosa.
Le implicazioni di questa ricerca vanno oltre la creazione di una singola nuova proteina.
ESM3 dimostra la capacità di esplorare spazi di progettazione proteica molto lontani da quelli prodotti dall'evoluzione naturale, aprendo nuove strade per la creazione di proteine con le funzioni o le proprietà desiderate.
Tiffany Taylor, docente di Ecologia microbica ed evoluzione presso l'Università di Bath, che non ha partecipato allo studio, ha dichiarato a LiveScience: "Al momento ci manca ancora la comprensione fondamentale di come le proteine, soprattutto quelle 'nuove per la scienza', si comportano quando vengono introdotte in un sistema vivente, ma questo è un nuovo passo avanti che ci permette di approcciare la biologia sintetica in modo nuovo."
"I modelli di intelligenza artificiale come l'ESM3 consentiranno di scoprire nuove proteine che i vincoli della selezione naturale non permetterebbero mai, creando innovazioni nell'ingegneria proteica che l'evoluzione non può fare", ha aggiunto il dottor Taylor.
Progettazione generativa di proteine
La ricerca e la progettazione di proteine guidate dall'intelligenza artificiale hanno raggiunto un livello altissimo. DeepMindAlphaFold 3 prevedere il modo in cui le proteine si ripiegano con incredibile precisione.
Le proteine progettate dall'AI hanno anche dimostrato eccellente forza di legame, dimostrando che hanno un uso pratico.
Tuttavia, come per ogni tecnologia in rapida evoluzione che in qualche modo interagisce con la biologia, ci sono dei rischi.
In primo luogo, se le proteine progettate dall'intelligenza artificiale dovessero sfuggire nell'ambiente, potrebbero potenzialmente interagire con gli ecosistemi naturali, superando persino le proteine naturali o interrompendo i processi biologici esistenti.
In secondo luogo, potrebbero innescare interazioni inaspettate all'interno degli organismi viventi, creando potenzialmente anche agenti biologici dannosi o tossine.
I ricercatori hanno recentemente chiesto guardie etiche per la progettazione di proteine AI per evitare risultati rischiosi in questo campo eccitante, anche se imprevedibile.