La startup di AI EvolutionaryScale ha rilasciato ESM3, un LLM generativo con 98B parametri per la "programmazione della biologia".
L'azienda si concentra sulla proteomica, lo studio delle interazioni, della funzione, della composizione e delle strutture delle proteine e delle loro attività cellulari.
Mentre i modelli multimodali come il GPT-4 possono generare testo o immagini, l'ESM3 è uno strumento di IA per la prototipazione e la creazione di nuove proteine.
Quando un ribosoma crea una proteina, utilizza l'mRNA che contiene il codice per la creazione di una specifica proteina.
Ogni organismo vivente condivide lo stesso codice genetico attraverso gli stessi 20 aminoacidi. Se si riuscisse a leggere e comprendere quel codice, si potrebbe programmare il ribosoma per produrre una proteina su richiesta.
EvolutionaryScale afferma che ESM3 "comprende tutti questi dati biologici, li traduce e li parla in modo fluente per poterli utilizzare come strumento generativo".
Invece di un processo di tentativi ed errori in laboratorio, lungo e costoso, ESM3 è in grado di prevedere la forma e la funzione di una proteina in una simulazione.
Abbiamo formato ESM3 e siamo entusiasti di presentare EvolutionaryScale.
ESM3 è un modello di linguaggio generativo per la programmazione della biologia. Negli esperimenti, abbiamo scoperto che ESM3 può simulare 500 milioni di anni di evoluzione per generare nuove proteine fluorescenti.
Per saperne di più: https://t.co/iAC3lkj0iV pic.twitter.com/AhWtC4vxlF
- Alex Rives (@alexrives) 25 giugno 2024
ESM3 è stato addestrato su miliardi di proteine presenti in natura. Una delle maggiori sfide nella creazione del modello è stata quella di tokenizzare la struttura tridimensionale delle proteine e le loro funzioni.
Ciò ha richiesto lo sviluppo di un modo per scrivere ogni struttura e funzione tridimensionale come una sequenza di lettere utilizzando alfabeti discreti.
Una volta addestrato su miliardi di proteine, ESM3 parla fluentemente il linguaggio della natura e può ragionare sulla sequenza, la struttura e la funzione delle proteine.
A dimostrazione delle capacità di ESM3, EvolutionaryScale lo ha utilizzato per generare una nuova proteina fluorescente verde (GFP). Le GFP sono responsabili della splendida fluorescenza che vediamo in alcune forme di vita come le meduse o i coralli.
Le GFP sono incredibilmente rare in natura. L'azienda stima che la nuova proteina, chiamata esmGFP, "rappresenti l'equivalente di oltre 500 milioni di anni di evoluzione naturale eseguita da un simulatore evolutivo".
EvolutionaryScale sta rendendo disponibile il modello ESM3 e spera che "permetta agli scienziati di esplorare le frontiere della progettazione di proteine e della biologia sintetica e di inventare nuove soluzioni per alcuni dei problemi più importanti del nostro mondo".
La natura a doppio uso e open-source di uno strumento come ESM3 solleva rischi potenziali che l'azienda dichiara di voler mitigare con il suo Responsible Development Framework.
L'uso dell'intelligenza artificiale per programmare la biologia in modo prevedibile potrebbe portare a proteine che catturano il carbonio, consumano inquinanti ostinati come la plastica o nuovi farmaci.
I progressi dell'intelligenza artificiale in strumenti come ESM3, AlphaFold e CRISPR potrebbero presto portare all'eliminazione di malattie e problemi ambientali che hanno sfidato gli scienziati per decenni.