AI-startup'en EvolutionaryScale har udgivet ESM3, en generativ LLM med 98B parametre til "programmering af biologi".
Virksomheden fokuserer på proteomik, studiet af interaktioner, funktion, sammensætning og strukturer af proteiner og deres cellulære aktiviteter.
Mens multimodale modeller som GPT-4 kan generere tekst eller billeder, er ESM3 et AI-værktøj til at lave prototyper og skabe nye proteiner.
Når et ribosom skaber et protein, bruger det mRNA, som bærer koden til at lave et specifikt protein.
Alle levende organismer deler den samme genetiske kode på tværs af de samme 20 aminosyrer. Hvis man kunne læse og forstå den kode, kunne man programmere ribosomet til at lave et protein efter behov.
EvolutionaryScale siger, at ESM3 "forstår alle disse biologiske data, oversætter dem og taler dem flydende, så de kan bruges som et generativt værktøj."
I stedet for en omhyggelig og dyr proces med forsøg og fejl i et laboratorium kan ESM3 forudsige et proteins form og funktion i en simulering.
Vi har trænet ESM3, og vi er glade for at kunne introducere EvolutionaryScale.
ESM3 er en generativ sprogmodel til programmering af biologi. I eksperimenter fandt vi ud af, at ESM3 kan simulere 500 millioner års evolution for at generere nye fluorescerende proteiner.
Læs mere om det: https://t.co/iAC3lkj0iV pic.twitter.com/AhWtC4vxlF
- Alex Rives (@alexrives) 25. juni 2024
ESM3 er trænet på tværs af milliarder af proteiner, der findes i naturen. En af de største udfordringer ved at skabe modellen var at tokenisere den tredimensionelle proteinstruktur og dens funktioner.
Det krævede, at man udviklede en måde at skrive alle tredimensionelle strukturer og funktioner som en sekvens af bogstaver ved hjælp af diskrete alfabeter.
Når ESM3 er blevet trænet på milliarder af proteiner, taler den naturens sprog flydende og kan ræsonnere over proteinernes sekvens, struktur og funktion.
Som en demonstration af ESM3's evner brugte EvolutionaryScale det til at generere et nyt grønt fluorescerende protein (GFP). GFP'er er ansvarlige for den smukke fluorescens, vi ser i nogle livsformer som vandmænd eller koraller.
GFP'er er utroligt sjældne i naturen. Virksomheden vurderer, at det nye protein, som de kalder esmGFP, "svarer til over 500 millioner års naturlig evolution udført af en evolutionær simulator."
EvolutionaryScale gør ESM3-modellen åbent tilgængelig og håber, at den vil "give forskere mulighed for at udforske grænserne for proteindesign og syntetisk biologi og opfinde nye løsninger på nogle af de vigtigste problemer, som vores verden står over for."
Den dobbelte anvendelse og open source-karakteren af et værktøj som ESM3 rejser potentielle risici, som virksomheden siger, at den vil afbøde med sit Responsible Development Framework.
At bruge AI til at programmere biologi på en forudsigelig måde kan føre til proteiner, der indfanger kulstof, forbruger genstridige forurenende stoffer som plastik eller ny medicin.
AI-fremskridt i værktøjer som ESM3, AlphaFold og CRISPR kan snart føre til udryddelse af sygdomme og miljøproblemer, som har udfordret forskere i årtier.