EvolutionaryScale's ESM3: en generativ model til biologi

26. juni 2024

  • AI-for-proteomik-startup'en EvolutionaryScale udgav ESM3, en grænsesøgende generativ model til biologi
  • ESM3 er en generativ sprogmodel til programmering af biologi og skabelse af nye proteiner
  • ESM3 kan følge instruktioner for at generere nye proteiner med specifikke strukturer og funktioner

AI-startup'en EvolutionaryScale har udgivet ESM3, en generativ LLM med 98B parametre til "programmering af biologi".

Virksomheden fokuserer på proteomik, studiet af interaktioner, funktion, sammensætning og strukturer af proteiner og deres cellulære aktiviteter.

Mens multimodale modeller som GPT-4 kan generere tekst eller billeder, er ESM3 et AI-værktøj til at lave prototyper og skabe nye proteiner.

Når et ribosom skaber et protein, bruger det mRNA, som bærer koden til at lave et specifikt protein.

Alle levende organismer deler den samme genetiske kode på tværs af de samme 20 aminosyrer. Hvis man kunne læse og forstå den kode, kunne man programmere ribosomet til at lave et protein efter behov.

EvolutionaryScale siger, at ESM3 "forstår alle disse biologiske data, oversætter dem og taler dem flydende, så de kan bruges som et generativt værktøj."

I stedet for en omhyggelig og dyr proces med forsøg og fejl i et laboratorium kan ESM3 forudsige et proteins form og funktion i en simulering.

ESM3 er trænet på tværs af milliarder af proteiner, der findes i naturen. En af de største udfordringer ved at skabe modellen var at tokenisere den tredimensionelle proteinstruktur og dens funktioner.

Det krævede, at man udviklede en måde at skrive alle tredimensionelle strukturer og funktioner som en sekvens af bogstaver ved hjælp af diskrete alfabeter.

Når ESM3 er blevet trænet på milliarder af proteiner, taler den naturens sprog flydende og kan ræsonnere over proteinernes sekvens, struktur og funktion.

Som en demonstration af ESM3's evner brugte EvolutionaryScale det til at generere et nyt grønt fluorescerende protein (GFP). GFP'er er ansvarlige for den smukke fluorescens, vi ser i nogle livsformer som vandmænd eller koraller.

En gengivelse af esmGFP, et nyt grønt fluorescerende protein genereret af ESM3. Kilde: EvolutionaryScale

GFP'er er utroligt sjældne i naturen. Virksomheden vurderer, at det nye protein, som de kalder esmGFP, "svarer til over 500 millioner års naturlig evolution udført af en evolutionær simulator."

EvolutionaryScale gør ESM3-modellen åbent tilgængelig og håber, at den vil "give forskere mulighed for at udforske grænserne for proteindesign og syntetisk biologi og opfinde nye løsninger på nogle af de vigtigste problemer, som vores verden står over for."

Den dobbelte anvendelse og open source-karakteren af et værktøj som ESM3 rejser potentielle risici, som virksomheden siger, at den vil afbøde med sit Responsible Development Framework.

At bruge AI til at programmere biologi på en forudsigelig måde kan føre til proteiner, der indfanger kulstof, forbruger genstridige forurenende stoffer som plastik eller ny medicin.

AI-fremskridt i værktøjer som ESM3, AlphaFold og CRISPR kan snart føre til udryddelse af sygdomme og miljøproblemer, som har udfordret forskere i årtier.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser