Das KI-Startup EvolutionaryScale hat ESM3 veröffentlicht, ein generatives LLM mit 98B-Parametern für die "Programmierung der Biologie".
Das Unternehmen konzentriert sich auf die Proteomik, die Untersuchung der Wechselwirkungen, der Funktion, der Zusammensetzung und der Strukturen von Proteinen und ihrer zellulären Aktivitäten.
Während multimodale Modelle wie GPT-4 Text oder Bilder generieren können, ist ESM3 ein KI-Tool für das Prototyping und die Erstellung von neue Proteine.
Wenn ein Ribosom ein Protein herstellt, verwendet es mRNA, die den Code für die Herstellung eines bestimmten Proteins enthält.
Jeder lebende Organismus verfügt über denselben genetischen Code mit denselben 20 Aminosäuren. Wenn man diesen Code lesen und verstehen könnte, könnte man das Ribosom so programmieren, dass es bei Bedarf ein Protein herstellt.
EvolutionaryScale sagt, ESM3 "versteht all diese biologischen Daten, übersetzt sie und spricht sie fließend, um als generatives Werkzeug verwendet zu werden."
Anstelle eines mühsamen und teuren Prozesses von Versuch und Irrtum in einem Labor kann ESM3 die Form und Funktion eines Proteins in einer Simulation vorhersagen.
Wir haben ESM3 geschult und freuen uns, EvolutionaryScale vorstellen zu können.
ESM3 ist ein generatives Sprachmodell für die Programmierung der Biologie. In Experimenten haben wir festgestellt, dass ESM3 500 Millionen Jahre Evolution simulieren kann, um neue fluoreszierende Proteine zu erzeugen.
Lesen Sie mehr: https://t.co/iAC3lkj0iV pic.twitter.com/AhWtC4vxlF
- Alex Rives (@alexrives) 25. Juni 2024
ESM3 wurde anhand von Milliarden von in der Natur vorkommenden Proteinen trainiert. Eine der größten Herausforderungen bei der Erstellung des Modells war die Tokenisierung der dreidimensionalen Proteinstruktur und ihrer Funktionen.
Dies erforderte die Entwicklung einer Methode, um jede dreidimensionale Struktur und Funktion als eine Folge von Buchstaben mit Hilfe diskreter Alphabete zu schreiben.
Sobald ESM3 auf Milliarden von Proteinen trainiert wurde, spricht es die Sprache der Natur fließend und kann die Sequenz, Struktur und Funktion von Proteinen nachvollziehen.
Um die Fähigkeiten von ESM3 zu demonstrieren, verwendete EvolutionaryScale es zur Erzeugung eines neuartigen grün fluoreszierenden Proteins (GFP). GFPs sind für die schöne Fluoreszenz verantwortlich, die wir bei einigen Lebewesen wie Quallen oder Korallen sehen.
GFPs sind in der Natur unglaublich selten. Das Unternehmen schätzt, dass das neuartige Protein, das esmGFP genannt wird, "das Äquivalent von über 500 Millionen Jahren natürlicher Evolution darstellt, die von einem Evolutionssimulator durchgeführt wurde".
EvolutionaryScale stellt das ESM3-Modell öffentlich zur Verfügung und hofft, dass es "Wissenschaftlern ermöglicht, die Grenzen des Proteindesigns und der synthetischen Biologie zu erforschen und neue Lösungen für einige der wichtigsten Probleme unserer Welt zu finden".
Der Dual-Use- und Open-Source-Charakter eines Tools wie ESM3 birgt potenzielle Risiken, die das Unternehmen nach eigenen Angaben mit seinem Rahmenwerk für verantwortungsvolle Entwicklung abmildern will.
Der Einsatz von KI zur vorhersagbaren Programmierung der Biologie könnte zu Proteinen führen, die Kohlenstoff binden, hartnäckige Schadstoffe wie Plastik verbrauchen oder neue Medikamente entwickeln.
KI-Fortschritte bei Tools wie ESM3, AlphaFold und CRISPR könnten schon bald zur Ausrottung von Krankheiten und Umweltproblemen führen, die Wissenschaftler seit Jahrzehnten beschäftigen.