Meta veröffentlicht Llama 3.1 Modelle und bleibt bei der offenen Strategie

Juli 24, 2024

  • Meta hat seine Llama 3.1 Modelle veröffentlicht, darunter eine Version mit 405B Parametern, das weltweit größte offene Modell
  • Meta sagt, dass seine aktualisierten Modelle GPT-4o und Claude 3.5 Sonnet in mehreren Benchmarks übertreffen
  • Die Modelle werden als Open Source und über Partner wie NVIDIA, AWS, Azure und andere verfügbar sein.

Meta hat seine aktualisierten Llama 3.1-Modelle in den Versionen 8B, 70B und 405B veröffentlicht und sich zu Mark Zuckerbergs Open-Source-Vision für die Zukunft der KI bekannt.

Die neuen Mitglieder der Llama-Familie von Meta verfügen über eine erweiterte Kontextlänge von 128k und Unterstützung für acht Sprachen.

Meta sagt, dass sein mit Spannung erwartetes 405B-Modell "unübertroffene Flexibilität, Kontrolle und hochmoderne Fähigkeiten aufweist, die mit den besten Closed-Source-Modellen konkurrieren". Außerdem behauptet Meta, dass Llama 3.1 405B das "weltweit größte und leistungsfähigste offen verfügbare Fundamentmodell" ist.

Angesichts der horrenden Rechenkosten, die für die Ausbildung immer größerer Modelle aufgewendet werden, gab es viele Spekulationen, dass Metas Flaggschiffmodell 405B das erste kostenpflichtige Modell sein könnte.

Llama 3.1 405B wurde mit mehr als 15 Billionen Token trainiert, wofür 16.000 NVIDIA H100 verwendet wurden, was wahrscheinlich Hunderte von Millionen Dollar gekostet hat.

In einem Blog-BeitragMeta-CEO Mark Zuckerberg bekräftigte die Ansicht des Unternehmens, dass Open-Source-KI der Weg in die Zukunft sei und dass die Veröffentlichung von Llama 3.1 der nächste Schritt sei, "damit Open-Source-KI zum Industriestandard wird".

Die Llama 3.1-Modelle können kostenlos heruntergeladen und mit einer Reihe von Diensten von Amazon, Databricks und NVIDIA modifiziert oder feinabgestimmt werden.

Die Modelle sind auch bei Cloud-Anbietern wie AWS, Azure, Google und Oracle verfügbar.

Leistung

Meta hat nach eigenen Angaben seine Modelle an über 150 Benchmark-Datensätzen getestet und die Ergebnisse für die gängigsten Benchmarks veröffentlicht, um zu zeigen, wie seine neuen Modelle im Vergleich zu anderen führenden Modellen abschneiden.

Es gibt nicht viel, was Llama 3.1 405B von GPT-4o und Claude 3.5 Sonnet trennt. Hier sind die Zahlen für das Modell 405B und dann die kleineren Versionen 8B und 70B.

Llama 3.1 405B Benchmark-Vergleich mit anderen führenden Modellen. Quelle: Meta
Llama 3.1 405B Benchmark-Vergleich mit anderen führenden Modellen. Quelle: Meta

Meta hat auch "umfangreiche menschliche Bewertungen durchgeführt, die Llama 3.1 mit konkurrierenden Modellen in realen Szenarien vergleichen".

Diese Zahlen beruhen auf der Entscheidung der Nutzer, ob sie die Antwort des einen oder des anderen Modells bevorzugen.

Die menschliche Bewertung von Llama 3.1 405B spiegelt eine ähnliche Parität wider, wie sie die Benchmark-Zahlen offenbaren.

Llama 3.1 405B Bewertungsergebnisse für Menschen im Vergleich zu GPT-4, GPT-4o und Claude 3.5 Sonnet. Quelle: Meta

Meta sagt, dass sein Modell wirklich offen ist, da die Gewichte des Modells Llama 3.1 ebenfalls zum Download zur Verfügung stehen, obwohl die Trainingsdaten nicht freigegeben wurden. Das Unternehmen hat außerdem seine Lizenz geändert, damit Llama-Modelle zur Verbesserung anderer KI-Modelle verwendet werden können.

Die Freiheit, Llama-Modelle ohne Einschränkungen zu optimieren, zu verändern und zu verwenden, hat Kritiker von Open Source Bei AI läuten die Alarmglocken.

Zuckerberg argumentiert, dass ein Open-Source-Ansatz der beste Weg ist, um unbeabsichtigte Schäden zu vermeiden. Wenn ein KI-Modell offen ist, ist es weniger wahrscheinlich, dass es gefährliche neue Verhaltensweisen entwickelt, die wir bei geschlossenen Modellen sonst übersehen würden.

Was das Potenzial für vorsätzlichen Schaden angeht, sagt Zuckerberg: "Solange jeder Zugang zu ähnlichen Generationen von Modellen hat - was Open Source fördert -, werden Regierungen und Institutionen mit mehr Rechenressourcen in der Lage sein, schlechte Akteure mit weniger Rechenleistung zu kontrollieren."

Im Hinblick auf das Risiko, dass staatliche Gegner wie China auf Metamodelle zugreifen, sagt Zuckerberg, dass die Bemühungen, diese aus den Händen der Chinesen fernzuhalten, nicht funktionieren werden.

"Unsere Gegner sind sehr gut im Spionieren, es ist relativ einfach, Modelle zu stehlen, die auf einen USB-Stick passen, und die meisten Technologieunternehmen sind weit davon entfernt, so zu arbeiten, dass dies schwieriger wäre", erklärte er.

Die Aufregung über ein Open-Source-KI-Modell wie Llama 3.1 405B, das es mit den großen geschlossenen Modellen aufnimmt, ist berechtigt.

Aber da GPT-5 und Claude 3.5 Opus in den Startlöchern stehen, könnten diese Benchmark-Ergebnisse nicht sehr gut altern.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen