Meta hat seine aktualisierten Llama 3.1-Modelle in den Versionen 8B, 70B und 405B veröffentlicht und sich zu Mark Zuckerbergs Open-Source-Vision für die Zukunft der KI bekannt.
Die neuen Mitglieder der Llama-Familie von Meta verfügen über eine erweiterte Kontextlänge von 128k und Unterstützung für acht Sprachen.
Meta sagt, dass sein mit Spannung erwartetes 405B-Modell "unübertroffene Flexibilität, Kontrolle und hochmoderne Fähigkeiten aufweist, die mit den besten Closed-Source-Modellen konkurrieren". Außerdem behauptet Meta, dass Llama 3.1 405B das "weltweit größte und leistungsfähigste offen verfügbare Fundamentmodell" ist.
Angesichts der horrenden Rechenkosten, die für die Ausbildung immer größerer Modelle aufgewendet werden, gab es viele Spekulationen, dass Metas Flaggschiffmodell 405B das erste kostenpflichtige Modell sein könnte.
Llama 3.1 405B wurde mit mehr als 15 Billionen Token trainiert, wofür 16.000 NVIDIA H100 verwendet wurden, was wahrscheinlich Hunderte von Millionen Dollar gekostet hat.
In einem Blog-BeitragMeta-CEO Mark Zuckerberg bekräftigte die Ansicht des Unternehmens, dass Open-Source-KI der Weg in die Zukunft sei und dass die Veröffentlichung von Llama 3.1 der nächste Schritt sei, "damit Open-Source-KI zum Industriestandard wird".
Die Llama 3.1-Modelle können kostenlos heruntergeladen und mit einer Reihe von Diensten von Amazon, Databricks und NVIDIA modifiziert oder feinabgestimmt werden.
Die Modelle sind auch bei Cloud-Anbietern wie AWS, Azure, Google und Oracle verfügbar.
Ab heute ist Open Source der Wegbereiter. Wir stellen Llama 3.1 vor: Unsere bisher leistungsfähigsten Modelle.
Heute veröffentlichen wir eine Reihe neuer Llama 3.1-Modelle, darunter unser lang erwartetes 405B. Diese Modelle bieten verbesserte Argumentationsfähigkeiten, einen größeren 128K Token-Kontext... pic.twitter.com/1iKpBJuReD
- AI bei Meta (@AIatMeta) 23. Juli 2024
Leistung
Meta hat nach eigenen Angaben seine Modelle an über 150 Benchmark-Datensätzen getestet und die Ergebnisse für die gängigsten Benchmarks veröffentlicht, um zu zeigen, wie seine neuen Modelle im Vergleich zu anderen führenden Modellen abschneiden.
Es gibt nicht viel, was Llama 3.1 405B von GPT-4o und Claude 3.5 Sonnet trennt. Hier sind die Zahlen für das Modell 405B und dann die kleineren Versionen 8B und 70B.
Meta hat auch "umfangreiche menschliche Bewertungen durchgeführt, die Llama 3.1 mit konkurrierenden Modellen in realen Szenarien vergleichen".
Diese Zahlen beruhen auf der Entscheidung der Nutzer, ob sie die Antwort des einen oder des anderen Modells bevorzugen.
Die menschliche Bewertung von Llama 3.1 405B spiegelt eine ähnliche Parität wider, wie sie die Benchmark-Zahlen offenbaren.
Meta sagt, dass sein Modell wirklich offen ist, da die Gewichte des Modells Llama 3.1 ebenfalls zum Download zur Verfügung stehen, obwohl die Trainingsdaten nicht freigegeben wurden. Das Unternehmen hat außerdem seine Lizenz geändert, damit Llama-Modelle zur Verbesserung anderer KI-Modelle verwendet werden können.
Die Freiheit, Llama-Modelle ohne Einschränkungen zu optimieren, zu verändern und zu verwenden, hat Kritiker von Open Source Bei AI läuten die Alarmglocken.
Zuckerberg argumentiert, dass ein Open-Source-Ansatz der beste Weg ist, um unbeabsichtigte Schäden zu vermeiden. Wenn ein KI-Modell offen ist, ist es weniger wahrscheinlich, dass es gefährliche neue Verhaltensweisen entwickelt, die wir bei geschlossenen Modellen sonst übersehen würden.
Was das Potenzial für vorsätzlichen Schaden angeht, sagt Zuckerberg: "Solange jeder Zugang zu ähnlichen Generationen von Modellen hat - was Open Source fördert -, werden Regierungen und Institutionen mit mehr Rechenressourcen in der Lage sein, schlechte Akteure mit weniger Rechenleistung zu kontrollieren."
Im Hinblick auf das Risiko, dass staatliche Gegner wie China auf Metamodelle zugreifen, sagt Zuckerberg, dass die Bemühungen, diese aus den Händen der Chinesen fernzuhalten, nicht funktionieren werden.
"Unsere Gegner sind sehr gut im Spionieren, es ist relativ einfach, Modelle zu stehlen, die auf einen USB-Stick passen, und die meisten Technologieunternehmen sind weit davon entfernt, so zu arbeiten, dass dies schwieriger wäre", erklärte er.
Die Aufregung über ein Open-Source-KI-Modell wie Llama 3.1 405B, das es mit den großen geschlossenen Modellen aufnimmt, ist berechtigt.
Aber da GPT-5 und Claude 3.5 Opus in den Startlöchern stehen, könnten diese Benchmark-Ergebnisse nicht sehr gut altern.