Anthropic, ein KI-Startup, das von ehemaligen Führungskräften von OpenAI gegründet wurde, hat sein neues großes Sprachmodell (LLM), Claude 2, vorgestellt.
Das neue Modell, das in den USA und im Vereinigten Königreich als Web-Beta und über eine kostenpflichtige API verfügbar ist, bietet im Vergleich zum Vorgängermodell eine verbesserte Leistung und Kapazität.
Claude 2 ist eine Weiterentwicklung von Claude 1.3, die in der Lage ist, Dokumente zu suchen, Inhalte zusammenzufassen, zu schreiben, zu codieren und Fragen zu beantworten. Es ähnelt anderen LLMs wie ChatGPT, akzeptiert aber Anhänge, so dass Benutzer Dateien hochladen und die KI sie analysieren und verwenden können.
Claude 2 übertrifft die Version 1.3 in mehreren Bereichen. Zum Beispiel schneidet es bei verschiedenen Tests besser ab, darunter bei der Anwaltsprüfung und bei den Multiple-Choice-Fragen der US Medical Licensing Exam. Auch bei Mathematik- und Codierungsaufgaben, einschließlich des Codex Human Level Python Codierungstests, übertrifft es seinen Vorgänger.
Sandy Banerjee, Head of Go-to-Market bei Anthropic, erläutert diese Verbesserungen: "Wir haben an der Verbesserung des Denkens und der Selbstwahrnehmung des Modells gearbeitet, so dass es sich besser bewusst ist, wie es Anweisungen befolgen kann, und sich auch seiner Grenzen bewusst ist."
Die Trainingsdaten für Claude 2, die aus Websites, lizenzierten Datensätzen von Dritten und Nutzerdaten von Anfang 2023 zusammengestellt wurden, sind jünger als die von Claude 1.3. Dennoch sind die Modelle letztlich ähnlich - Banerjee gibt zu, dass Claude 2 eine optimierte Version von Claude 1.3 ist.
Wie andere LLM ist auch Claude alles andere als unfehlbar. TechCrunch sagt Die KI wurde so manipuliert, dass sie unter anderem Namen für nicht existierende Chemikalien erfand und fragwürdige Anweisungen zur Herstellung von waffenfähigem Uran gab. Wie auch immer, Anthropisch behauptet, dass Claude 2 "2 x besser" bei der Bereitstellung "harmloser" Antworten ist als sein Vorgänger.
Banerjee erklärte: "[Unsere] interne Red-Teaming-Bewertung bewertet unsere Modelle anhand einer sehr großen, repräsentativen Menge von schädlichen, gegnerischen Aufforderungen", "und wir tun dies mit einer Kombination aus automatisierten Tests und manuellen Prüfungen". Dies ist für Anthropic wichtig, da die neutrale Persönlichkeit des Modells für die Marketingbemühungen des Unternehmens von zentraler Bedeutung ist.
Anthropic verwendet eine spezielle Technik namens 'konstitutionelle KI, die Modelle wie Claude 2 mit spezifischen Werten ausstattet, die durch eine "Verfassung" definiert sind. Ziel ist es, das Verhalten des Modells leichter verständlich zu machen und es bei Bedarf anzupassen.
Die Vision von Anthropic ist es, einen "Algorithmus der nächsten Generation für selbstlernende KI" zu entwickeln, und Claude 2 ist nur ein Schritt auf dem Weg zu diesem Ziel.
Banerjee schloss mit den Worten: "Wir arbeiten noch an unserem Ansatz". "Wir müssen dabei sicherstellen, dass das Modell am Ende genauso harmlos und hilfreich ist wie die vorherige Iteration.
Was ist Claude?
Claude ist ein KI-Assistent, der von dem von Google unterstützten Startup Anthropic entwickelt wurde, das sich aus einigen ehemaligen OpenAI-Forschern zusammensetzt. Er soll "hilfreich, ehrlich und harmlos" sein und ist über eine Chat-Schnittstelle und API zugänglich.
Claude kann bei einer Vielzahl von Aufgaben behilflich sein, darunter Zusammenfassungen, kreatives und gemeinschaftliches Schreiben, Beantwortung von Fragen und Codierung.
Mehrere Unternehmen haben Claude implementiert, darunter Notion, Quora und DuckDuckGo. Es wurde verwendet, um die KI-Chat-App Poe von Quora zu verbessern, und ist in die Produktivitäts-App Notion integriert.
Zu den weiteren Partnern gehören Robin AI, ein juristisches Unternehmen, das Claude nutzt, um komplexe Rechtstexte zu verstehen und umzuformulieren, und AssemblyAI, das Claude nutzt, um Audiodaten in großem Umfang zu transkribieren und zu verstehen.
Die Fähigkeit von Claude, mit Dateien zu arbeiten, ist im Vergleich zu Konkurrenten wie ChatGPT möglicherweise besser für einige produktivitätsorientierte Anwendungen geeignet.
Nutzer in den USA und Großbritannien können das selbst beurteilen, indem sie die Web-Beta ausprobieren.