Anthropic, een AI startup opgericht door ex-OpenAI executives, heeft zijn nieuwe grote taalmodel (LLM), Claude 2, onthuld.
Het nieuwe model is beschikbaar als bèta op het web in de VS en het VK en via een betaalde API en biedt verbeterde prestaties en capaciteit vergeleken met zijn voorganger.
Claude 2 is een evolutie van Claude 1.3 en kan documenten doorzoeken, inhoud samenvatten, schrijven, coderen en vragen beantwoorden. Het is vergelijkbaar met andere LLM's zoals ChatGPT, maar accepteert bijlagen, zodat gebruikers bestanden kunnen uploaden en de AI deze kan analyseren en gebruiken.
Claude 2 presteert op verschillende gebieden beter dan 1.3. Zo scoort het hoger op verschillende tests, waaronder het advocatuurexamen en de meerkeuzevragen van het US Medical Licensing Exam. Het presteert ook beter dan zijn voorganger op wiskunde- en codeerproblemen, waaronder de Codex Human Level Python codeertest.
Anthropic's hoofd van go-to-market Sandy Banerjee gaat dieper in op deze verbeteringen: "We hebben gewerkt aan het verbeteren van de redenering en het soort zelfbewustzijn van het model, zodat het zich meer bewust is van 'dit is hoe ik instructies graag volg', 'ik ben in staat om instructies in meerdere stappen te verwerken' en ook meer bewust is van zijn beperkingen."
De trainingsgegevens voor Claude 2, samengesteld uit websites, gelicenseerde datasets van derden en gebruikersgegevens van begin 2023, zijn recenter dan die van Claude 1.3. Toch zijn de modellen uiteindelijk vergelijkbaar. Toch zijn de modellen uiteindelijk vergelijkbaar - Banerjee geeft toe dat Claude 2 een geoptimaliseerde versie is van Claude 1.3.
Net als andere LLM's is Claude verre van onfeilbaar. TechCrunch zegt de AI is gemanipuleerd om onder andere namen te verzinnen voor niet-bestaande chemicaliën en twijfelachtige instructies te geven voor het produceren van uranium voor wapens. Echter, Antropisch beweert dat Claude 2 "2 x beter" is in het geven van "onschadelijke" reacties dan zijn voorganger.
Banerjee verklaarde: "[Onze] interne red teaming evaluatie scoort onze modellen op een zeer grote representatieve set van schadelijke aanvallende prompts," "en we doen dit met een combinatie van geautomatiseerde tests en handmatige controles." Dit is belangrijk voor Anthropic omdat de neutrale persoonlijkheid van het model centraal staat in de marketinginspanningen van het bedrijf.
Antropic gebruikt een specifieke techniek die 'constitutionele AIdie modellen zoals Claude 2 specifieke waarden geeft die worden gedefinieerd door een "grondwet". Het doel is om het gedrag van het model begrijpelijker te maken en waar nodig aan te passen.
Anthropic's visie is om een "next-gen algoritme voor AI-zelflerend" te maken, en Claude 2 is slechts één stap in de richting van dit doel.
Banerjee concludeerde: "We zijn nog bezig met onze aanpak". "We moeten ervoor zorgen, terwijl we dit doen, dat het model uiteindelijk net zo onschuldig en nuttig is als de vorige iteratie."
Wat is Claude?
Claude is een AI-assistent die is ontwikkeld door Anthropic, een startup die wordt gesteund door Google en bestaat uit een aantal ex-OpenAI-onderzoekers. Hij is ontworpen om 'behulpzaam, eerlijk en onschadelijk' te zijn en is toegankelijk via een chatinterface en API.
Claude kan helpen met een breed scala aan taken, waaronder samenvatten, creatief en gezamenlijk schrijven, vragen beantwoorden en coderen.
Verschillende bedrijven hebben Claude geïmplementeerd, waaronder Notion, Quora en DuckDuckGo. Het is gebruikt om de AI-chatapp Poe van Quora te verbeteren en is geïntegreerd in de productiviteitsapp Notion.
Andere partners zijn Robin AI, een juridisch bedrijf dat Claude gebruikt om complexe juridische teksten te begrijpen en te herschrijven, en AssemblyAI, dat Claude gebruikt om audiogegevens op schaal te transcriberen en te begrijpen.
Claude's mogelijkheid om met bestanden te werken is potentieel beter geschikt voor sommige productiviteitsgebaseerde toepassingen in vergelijking met concurrenten zoals ChatGPT.
Gebruikers in de VS en het VK kunnen dat zelf beoordelen door de bèta op het web te proberen.