Anthropic, une startup spécialisée dans l'IA et fondée par d'anciens cadres d'OpenAI, a dévoilé son nouveau grand modèle de langage (LLM), Claude 2.
Disponible en version bêta sur le web aux États-Unis et au Royaume-Uni et par le biais d'une API payante, le nouveau modèle offre des performances et une capacité accrues par rapport à son prédécesseur.
Claude 2 est une évolution de Claude 1.3, capable de rechercher des documents, de résumer le contenu, d'écrire, de coder et de répondre à des questions. Il est similaire à d'autres LLM comme ChatGPT mais accepte les pièces jointes, ce qui permet aux utilisateurs de télécharger des fichiers et de demander à l'IA de les analyser et de les utiliser.
Claude 2 surpasse la version 1.3 dans plusieurs domaines. Par exemple, il obtient de meilleurs résultats à divers tests, notamment à l'examen du barreau et aux questions à choix multiples de l'US Medical Licensing Exam. Il est également plus performant que son prédécesseur dans les problèmes de mathématiques et de codage, y compris le test de codage Codex Human Level Python.
Sandy Banerjee, responsable de la commercialisation chez Anthropic, explique ces améliorations : "Nous avons travaillé à l'amélioration du raisonnement et de la conscience de soi du modèle, afin qu'il soit plus conscient de la manière dont il suit les instructions, de sa capacité à traiter des instructions à plusieurs étapes et de ses limites".
Les données d'entraînement de Claude 2, compilées à partir de sites web, d'ensembles de données sous licence de tiers et de données d'utilisateurs du début de l'année 2023, sont plus récentes que celles de Claude 1.3. Banerjee admet que Claude 2 est une version optimisée de Claude 1.3.
Comme d'autres LLM, Claude est loin d'être infaillible. TechCrunch dit l'IA a été manipulée pour inventer des noms pour des produits chimiques inexistants et offrir des instructions douteuses pour produire de l'uranium de qualité militaire, entre autres choses. Cependant, Anthropique affirme que Claude 2 est "deux fois meilleur" que son prédécesseur pour ce qui est de fournir des réponses "inoffensives".
Banerjee a déclaré : "[Notre] évaluation interne en équipe rouge note nos modèles sur un très large ensemble représentatif de messages adverses nuisibles", "et nous le faisons avec une combinaison de tests automatisés et de vérifications manuelles". Ce point est important pour Anthropic, car la personnalité neutre du modèle est au cœur des efforts de marketing de l'entreprise.
Anthropic utilise une technique spécifique appelée 'IA constitutionnellequi confère aux modèles tels que Claude 2 des valeurs spécifiques définies par une "constitution". L'objectif est de rendre le comportement du modèle plus facile à comprendre et à ajuster si nécessaire.
La vision d'Anthropic est de créer un "algorithme de nouvelle génération pour l'auto-apprentissage de l'IA", et Claude 2 n'est qu'une étape vers cet objectif.
Banerjee a conclu : "Nous sommes encore en train de travailler sur notre approche". "Nous devons nous assurer, au fur et à mesure, que le modèle est aussi inoffensif et utile que l'itération précédente.
Qu'est-ce que Claude ?
Claude est un assistant d'intelligence artificielle développé par Anthropic, une startup soutenue par Google et composée de quelques anciens chercheurs d'OpenAI. Il est conçu pour être "utile, honnête et inoffensif" et est accessible via une interface de chat et une API.
Claude peut vous aider dans un large éventail de tâches, notamment la rédaction de résumés, la rédaction créative et collaborative, la réponse à des questions et le codage.
Plusieurs entreprises ont mis en œuvre Claude, notamment Notion, Quora et DuckDuckGo. Il a été utilisé pour améliorer l'application de chat AI de Quora, Poe, et s'intègre dans l'application de productivité Notion.
Parmi les autres partenaires figurent Robin AI, une entreprise juridique qui utilise Claude pour comprendre et rédiger des textes juridiques complexes, et AssemblyAI, qui utilise Claude pour transcrire et comprendre des données audio à grande échelle.
La capacité de Claude à travailler avec des fichiers est potentiellement mieux adaptée à certaines utilisations basées sur la productivité que des concurrents comme ChatGPT.
Les utilisateurs américains et britanniques peuvent en juger par eux-mêmes en essayant la version bêta sur le web.