Des chercheurs de Meta et de l'Université de Californie à San Diego (UCSD) ont mis au point ToolVerifier, une méthode qui améliore la façon dont les LLM appellent et interagissent avec les outils logiciels.
Pour que les diplômés en droit deviennent utiles en tant qu'assistants généraux ou en tant qu'experts en droit, il faut qu'ils soient en mesure d'exercer leur métier. agentsIl faut donc leur apprendre à utiliser divers outils ou API. Le réglage fin d'un LLM pour utiliser un outil spécifique fonctionne, mais le vrai défi est qu'un LLM interagisse avec de nouveaux outils sans avoir besoin d'un réglage fin ou de quelques démonstrations.
Lorsque deux outils sont très similaires, il peut être particulièrement difficile pour le LLM de choisir le bon outil pour atteindre son objectif. La méthode actuelle, qui consiste à fournir plusieurs exemples de courte durée pour chaque outil, peut également consommer une grande partie de la fenêtre contextuelle dont dispose le LLM.
ToolVerifier est une méthode d'auto-vérification qui permet au LLM de se poser des questions afin de déterminer l'outil à utiliser et les paramètres à transmettre à l'outil.
Pour aider le LLM, ToolVerifier sélectionne d'abord l'outil le plus approprié à partir d'une bibliothèque d'options et génère ensuite les paramètres appropriés. À chacune de ces étapes, il génère des questions qui l'aident à évaluer ses choix et à faire la distinction entre des outils candidats similaires.
Voici un exemple tiré du document de recherche montrant le processus de sélection des outils et de clarification des paramètres.
ToolVerifier a été entraîné sur des données constituées d'une liste d'outils synthétiques comprenant des outils de voyage, de banque et de calendrier et leurs descriptions associées. Il a été entraîné à sélectionner l'outil approprié en se basant uniquement sur le titre et la description.
Une fois formés à la sélection des outils et à la vérification des paramètres, les chercheurs ont testé ToolVerifier avec 4 tâches du benchmark ToolBench qui demandaient au Llama 2-70B d'interagir avec 17 outils inédits.
Les résultats publié dans le journal indiquent que l'utilisation de la méthode ToolVerifier a entraîné "une amélioration moyenne de 22% par rapport aux lignes de base, même dans les scénarios où les distinctions entre les outils candidats sont finement nuancées".
Les résultats montrent que ToolVerifier apporte une amélioration substantielle dans la sélection des outils d'un LLM et la génération de paramètres précis. La méthode n'a été entraînée et testée que pour des interactions à outil unique et non à outils multiples, mais elle est néanmoins prometteuse.
Les LLM augmentés d'outils constituent un développement passionnant dans l'utilisation de l'IA en tant qu'agent généralisé. Une fois que les LLM auront appris à utiliser plusieurs outils pour atteindre un objectif, ils nous seront encore plus utiles qu'ils ne le sont déjà.
L'avenir où un assistant IA réservera un vol, coordonnera une réunion ou fera vos courses à votre place ne semble pas très éloigné.