Meta, UCSD introduceren ToolVerifier om LLM-toolaanroepen te verbeteren

28 februari 2024

Onderzoekers van Meta en de Universiteit van Californië San Diego (UCSD) ontwikkelden ToolVerifier, een methode die de manier verbetert waarop LLM's softwaretools aanroepen en ermee interageren.

Voor LLM's om nuttig te worden als algemene assistenten of agentenZe moeten leren hoe ze verschillende tools of API's moeten gebruiken. Een LLM fijn afstellen om een specifiek hulpmiddel te gebruiken werkt, maar de echte uitdaging is om een LLM met nieuwe hulpmiddelen te laten werken zonder dat fijn afstellen of een paar demonstraties nodig zijn.

Als twee gereedschappen erg op elkaar lijken, kan het voor de LLM een hele uitdaging zijn om de juiste te kiezen om zijn doel te bereiken. De huidige methode om voor elk gereedschap een paar voorbeelden te geven, kan ook een groot deel van het contextvenster van een LLM in beslag nemen.

ToolVerifier is een zelfverificatiemethode waarmee de LLM zichzelf vragen kan stellen om uit te zoeken welk gereedschap moet worden gebruikt en welke parameters aan het gereedschap moeten worden doorgegeven.

Om de LLM te helpen, selecteert ToolVerifier eerst het meest geschikte gereedschap uit een bibliotheek met opties en genereert vervolgens de juiste parameters. Bij elk van deze stappen genereert het vragen om de keuzes te helpen evalueren en onderscheid te maken tussen vergelijkbare kandidaat-tools.

Hier is een voorbeeld uit het onderzoeksrapport dat het proces van gereedschapsselectie en parameterverheldering laat zien.

ToolVerifier identificeert eerst de top twee tools en genereert een verificatievraag. Het antwoord op de vraag leidt tot de uiteindelijke keuze van het gereedschap. Een vergelijkbare methode wordt gebruikt om parameters te genereren. Bron: arXiv

ToolVerifier werd getraind op gegevens bestaande uit een lijst van synthetische tools, waaronder reis-, bank- en kalendertools en hun bijbehorende beschrijvingen. Het werd getraind om de juiste tool te selecteren op basis van alleen de titel en beschrijving.

Nadat ToolVerifier was getraind in het selecteren van gereedschappen en het verifiëren van parameters, testten de onderzoekers ToolVerifier met 4 taken uit de ToolBench benchmark waarbij Llama 2-70B moest interageren met 17 nog niet eerder gebruikte gereedschappen.

De resultaten gepubliceerd in de krant zeggen dat het gebruik van de ToolVerifier methode resulteerde in "een gemiddelde verbetering van 22% ten opzichte van de basislijn met weinig opnamen, zelfs in scenario's waar het onderscheid tussen kandidaat-gereedschappen zeer genuanceerd is."

Percentage (%) succespercentage voor Weer-, Boekings-, Thuis- en Kattentaken uit de Toolbench benchmark waarbij modellen met en zonder ToolVerifier worden vergeleken. Bron: arXiv

De resultaten laten zien dat ToolVerifier een aanzienlijke verbetering oplevert in de gereedschapsselectie van een LLM en het nauwkeurig genereren van parameters. De methode is alleen getraind en getest voor interacties met één gereedschap en niet met meerdere gereedschappen, maar is desondanks veelbelovend.

Tool-augmented LLM's zijn een opwindende ontwikkeling in het gebruik van AI als een gegeneraliseerde agent. Zodra LLM's leren om meerdere hulpmiddelen te gebruiken om een doel te bereiken, zullen ze nog nuttiger voor ons zijn dan ze nu al zijn.

De toekomst waarin een AI-assistent een vlucht boekt, een vergadering coördineert of boodschappen voor je doet, lijkt niet ver weg.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Eugene van der Watt

Eugene heeft een achtergrond in elektrotechniek en houdt van alles wat met techniek te maken heeft. Als hij even pauzeert van het consumeren van AI-nieuws, kun je hem aan de snookertafel vinden.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden