Onderzoekers van Meta en de Universiteit van Californië San Diego (UCSD) ontwikkelden ToolVerifier, een methode die de manier verbetert waarop LLM's softwaretools aanroepen en ermee interageren.
Voor LLM's om nuttig te worden als algemene assistenten of agentenZe moeten leren hoe ze verschillende tools of API's moeten gebruiken. Een LLM fijn afstellen om een specifiek hulpmiddel te gebruiken werkt, maar de echte uitdaging is om een LLM met nieuwe hulpmiddelen te laten werken zonder dat fijn afstellen of een paar demonstraties nodig zijn.
Als twee gereedschappen erg op elkaar lijken, kan het voor de LLM een hele uitdaging zijn om de juiste te kiezen om zijn doel te bereiken. De huidige methode om voor elk gereedschap een paar voorbeelden te geven, kan ook een groot deel van het contextvenster van een LLM in beslag nemen.
ToolVerifier is een zelfverificatiemethode waarmee de LLM zichzelf vragen kan stellen om uit te zoeken welk gereedschap moet worden gebruikt en welke parameters aan het gereedschap moeten worden doorgegeven.
Om de LLM te helpen, selecteert ToolVerifier eerst het meest geschikte gereedschap uit een bibliotheek met opties en genereert vervolgens de juiste parameters. Bij elk van deze stappen genereert het vragen om de keuzes te helpen evalueren en onderscheid te maken tussen vergelijkbare kandidaat-tools.
Hier is een voorbeeld uit het onderzoeksrapport dat het proces van gereedschapsselectie en parameterverheldering laat zien.
ToolVerifier werd getraind op gegevens bestaande uit een lijst van synthetische tools, waaronder reis-, bank- en kalendertools en hun bijbehorende beschrijvingen. Het werd getraind om de juiste tool te selecteren op basis van alleen de titel en beschrijving.
Nadat ToolVerifier was getraind in het selecteren van gereedschappen en het verifiëren van parameters, testten de onderzoekers ToolVerifier met 4 taken uit de ToolBench benchmark waarbij Llama 2-70B moest interageren met 17 nog niet eerder gebruikte gereedschappen.
De resultaten gepubliceerd in de krant zeggen dat het gebruik van de ToolVerifier methode resulteerde in "een gemiddelde verbetering van 22% ten opzichte van de basislijn met weinig opnamen, zelfs in scenario's waar het onderscheid tussen kandidaat-gereedschappen zeer genuanceerd is."
De resultaten laten zien dat ToolVerifier een aanzienlijke verbetering oplevert in de gereedschapsselectie van een LLM en het nauwkeurig genereren van parameters. De methode is alleen getraind en getest voor interacties met één gereedschap en niet met meerdere gereedschappen, maar is desondanks veelbelovend.
Tool-augmented LLM's zijn een opwindende ontwikkeling in het gebruik van AI als een gegeneraliseerde agent. Zodra LLM's leren om meerdere hulpmiddelen te gebruiken om een doel te bereiken, zullen ze nog nuttiger voor ons zijn dan ze nu al zijn.
De toekomst waarin een AI-assistent een vlucht boekt, een vergadering coördineert of boodschappen voor je doet, lijkt niet ver weg.