Forskere fra Meta og University of California San Diego (UCSD) har udviklet ToolVerifier, en metode, der forbedrer, hvordan LLM'er kalder og interagerer med softwareværktøjer.
For at LLM'er kan blive nyttige som generelle assistenter eller agenterDe skal undervises i, hvordan man bruger forskellige værktøjer eller API'er. Det fungerer at finjustere en LLM til at bruge et bestemt værktøj, men den virkelige udfordring er at få en LLM til at interagere med nye værktøjer uden behov for finjustering eller få demonstrationer.
Når to værktøjer er meget ens, kan det være særligt udfordrende for LLM'en at vælge det rigtige til at nå sit mål. Den nuværende metode med at give flere få eksempler for hvert værktøj kan også optage en stor del af det kontekstvindue, der er tilgængeligt for en LLM.
ToolVerifier er en selvverificeringsmetode, der gør det muligt for LLM at stille sig selv spørgsmål, så den kan finde ud af, hvilket værktøj der skal bruges, og hvilke parametre der skal sendes til værktøjet.
For at hjælpe LLM vælger ToolVerifier først det bedst egnede værktøj fra et bibliotek af muligheder og genererer derefter de relevante parametre. Ved hvert af disse trin genererer den spørgsmål, der hjælper med at evaluere valgene og skelne mellem lignende kandidatværktøjer.
Her er et eksempel fra forskningsartiklen, der viser processen med værktøjsvalg og parameterafklaring.
ToolVerifier blev trænet på data, der bestod af en liste over syntetiske værktøjer, herunder rejse-, bank- og kalenderværktøjer og deres tilhørende beskrivelser. Den blev trænet til at vælge det rette værktøj udelukkende ud fra titlen og beskrivelsen.
Efter at have trænet værktøjsvalg og parameterverifikation testede forskerne ToolVerifier med 4 opgaver fra ToolBench-benchmarket, som krævede, at Llama 2-70B interagerede med 17 tidligere usete værktøjer.
Resultaterne offentliggjort i avisen siger, at brugen af ToolVerifier-metoden resulterede i "en gennemsnitlig forbedring på 22% i forhold til baselines med få skud, selv i scenarier, hvor forskellene mellem kandidatværktøjer er fint nuancerede."
Resultaterne viser, at ToolVerifier giver en betydelig forbedring af en LLM's værktøjsvalg og nøjagtige parametergenerering. Metoden blev kun trænet og testet for interaktioner med et enkelt værktøj i stedet for flere, men det er ikke desto mindre lovende.
Værktøjsudvidede LLM'er er en spændende udvikling i brugen af AI som en generaliseret agent. Når LLM'er lærer at bruge flere værktøjer til at nå et mål, vil de være endnu mere nyttige for os, end de allerede er.
Fremtiden, hvor en AI-assistent booker et fly, koordinerer et møde eller køber ind for dig, synes ikke at være langt væk.