Meta og UCSD introducerer ToolVerifier for at forbedre LLM-værktøjskald

28. februar 2024

Forskere fra Meta og University of California San Diego (UCSD) har udviklet ToolVerifier, en metode, der forbedrer, hvordan LLM'er kalder og interagerer med softwareværktøjer.

For at LLM'er kan blive nyttige som generelle assistenter eller agenterDe skal undervises i, hvordan man bruger forskellige værktøjer eller API'er. Det fungerer at finjustere en LLM til at bruge et bestemt værktøj, men den virkelige udfordring er at få en LLM til at interagere med nye værktøjer uden behov for finjustering eller få demonstrationer.

Når to værktøjer er meget ens, kan det være særligt udfordrende for LLM'en at vælge det rigtige til at nå sit mål. Den nuværende metode med at give flere få eksempler for hvert værktøj kan også optage en stor del af det kontekstvindue, der er tilgængeligt for en LLM.

ToolVerifier er en selvverificeringsmetode, der gør det muligt for LLM at stille sig selv spørgsmål, så den kan finde ud af, hvilket værktøj der skal bruges, og hvilke parametre der skal sendes til værktøjet.

For at hjælpe LLM vælger ToolVerifier først det bedst egnede værktøj fra et bibliotek af muligheder og genererer derefter de relevante parametre. Ved hvert af disse trin genererer den spørgsmål, der hjælper med at evaluere valgene og skelne mellem lignende kandidatværktøjer.

Her er et eksempel fra forskningsartiklen, der viser processen med værktøjsvalg og parameterafklaring.

ToolVerifier identificerer først de to bedste værktøjer og genererer et verifikationsspørgsmål. Svaret på spørgsmålet fører til det endelige valg af værktøj. En lignende metode bruges til at generere parametre. Kilde: arXiv

ToolVerifier blev trænet på data, der bestod af en liste over syntetiske værktøjer, herunder rejse-, bank- og kalenderværktøjer og deres tilhørende beskrivelser. Den blev trænet til at vælge det rette værktøj udelukkende ud fra titlen og beskrivelsen.

Efter at have trænet værktøjsvalg og parameterverifikation testede forskerne ToolVerifier med 4 opgaver fra ToolBench-benchmarket, som krævede, at Llama 2-70B interagerede med 17 tidligere usete værktøjer.

Resultaterne offentliggjort i avisen siger, at brugen af ToolVerifier-metoden resulterede i "en gennemsnitlig forbedring på 22% i forhold til baselines med få skud, selv i scenarier, hvor forskellene mellem kandidatværktøjer er fint nuancerede."

Procentvis (%) succesrate for opgaverne Weather, Booking, Home og Cat fra Toolbench-benchmarkingen, der sammenligner modeller med og uden ToolVerifier. Kilde: arXiv

Resultaterne viser, at ToolVerifier giver en betydelig forbedring af en LLM's værktøjsvalg og nøjagtige parametergenerering. Metoden blev kun trænet og testet for interaktioner med et enkelt værktøj i stedet for flere, men det er ikke desto mindre lovende.

Værktøjsudvidede LLM'er er en spændende udvikling i brugen af AI som en generaliseret agent. Når LLM'er lærer at bruge flere værktøjer til at nå et mål, vil de være endnu mere nyttige for os, end de allerede er.

Fremtiden, hvor en AI-assistent booker et fly, koordinerer et møde eller køber ind for dig, synes ikke at være langt væk.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser