Forskare från Meta och University of California San Diego (UCSD) utvecklade ToolVerifier, en metod som förbättrar hur LLM:er anropar och interagerar med programvaruverktyg.
För att LLM ska bli användbara som allmänna assistenter eller agentermåste de lära sig hur man använder olika verktyg eller API:er. Att finjustera en LLM för att använda ett specifikt verktyg fungerar, men den verkliga utmaningen är att en LLM ska interagera med nya verktyg utan behov av finjustering eller få demonstrationer.
När två verktyg är mycket lika kan det vara särskilt utmanande för LLM att välja rätt verktyg för att uppnå sitt mål. Den nuvarande metoden att ge flera exempel med få bilder för varje verktyg kan också ta mycket av det kontextfönster som är tillgängligt för en LLM.
ToolVerifier är en självverifieringsmetod som gör det möjligt för LLM att ställa frågor till sig själv så att den kan räkna ut vilket verktyg som ska användas och vilka parametrar som ska skickas till verktyget.
För att hjälpa LLM väljer ToolVerifier först ut det lämpligaste verktyget från ett bibliotek med alternativ och genererar sedan lämpliga parametrar. I vart och ett av dessa steg genereras frågor som hjälper till att utvärdera valet och skilja mellan liknande kandidatverktyg.
Här är ett exempel från forskningsrapporten som visar processen med verktygsval och parameterförtydligande.
ToolVerifier tränades på data som bestod av en lista med syntetiska verktyg, bland annat rese-, bank- och kalenderverktyg med tillhörande beskrivningar. Den tränades i att välja rätt verktyg enbart baserat på titeln och beskrivningen.
Efter att ha tränats i verktygsval och parameterverifiering testade forskarna ToolVerifier med fyra uppgifter från ToolBench-riktmärket som krävde att Llama 2-70B interagerade med 17 tidigare okända verktyg.
Resultaten publicerad i tidningen säger att användningen av ToolVerifier-metoden resulterade i "en genomsnittlig förbättring på 22% jämfört med baslinjer med få bilder, även i scenarier där skillnaderna mellan kandidatverktyg är fin nyanserade."
Resultaten visar att ToolVerifier ger en avsevärd förbättring av LLM:s verktygsval och korrekta parametergenerering. Metoden utbildades och testades endast för interaktioner med ett verktyg snarare än flera, men det är ändå lovande.
Verktygsförstärkta LLM:er är en spännande utveckling när det gäller att använda AI som en generaliserad agent. När LLM:er lär sig att använda flera verktyg för att uppnå ett mål kommer de att vara ännu mer användbara för oss än de redan är.
Framtiden där en AI-assistent bokar ett flyg, samordnar ett möte eller gör dina matinköp åt dig verkar inte vara långt borta.