Meta y UCSD presentan ToolVerifier para mejorar las llamadas a herramientas LLM

28 de febrero de 2024

Investigadores de Meta y de la Universidad de California en San Diego (UCSD) desarrollaron ToolVerifier, un método que mejora la forma en que los LLM llaman a las herramientas de software e interactúan con ellas.

Para que los LLM sean útiles como asistentes generales o agentesEs necesario enseñarles a utilizar diversas herramientas o API. Ajustar un LLM para que utilice una herramienta específica funciona, pero el verdadero reto es que un LLM interactúe con nuevas herramientas sin necesidad de ajustes finos o demostraciones puntuales.

Cuando dos herramientas son muy similares, puede ser especialmente difícil para el LLM elegir la correcta para lograr su objetivo. El método actual de proporcionar varios ejemplos de pocas imágenes para cada herramienta también puede consumir gran parte de la ventana de contexto disponible para un LLM.

ToolVerifier es un método de autoverificación que permite al LLM hacerse preguntas a sí mismo para saber qué herramienta utilizar y qué parámetros pasar a la herramienta.

Para ayudar al LLM, ToolVerifier selecciona primero la herramienta más adecuada de una biblioteca de opciones y, a continuación, genera los parámetros apropiados. En cada uno de estos pasos, genera preguntas para ayudar a evaluar sus elecciones y discriminar entre herramientas candidatas similares.

He aquí un ejemplo del trabajo de investigación que muestra el proceso de selección de herramientas y clarificación de parámetros.

ToolVerifier identifica primero las dos mejores herramientas y genera una pregunta de verificación. La respuesta a la pregunta conduce a la elección final de la herramienta. Se utiliza un método similar para generar parámetros. Fuente: arXiv

ToolVerifier se entrenó con datos consistentes en una lista de herramientas sintéticas que incluían herramientas de viajes, bancarias y de calendario y sus descripciones asociadas. Se le entrenó para seleccionar la herramienta adecuada basándose únicamente en el título y la descripción.

Una vez entrenado en la selección de herramientas y la verificación de parámetros, los investigadores probaron ToolVerifier con 4 tareas del banco de pruebas ToolBench que requerían que Llama 2-70B interactuara con 17 herramientas desconocidas hasta entonces.

Los resultados publicado en el periódico afirman que el uso del método ToolVerifier dio como resultado "una mejora media de 22% con respecto a las líneas de base de pocos disparos, incluso en escenarios en los que las distinciones entre las herramientas candidatas son finamente matizadas".

Porcentaje (%) de éxito en las tareas Weather, Booking, Home y Cat del banco de pruebas Toolbench comparando modelos con y sin ToolVerifier. Fuente: arXiv

Los resultados muestran que ToolVerifier mejora sustancialmente la selección de herramientas de un LLM y la generación de parámetros precisos. El método solo se entrenó y probó para interacciones con una sola herramienta y no con varias, pero no deja de ser prometedor.

Los LLM mejorados con herramientas son un avance apasionante en el uso de la IA como agente generalizado. Una vez que los LLM aprendan a utilizar varias herramientas para alcanzar un objetivo, nos serán aún más útiles de lo que ya son.

El futuro en el que un asistente de inteligencia artificial reserve un vuelo, coordine una reunión o haga la compra por ti no parece muy lejano.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales