NATURAL PLAN: evaluación comparativa de los LLM en la planificación del lenguaje natural

10 de junio de 2024

  • Los investigadores de Google DeepMind desarrollaron NATURAL PLAN, un punto de referencia para medir la capacidad de planificación del LLM
  • NATURAL PLAN prueba las funciones de planificación de viajes, reuniones y calendario
  • Los resultados demuestran que la planificación en lenguaje natural sigue siendo muy difícil, incluso para los LLM más avanzados.

Los investigadores de Google DeepMind desarrollaron NATURAL PLAN, una prueba de referencia para evaluar la capacidad de los LLM de planificar tareas del mundo real basándose en instrucciones de lenguaje natural.

La próxima evolución de la IA es hacer que abandone los confines de una plataforma de chat y asuma funciones de agente para completar tareas a través de plataformas en nuestro nombre. Pero eso es más difícil de lo que parece.

Las tareas de planificación, como programar una reunión o elaborar un itinerario de vacaciones, pueden parecernos sencillas. Los humanos somos buenos razonando a través de múltiples pasos y prediciendo si un curso de acción logrará el objetivo deseado o no.

Puede que te parezca fácil, pero incluso los mejores modelos de IA tienen problemas con la planificación. Podríamos compararlos para ver qué LLM es mejor planificando?

La evaluación comparativa NATURAL PLAN pone a prueba los LLM en 3 tareas de planificación:

  • Planificación del viaje - Planificación de un itinerario de viaje con restricciones de vuelo y destino
  • Planificación de reuniones - Programar reuniones con varios amigos en distintos lugares
  • Programación del calendario - Programar reuniones de trabajo entre varias personas en función de los calendarios existentes y de diversas limitaciones.

El experimento comenzó con una serie de instrucciones en las que los modelos recibían 5 ejemplos de instrucciones con sus correspondientes respuestas correctas. A continuación, se les pedía que planificaran tareas de dificultad variable.

He aquí un ejemplo de pregunta y solución facilitado como ejemplo a los modelos:

Ejemplo de solicitud y solución utilizados en el experimento Trip Planning. Fuente: arXiv

Resultados

Los investigadores probaron GPT-3.5, GPT-4, GPT-4oGemini 1.5 Flash, y Gemini 1,5 Proninguno de los cuales obtuvo muy buenos resultados en estas pruebas.

Sin embargo, los resultados deben de haber sentado muy bien en la oficina de DeepMind, ya que Gemini 1.5 Pro se alzó con la victoria.

Resultados de referencia de NATURAL PLAN. Fuente: arXiv

Como era de esperar, los resultados empeoran exponencialmente con preguntas más complejas en las que aumenta el número de personas o ciudades. Por ejemplo, fíjate en lo rápido que empeoraba la precisión a medida que se añadían más personas a la prueba de planificación de reuniones.

La precisión de los resultados en la prueba de planificación de reuniones se degrada exponencialmente a medida que las instrucciones se hacen más complejas. Fuente: arXiv

¿Podría mejorar la precisión si se realizaran varios disparos? Los resultados de la investigación indican que sí, pero sólo si el modelo dispone de una ventana de contexto lo suficientemente amplia.

La mayor ventana contextual de Gemini 1.5 Pro le permite aprovechar más ejemplos en contexto que los modelos GPT.

Los investigadores descubrieron que, en Planificación de viajes, aumentar el número de disparos de 1 a 800 mejora la precisión de Gemini Pro 1.5 de 2,7% a 39,9%.

El periódico señaló: "Estos resultados muestran lo prometedor de la planificación en contexto, donde las capacidades de contexto largo permiten a los LLM aprovechar más el contexto para mejorar la planificación".

Un resultado extraño fue que GPT-4o era realmente malo en la planificación de viajes. Los investigadores descubrieron que le costaba "entender y respetar las restricciones de conectividad de vuelos y fechas de viaje."

Otro resultado extraño fue que la autocorrección provocó un descenso significativo del rendimiento en todos los modelos. Cuando se pedía a los modelos que revisaran su trabajo y lo corrigieran, cometían más errores.

Curiosamente, los modelos más potentes, como GPT-4 y Gemini 1.5 Pro, sufrieron mayores pérdidas que GPT-3.5 al autocorregirse.

La IA agenética es una perspectiva apasionante y ya estamos viendo algunos casos prácticos de uso en Microsoft Copilot agentes.

Pero los resultados de las pruebas comparativas de NATURAL PLAN muestran que aún queda camino por recorrer antes de que la IA pueda gestionar una planificación más compleja.

Los investigadores de DeepMind concluyeron que "PLAN NATURAL es muy difícil de resolver para los modelos más avanzados."

Parece que la IA aún no sustituirá a las agencias de viajes ni a los asistentes personales.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales