NATURAL PLAN: Benchmarking av LLM-program för planering av naturliga språk

10 juni 2024

  • Google DeepMind-forskare utvecklade NATURAL PLAN, ett riktmärke för att mäta LLM-planeringsförmåga
  • NATURAL PLAN testar funktioner för reseplanering, mötesplanering och kalenderschemaläggning
  • Resultaten visar att planering på naturligt språk fortfarande är en stor utmaning även för de mest avancerade LLM:erna

Google DeepMind-forskare utvecklade NATURAL PLAN, ett riktmärke för att utvärdera LLM:ers förmåga att planera verkliga uppgifter baserat på naturliga språkmeddelanden.

Nästa steg i utvecklingen av AI är att låta den lämna en chattplattform och ta på sig rollen som agent för att slutföra uppgifter på olika plattformar för vår räkning. Men det är svårare än det låter.

Planeringsuppgifter som att schemalägga ett möte eller sammanställa en semesterplan kan verka enkla för oss. Människor är bra på att resonera sig fram genom flera steg och förutse om ett tillvägagångssätt kommer att leda till att det önskade målet uppnås eller inte.

Du kanske tycker att det är lätt, men även de bästa AI-modellerna kämpar med planering. Kan vi jämföra dem för att se vilken LLM som är bäst på att planera?

Benchmarken NATURAL PLAN testar LLM:er på 3 planeringsuppgifter:

  • Planering av resan - Planering av en resplan med hänsyn till flyg och destination
  • Planering av möten - Schemalägga möten med flera vänner på olika platser
  • Schemaläggning av kalender - Schemalägga arbetsmöten mellan flera personer utifrån befintliga scheman och olika begränsningar

Experimentet inleddes med några få uppmaningar där modellerna fick 5 exempel på uppmaningar och motsvarande korrekta svar. Därefter fick de planeringsuppmaningar av varierande svårighetsgrad.

Här är ett exempel på en uppmaning och en lösning som gavs som exempel till modellerna:

Ett exempel på en uppmaning och en lösning som används i Trip Planning-experimentet. Källa: arXiv

Resultat

Forskarna testade GPT-3.5, GPT-4, GPT-4o, Gemini 1.5 Flash, och Gemini 1,5 Prooch ingen av dem klarade sig särskilt bra i dessa tester.

Resultaten måste dock ha gått bra på DeepMind-kontoret eftersom Gemini 1.5 Pro kom ut på topp.

NATURAL PLAN benchmark resultat. Källa: arXiv

Som väntat blev resultaten exponentiellt sämre med mer komplexa uppmaningar där antalet personer eller städer ökades. Titta till exempel på hur snabbt noggrannheten försämrades när fler personer lades till i testet för mötesplanering.

Noggrannheten i resultaten i testet Meeting Planning försämrades exponentiellt i takt med att uppmaningarna blev mer komplexa. Källa: arXiv

Kan "multi-shot prompting" resultera i förbättrad precision? Forskningsresultaten tyder på att det kan göra det, men bara om modellen har ett tillräckligt stort kontextfönster.

Gemini 1.5 Pros större kontextfönster gör att den kan utnyttja fler exempel i kontexten än GPT-modellerna.

Forskarna fann att när man ökar antalet skott från 1 till 800 i reseplaneringen förbättras noggrannheten för Gemini Pro 1.5 från 2,7% till 39,9%.

Tidningen "Dessa resultat visar på möjligheterna med planering i kontext, där LLM:er med hjälp av funktioner för lång kontext kan utnyttja ytterligare kontext för att förbättra planeringen."

Ett märkligt resultat var att GPT-4o var riktigt dålig på reseplanering. Forskarna upptäckte att den hade svårt att "förstå och respektera begränsningar i fråga om flygförbindelser och resedatum".

Ett annat märkligt resultat var att självkorrigering ledde till en betydande minskning av modellens prestanda för alla modeller. När modellerna uppmanades att kontrollera sitt arbete och göra korrigeringar gjorde de fler misstag.

Intressant är att de starkare modellerna, som GPT-4 och Gemini 1.5 Pro, drabbades av större förluster än GPT-3.5 vid självkorrigering.

Agentisk AI är ett spännande perspektiv och vi ser redan några praktiska användningsfall i Microsoft Copilot agenter.

Men resultaten av NATURAL PLANs benchmarkingtester visar att vi har en bit kvar innan AI kan hantera mer komplex planering.

DeepMind-forskarna drog slutsatsen att "NATURAL PLAN är mycket svår för avancerade modeller att lösa".

Det verkar som om AI inte kommer att ersätta resebyråer och personliga assistenter riktigt än.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar