{"id":12782,"date":"2024-06-10T10:39:06","date_gmt":"2024-06-10T10:39:06","guid":{"rendered":"https:\/\/dailyai.com\/?p=12782"},"modified":"2024-06-10T10:39:06","modified_gmt":"2024-06-10T10:39:06","slug":"natural-plan-benchmarking-llms-on-natural-language-planning","status":"publish","type":"post","link":"https:\/\/dailyai.com\/nb\/2024\/06\/natural-plan-benchmarking-llms-on-natural-language-planning\/","title":{"rendered":"NATURAL PLAN: Benchmarking av LLM-er p\u00e5 naturlig spr\u00e5kplanlegging"},"content":{"rendered":"<p><strong>Google DeepMind-forskere har utviklet NATURAL PLAN, en referanse for \u00e5 evaluere LLM-enes evne til \u00e5 planlegge oppgaver i den virkelige verden basert p\u00e5 naturlige spr\u00e5kmeldinger.<\/strong><\/p>\n<p>Den neste utviklingen av AI er \u00e5 f\u00e5 den til \u00e5 forlate en chat-plattform og ta p\u00e5 seg agentroller for \u00e5 fullf\u00f8re oppgaver p\u00e5 tvers av plattformer p\u00e5 v\u00e5re vegne. Men det er vanskeligere enn det h\u00f8res ut.<\/p>\n<p>Planleggingsoppgaver som \u00e5 avtale et m\u00f8te eller sette sammen en reiserute kan virke enkle for oss. Vi mennesker er flinke til \u00e5 resonnere oss gjennom flere trinn og forutsi om et handlingsforl\u00f8p vil f\u00f8re til at vi n\u00e5r det \u00f8nskede m\u00e5let eller ikke.<\/p>\n<p>Det er kanskje enkelt, men selv de beste AI-modellene sliter med planlegging. Kan vi sammenligne dem for \u00e5 se hvilken LLM som er best til \u00e5 planlegge?<\/p>\n<p>NATURAL PLAN-referansen tester LLM-er p\u00e5 tre planleggingsoppgaver:<\/p>\n<ul>\n<li><strong>Planlegging av reisen<\/strong> - Planlegging av en reiserute med begrensninger knyttet til fly og reisem\u00e5l<\/li>\n<li><strong>Planlegging av m\u00f8ter<\/strong> - Planlegging av m\u00f8ter med flere venner p\u00e5 forskjellige steder<\/li>\n<li><strong>Kalenderplanlegging<\/strong> - Planlegging av arbeidsm\u00f8ter mellom flere personer ut fra eksisterende tidsplaner og ulike begrensninger<\/li>\n<\/ul>\n<p>Eksperimentet begynte med noen f\u00e5 sp\u00f8rsm\u00e5l, der modellene fikk fem eksempler p\u00e5 sp\u00f8rsm\u00e5l med tilh\u00f8rende riktige svar. Deretter ble de bedt om \u00e5 planlegge oppgaver av varierende vanskelighetsgrad.<\/p>\n<p>Her er et eksempel p\u00e5 en ledetekst og en l\u00f8sning som er gitt som eksempel til modellene:<\/p>\n<figure id=\"attachment_12784\" aria-describedby=\"caption-attachment-12784\" style=\"width: 1342px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-12784 size-full\" src=\"https:\/\/dailyai.com\/wp-content\/uploads\/2024\/06\/NATURAL-PLAN-Prompt-example.png\" alt=\"\" width=\"1342\" height=\"808\" srcset=\"https:\/\/dailyai.com\/wp-content\/uploads\/2024\/06\/NATURAL-PLAN-Prompt-example.png 1342w, https:\/\/dailyai.com\/wp-content\/uploads\/2024\/06\/NATURAL-PLAN-Prompt-example-300x181.png 300w, https:\/\/dailyai.com\/wp-content\/uploads\/2024\/06\/NATURAL-PLAN-Prompt-example-1024x617.png 1024w, https:\/\/dailyai.com\/wp-content\/uploads\/2024\/06\/NATURAL-PLAN-Prompt-example-768x462.png 768w, https:\/\/dailyai.com\/wp-content\/uploads\/2024\/06\/NATURAL-PLAN-Prompt-example-18x12.png 18w, https:\/\/dailyai.com\/wp-content\/uploads\/2024\/06\/NATURAL-PLAN-Prompt-example-60x36.png 60w\" sizes=\"auto, (max-width: 1342px) 100vw, 1342px\" \/><figcaption id=\"caption-attachment-12784\" class=\"wp-caption-text\">Et eksempel p\u00e5 en ledetekst og l\u00f8sning som ble brukt i Trip Planning-eksperimentet. Kilde: arXiv<\/figcaption><\/figure>\n<h2>Resultater<\/h2>\n<p>Forskerne testet GPT-3.5, GPT-4, <a href=\"https:\/\/dailyai.com\/nb\/2024\/05\/everything-you-need-to-know-about-openais-new-flagship-model-gpt-4o\/\">GPT-4o<\/a>, Gemini 1.5 Flash, og <a href=\"https:\/\/dailyai.com\/nb\/2024\/02\/google-plays-another-ai-card-in-the-form-of-gemini-1-5-pro\/\"><span class=\"noTranslate\" data-no-translation=\"\">Gemini<\/span> 1,5 Pro<\/a>ingen av dem gjorde det s\u00e6rlig bra p\u00e5 disse testene.<\/p>\n<p>Resultatene m\u00e5 ha falt i god jord p\u00e5 DeepMind-kontoret, for Gemini 1.5 Pro gikk av med seieren.<\/p>\n<figure id=\"attachment_12785\" aria-describedby=\"caption-attachment-12785\" style=\"width: 1302px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-12785 size-full\" src=\"https:\/\/dailyai.com\/wp-content\/uploads\/2024\/06\/NATURAL-PLAN-results.png\" alt=\"\" width=\"1302\" height=\"204\" srcset=\"https:\/\/dailyai.com\/wp-content\/uploads\/2024\/06\/NATURAL-PLAN-results.png 1302w, https:\/\/dailyai.com\/wp-content\/uploads\/2024\/06\/NATURAL-PLAN-results-300x47.png 300w, https:\/\/dailyai.com\/wp-content\/uploads\/2024\/06\/NATURAL-PLAN-results-1024x160.png 1024w, https:\/\/dailyai.com\/wp-content\/uploads\/2024\/06\/NATURAL-PLAN-results-768x120.png 768w, https:\/\/dailyai.com\/wp-content\/uploads\/2024\/06\/NATURAL-PLAN-results-18x3.png 18w, https:\/\/dailyai.com\/wp-content\/uploads\/2024\/06\/NATURAL-PLAN-results-60x9.png 60w\" sizes=\"auto, (max-width: 1302px) 100vw, 1302px\" \/><figcaption id=\"caption-attachment-12785\" class=\"wp-caption-text\">NATURAL PLANs referanseresultater. Kilde: arXiv<\/figcaption><\/figure>\n<p>Som forventet ble resultatene eksponentielt d\u00e5rligere med mer komplekse oppgaver der antall personer eller byer ble \u00f8kt. Se for eksempel hvor raskt n\u00f8yaktigheten ble d\u00e5rligere etter hvert som flere personer ble lagt til i m\u00f8teplanleggingstesten.<\/p>\n<figure id=\"attachment_12786\" aria-describedby=\"caption-attachment-12786\" style=\"width: 1330px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-12786 size-full\" src=\"https:\/\/dailyai.com\/wp-content\/uploads\/2024\/06\/NATURAL-PLANNING-results-vs-complexity.png\" alt=\"\" width=\"1330\" height=\"530\" srcset=\"https:\/\/dailyai.com\/wp-content\/uploads\/2024\/06\/NATURAL-PLANNING-results-vs-complexity.png 1330w, https:\/\/dailyai.com\/wp-content\/uploads\/2024\/06\/NATURAL-PLANNING-results-vs-complexity-300x120.png 300w, https:\/\/dailyai.com\/wp-content\/uploads\/2024\/06\/NATURAL-PLANNING-results-vs-complexity-1024x408.png 1024w, https:\/\/dailyai.com\/wp-content\/uploads\/2024\/06\/NATURAL-PLANNING-results-vs-complexity-768x306.png 768w, https:\/\/dailyai.com\/wp-content\/uploads\/2024\/06\/NATURAL-PLANNING-results-vs-complexity-18x7.png 18w, https:\/\/dailyai.com\/wp-content\/uploads\/2024\/06\/NATURAL-PLANNING-results-vs-complexity-60x24.png 60w\" sizes=\"auto, (max-width: 1330px) 100vw, 1330px\" \/><figcaption id=\"caption-attachment-12786\" class=\"wp-caption-text\">N\u00f8yaktigheten av resultatene i m\u00f8teplanleggingstesten ble eksponentielt forringet etter hvert som sp\u00f8rsm\u00e5lene ble mer komplekse. Kilde: arXiv<\/figcaption><\/figure>\n<p>Kan multi-shot prompting resultere i bedre n\u00f8yaktighet? Forskningsresultatene tyder p\u00e5 at det kan det, men bare hvis modellen har et stort nok kontekstvindu.<\/p>\n<p>Det st\u00f8rre kontekstvinduet i Gemini 1.5 Pro gj\u00f8r det mulig \u00e5 utnytte flere eksempler i konteksten enn i GPT-modellene.<\/p>\n<p>Forskerne fant ut at en \u00f8kning i antall skudd fra 1 til 800 forbedrer n\u00f8yaktigheten til Gemini Pro 1.5 fra 2,7% til 39,9% i Trip Planning.<\/p>\n<p><a href=\"https:\/\/arxiv.org\/pdf\/2406.04520\" target=\"_blank\" rel=\"noopener\">Avisen<\/a> \"Disse resultatene viser at planlegging i kontekst er lovende, der LLM-ene kan utnytte den lange konteksten for \u00e5 forbedre planleggingen.\"<\/p>\n<p>Et merkelig resultat var at GPT-4o var veldig d\u00e5rlig p\u00e5 turplanlegging. Forskerne fant ut at den slet med \"\u00e5 forst\u00e5 og respektere begrensningene knyttet til flyforbindelser og reisedato\".<\/p>\n<p>Et annet merkelig resultat var at selvkorrigering f\u00f8rte til et betydelig fall i modellytelsen p\u00e5 tvers av alle modellene. N\u00e5r modellene ble bedt om \u00e5 kontrollere arbeidet sitt og korrigere, gjorde de flere feil.<\/p>\n<p>Det er interessant \u00e5 merke seg at de sterkere modellene, som GPT-4 og Gemini 1.5 Pro, hadde st\u00f8rre tap enn GPT-3.5 ved selvkorrigering.<\/p>\n<p>Agentisk AI er et spennende perspektiv, og vi ser allerede noen praktiske eksempler p\u00e5 bruk i <a href=\"https:\/\/dailyai.com\/nb\/2024\/05\/ai-agents-multimodal-phi-3-unveiled-at-microsoft-build-2024\/\">Microsoft <span class=\"noTranslate\" data-no-translation=\"\">Copilot<\/span> agenter<\/a>.<\/p>\n<p>Men resultatene fra NATURAL PLANs referansetester viser at vi har et stykke igjen f\u00f8r AI kan h\u00e5ndtere mer kompleks planlegging.<\/p>\n<p>DeepMind-forskerne konkluderte med at \"NATURAL PLAN er sv\u00e6rt vanskelig \u00e5 l\u00f8se for moderne modeller\".<\/p>\n<p>Det ser ikke ut til at kunstig intelligens kommer til \u00e5 erstatte reisebyr\u00e5er og personlige assistenter helt enn\u00e5.<\/p>","protected":false},"excerpt":{"rendered":"<p>Google DeepMind-forskere har utviklet NATURAL PLAN, en m\u00e5lestokk for \u00e5 evaluere LLM-enes evne til \u00e5 planlegge oppgaver i den virkelige verden basert p\u00e5 naturlige spr\u00e5kmeldinger. Den neste utviklingen av AI er \u00e5 f\u00e5 den til \u00e5 forlate en chat-plattform og ta p\u00e5 seg agentroller for \u00e5 fullf\u00f8re oppgaver p\u00e5 tvers av plattformer p\u00e5 v\u00e5re vegne. Men det er vanskeligere enn det h\u00f8res ut. Planleggingsoppgaver som \u00e5 avtale et m\u00f8te eller sette sammen en reiserute kan virke enkle for oss. Mennesker er flinke til \u00e5 resonnere seg gjennom flere trinn og forutsi om et handlingsforl\u00f8p vil f\u00f8re til at vi oppn\u00e5r det \u00f8nskede m\u00e5let eller ikke. Du vil kanskje oppdage at<\/p>","protected":false},"author":6,"featured_media":12787,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[84],"tags":[147,118],"class_list":["post-12782","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-industry","tag-deepmind","tag-llms"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v28.1 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>NATURAL PLAN: Benchmarking LLMs on natural language planning | DailyAI<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/dailyai.com\/nb\/2024\/06\/natural-plan-benchmarking-llms-on-natural-language-planning\/\" \/>\n<meta property=\"og:locale\" content=\"nb_NO\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"NATURAL PLAN: Benchmarking LLMs on natural language planning | DailyAI\" \/>\n<meta property=\"og:description\" content=\"Google DeepMind researchers developed NATURAL PLAN, a benchmark for evaluating the capability of LLMs to plan real-world tasks based on natural language prompts. The next evolution of AI is to have it leave the confines of a chat platform and take on agentic roles to complete tasks across platforms on our behalf. But that\u2019s harder than it sounds. Planning tasks like scheduling a meeting or compiling a holiday itinerary might seem simple for us. Humans are good at reasoning through multiple steps and predicting whether a course of action will accomplish the desired objective or not. You might find that\" \/>\n<meta property=\"og:url\" content=\"https:\/\/dailyai.com\/nb\/2024\/06\/natural-plan-benchmarking-llms-on-natural-language-planning\/\" \/>\n<meta property=\"og:site_name\" content=\"DailyAI\" \/>\n<meta property=\"article:published_time\" content=\"2024-06-10T10:39:06+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/dailyai.com\/wp-content\/uploads\/2024\/06\/Planning.webp\" \/>\n\t<meta property=\"og:image:width\" content=\"1792\" \/>\n\t<meta property=\"og:image:height\" content=\"1024\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/webp\" \/>\n<meta name=\"author\" content=\"Eugene van der Watt\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:creator\" content=\"@DailyAIOfficial\" \/>\n<meta name=\"twitter:site\" content=\"@DailyAIOfficial\" \/>\n<meta name=\"twitter:label1\" content=\"Skrevet av\" \/>\n\t<meta name=\"twitter:data1\" content=\"Eugene van der Watt\" \/>\n\t<meta name=\"twitter:label2\" content=\"Ansl. lesetid\" \/>\n\t<meta name=\"twitter:data2\" content=\"4 minutter\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\\\/\\\/schema.org\",\"@graph\":[{\"@type\":\"NewsArticle\",\"@id\":\"https:\\\/\\\/dailyai.com\\\/2024\\\/06\\\/natural-plan-benchmarking-llms-on-natural-language-planning\\\/#article\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/dailyai.com\\\/2024\\\/06\\\/natural-plan-benchmarking-llms-on-natural-language-planning\\\/\"},\"author\":{\"name\":\"Eugene van der Watt\",\"@id\":\"https:\\\/\\\/dailyai.com\\\/#\\\/schema\\\/person\\\/7ce525c6d0c79838b7cc7cde96993cfa\"},\"headline\":\"NATURAL PLAN: Benchmarking LLMs on natural language planning\",\"datePublished\":\"2024-06-10T10:39:06+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\\\/\\\/dailyai.com\\\/2024\\\/06\\\/natural-plan-benchmarking-llms-on-natural-language-planning\\\/\"},\"wordCount\":606,\"publisher\":{\"@id\":\"https:\\\/\\\/dailyai.com\\\/#organization\"},\"image\":{\"@id\":\"https:\\\/\\\/dailyai.com\\\/2024\\\/06\\\/natural-plan-benchmarking-llms-on-natural-language-planning\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/dailyai.com\\\/wp-content\\\/uploads\\\/2024\\\/06\\\/Planning.webp\",\"keywords\":[\"DeepMind\",\"LLMS\"],\"articleSection\":[\"Industry\"],\"inLanguage\":\"nb-NO\"},{\"@type\":\"WebPage\",\"@id\":\"https:\\\/\\\/dailyai.com\\\/2024\\\/06\\\/natural-plan-benchmarking-llms-on-natural-language-planning\\\/\",\"url\":\"https:\\\/\\\/dailyai.com\\\/2024\\\/06\\\/natural-plan-benchmarking-llms-on-natural-language-planning\\\/\",\"name\":\"NATURAL PLAN: Benchmarking LLMs on natural language planning | DailyAI\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/dailyai.com\\\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\\\/\\\/dailyai.com\\\/2024\\\/06\\\/natural-plan-benchmarking-llms-on-natural-language-planning\\\/#primaryimage\"},\"image\":{\"@id\":\"https:\\\/\\\/dailyai.com\\\/2024\\\/06\\\/natural-plan-benchmarking-llms-on-natural-language-planning\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/dailyai.com\\\/wp-content\\\/uploads\\\/2024\\\/06\\\/Planning.webp\",\"datePublished\":\"2024-06-10T10:39:06+00:00\",\"breadcrumb\":{\"@id\":\"https:\\\/\\\/dailyai.com\\\/2024\\\/06\\\/natural-plan-benchmarking-llms-on-natural-language-planning\\\/#breadcrumb\"},\"inLanguage\":\"nb-NO\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\\\/\\\/dailyai.com\\\/2024\\\/06\\\/natural-plan-benchmarking-llms-on-natural-language-planning\\\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"nb-NO\",\"@id\":\"https:\\\/\\\/dailyai.com\\\/2024\\\/06\\\/natural-plan-benchmarking-llms-on-natural-language-planning\\\/#primaryimage\",\"url\":\"https:\\\/\\\/dailyai.com\\\/wp-content\\\/uploads\\\/2024\\\/06\\\/Planning.webp\",\"contentUrl\":\"https:\\\/\\\/dailyai.com\\\/wp-content\\\/uploads\\\/2024\\\/06\\\/Planning.webp\",\"width\":1792,\"height\":1024},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\\\/\\\/dailyai.com\\\/2024\\\/06\\\/natural-plan-benchmarking-llms-on-natural-language-planning\\\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\\\/\\\/dailyai.com\\\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"NATURAL PLAN: Benchmarking LLMs on natural language planning\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\\\/\\\/dailyai.com\\\/#website\",\"url\":\"https:\\\/\\\/dailyai.com\\\/\",\"name\":\"DailyAI\",\"description\":\"Your Daily Dose of AI News\",\"publisher\":{\"@id\":\"https:\\\/\\\/dailyai.com\\\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\\\/\\\/dailyai.com\\\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"nb-NO\"},{\"@type\":\"Organization\",\"@id\":\"https:\\\/\\\/dailyai.com\\\/#organization\",\"name\":\"DailyAI\",\"url\":\"https:\\\/\\\/dailyai.com\\\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"nb-NO\",\"@id\":\"https:\\\/\\\/dailyai.com\\\/#\\\/schema\\\/logo\\\/image\\\/\",\"url\":\"https:\\\/\\\/dailyai.com\\\/wp-content\\\/uploads\\\/2023\\\/06\\\/Daily-Ai_TL_colour.png\",\"contentUrl\":\"https:\\\/\\\/dailyai.com\\\/wp-content\\\/uploads\\\/2023\\\/06\\\/Daily-Ai_TL_colour.png\",\"width\":4501,\"height\":934,\"caption\":\"DailyAI\"},\"image\":{\"@id\":\"https:\\\/\\\/dailyai.com\\\/#\\\/schema\\\/logo\\\/image\\\/\"},\"sameAs\":[\"https:\\\/\\\/x.com\\\/DailyAIOfficial\",\"https:\\\/\\\/www.linkedin.com\\\/company\\\/dailyaiofficial\\\/\",\"https:\\\/\\\/www.youtube.com\\\/@DailyAIOfficial\"]},{\"@type\":\"Person\",\"@id\":\"https:\\\/\\\/dailyai.com\\\/#\\\/schema\\\/person\\\/7ce525c6d0c79838b7cc7cde96993cfa\",\"name\":\"Eugene van der Watt\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"nb-NO\",\"@id\":\"https:\\\/\\\/dailyai.com\\\/wp-content\\\/uploads\\\/2023\\\/07\\\/Eugine_Profile_Picture-96x96.png\",\"url\":\"https:\\\/\\\/dailyai.com\\\/wp-content\\\/uploads\\\/2023\\\/07\\\/Eugine_Profile_Picture-96x96.png\",\"contentUrl\":\"https:\\\/\\\/dailyai.com\\\/wp-content\\\/uploads\\\/2023\\\/07\\\/Eugine_Profile_Picture-96x96.png\",\"caption\":\"Eugene van der Watt\"},\"description\":\"Eugene comes from an electronic engineering background and loves all things tech. When he takes a break from consuming AI news you'll find him at the snooker table.\",\"sameAs\":[\"www.linkedin.com\\\/in\\\/eugene-van-der-watt-16828119\"],\"url\":\"https:\\\/\\\/dailyai.com\\\/nb\\\/author\\\/eugene\\\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"NATURAL PLAN: Benchmarking av LLM-er p\u00e5 naturlig spr\u00e5kplanlegging | DailyAI","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/dailyai.com\/nb\/2024\/06\/natural-plan-benchmarking-llms-on-natural-language-planning\/","og_locale":"nb_NO","og_type":"article","og_title":"NATURAL PLAN: Benchmarking LLMs on natural language planning | DailyAI","og_description":"Google DeepMind researchers developed NATURAL PLAN, a benchmark for evaluating the capability of LLMs to plan real-world tasks based on natural language prompts. The next evolution of AI is to have it leave the confines of a chat platform and take on agentic roles to complete tasks across platforms on our behalf. But that\u2019s harder than it sounds. Planning tasks like scheduling a meeting or compiling a holiday itinerary might seem simple for us. Humans are good at reasoning through multiple steps and predicting whether a course of action will accomplish the desired objective or not. You might find that","og_url":"https:\/\/dailyai.com\/nb\/2024\/06\/natural-plan-benchmarking-llms-on-natural-language-planning\/","og_site_name":"DailyAI","article_published_time":"2024-06-10T10:39:06+00:00","og_image":[{"width":1792,"height":1024,"url":"https:\/\/dailyai.com\/wp-content\/uploads\/2024\/06\/Planning.webp","type":"image\/webp"}],"author":"Eugene van der Watt","twitter_card":"summary_large_image","twitter_creator":"@DailyAIOfficial","twitter_site":"@DailyAIOfficial","twitter_misc":{"Skrevet av":"Eugene van der Watt","Ansl. lesetid":"4 minutter"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"NewsArticle","@id":"https:\/\/dailyai.com\/2024\/06\/natural-plan-benchmarking-llms-on-natural-language-planning\/#article","isPartOf":{"@id":"https:\/\/dailyai.com\/2024\/06\/natural-plan-benchmarking-llms-on-natural-language-planning\/"},"author":{"name":"Eugene van der Watt","@id":"https:\/\/dailyai.com\/#\/schema\/person\/7ce525c6d0c79838b7cc7cde96993cfa"},"headline":"NATURAL PLAN: Benchmarking LLMs on natural language planning","datePublished":"2024-06-10T10:39:06+00:00","mainEntityOfPage":{"@id":"https:\/\/dailyai.com\/2024\/06\/natural-plan-benchmarking-llms-on-natural-language-planning\/"},"wordCount":606,"publisher":{"@id":"https:\/\/dailyai.com\/#organization"},"image":{"@id":"https:\/\/dailyai.com\/2024\/06\/natural-plan-benchmarking-llms-on-natural-language-planning\/#primaryimage"},"thumbnailUrl":"https:\/\/dailyai.com\/wp-content\/uploads\/2024\/06\/Planning.webp","keywords":["DeepMind","LLMS"],"articleSection":["Industry"],"inLanguage":"nb-NO"},{"@type":"WebPage","@id":"https:\/\/dailyai.com\/2024\/06\/natural-plan-benchmarking-llms-on-natural-language-planning\/","url":"https:\/\/dailyai.com\/2024\/06\/natural-plan-benchmarking-llms-on-natural-language-planning\/","name":"NATURAL PLAN: Benchmarking av LLM-er p\u00e5 naturlig spr\u00e5kplanlegging | DailyAI","isPartOf":{"@id":"https:\/\/dailyai.com\/#website"},"primaryImageOfPage":{"@id":"https:\/\/dailyai.com\/2024\/06\/natural-plan-benchmarking-llms-on-natural-language-planning\/#primaryimage"},"image":{"@id":"https:\/\/dailyai.com\/2024\/06\/natural-plan-benchmarking-llms-on-natural-language-planning\/#primaryimage"},"thumbnailUrl":"https:\/\/dailyai.com\/wp-content\/uploads\/2024\/06\/Planning.webp","datePublished":"2024-06-10T10:39:06+00:00","breadcrumb":{"@id":"https:\/\/dailyai.com\/2024\/06\/natural-plan-benchmarking-llms-on-natural-language-planning\/#breadcrumb"},"inLanguage":"nb-NO","potentialAction":[{"@type":"ReadAction","target":["https:\/\/dailyai.com\/2024\/06\/natural-plan-benchmarking-llms-on-natural-language-planning\/"]}]},{"@type":"ImageObject","inLanguage":"nb-NO","@id":"https:\/\/dailyai.com\/2024\/06\/natural-plan-benchmarking-llms-on-natural-language-planning\/#primaryimage","url":"https:\/\/dailyai.com\/wp-content\/uploads\/2024\/06\/Planning.webp","contentUrl":"https:\/\/dailyai.com\/wp-content\/uploads\/2024\/06\/Planning.webp","width":1792,"height":1024},{"@type":"BreadcrumbList","@id":"https:\/\/dailyai.com\/2024\/06\/natural-plan-benchmarking-llms-on-natural-language-planning\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/dailyai.com\/"},{"@type":"ListItem","position":2,"name":"NATURAL PLAN: Benchmarking LLMs on natural language planning"}]},{"@type":"WebSite","@id":"https:\/\/dailyai.com\/#website","url":"https:\/\/dailyai.com\/","name":"DagligAI","description":"Din daglige dose med AI-nyheter","publisher":{"@id":"https:\/\/dailyai.com\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/dailyai.com\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"nb-NO"},{"@type":"Organization","@id":"https:\/\/dailyai.com\/#organization","name":"DagligAI","url":"https:\/\/dailyai.com\/","logo":{"@type":"ImageObject","inLanguage":"nb-NO","@id":"https:\/\/dailyai.com\/#\/schema\/logo\/image\/","url":"https:\/\/dailyai.com\/wp-content\/uploads\/2023\/06\/Daily-Ai_TL_colour.png","contentUrl":"https:\/\/dailyai.com\/wp-content\/uploads\/2023\/06\/Daily-Ai_TL_colour.png","width":4501,"height":934,"caption":"DailyAI"},"image":{"@id":"https:\/\/dailyai.com\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/x.com\/DailyAIOfficial","https:\/\/www.linkedin.com\/company\/dailyaiofficial\/","https:\/\/www.youtube.com\/@DailyAIOfficial"]},{"@type":"Person","@id":"https:\/\/dailyai.com\/#\/schema\/person\/7ce525c6d0c79838b7cc7cde96993cfa","name":"Eugene van der Watt","image":{"@type":"ImageObject","inLanguage":"nb-NO","@id":"https:\/\/dailyai.com\/wp-content\/uploads\/2023\/07\/Eugine_Profile_Picture-96x96.png","url":"https:\/\/dailyai.com\/wp-content\/uploads\/2023\/07\/Eugine_Profile_Picture-96x96.png","contentUrl":"https:\/\/dailyai.com\/wp-content\/uploads\/2023\/07\/Eugine_Profile_Picture-96x96.png","caption":"Eugene van der Watt"},"description":"Eugene har bakgrunn som elektroingeni\u00f8r og elsker alt som har med teknologi \u00e5 gj\u00f8re. N\u00e5r han tar en pause fra AI-nyhetene, finner du ham ved snookerbordet.","sameAs":["www.linkedin.com\/in\/eugene-van-der-watt-16828119"],"url":"https:\/\/dailyai.com\/nb\/author\/eugene\/"}]}},"_links":{"self":[{"href":"https:\/\/dailyai.com\/nb\/wp-json\/wp\/v2\/posts\/12782","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/dailyai.com\/nb\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/dailyai.com\/nb\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/dailyai.com\/nb\/wp-json\/wp\/v2\/users\/6"}],"replies":[{"embeddable":true,"href":"https:\/\/dailyai.com\/nb\/wp-json\/wp\/v2\/comments?post=12782"}],"version-history":[{"count":3,"href":"https:\/\/dailyai.com\/nb\/wp-json\/wp\/v2\/posts\/12782\/revisions"}],"predecessor-version":[{"id":12789,"href":"https:\/\/dailyai.com\/nb\/wp-json\/wp\/v2\/posts\/12782\/revisions\/12789"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/dailyai.com\/nb\/wp-json\/wp\/v2\/media\/12787"}],"wp:attachment":[{"href":"https:\/\/dailyai.com\/nb\/wp-json\/wp\/v2\/media?parent=12782"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/dailyai.com\/nb\/wp-json\/wp\/v2\/categories?post=12782"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/dailyai.com\/nb\/wp-json\/wp\/v2\/tags?post=12782"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}