NATURAL PLAN: Benchmarking af LLM'er inden for planlægning af naturligt sprog

10. juni 2024

  • Google DeepMind-forskere udviklede NATURAL PLAN, et benchmark til måling af LLM-planlægningsevne
  • NATURAL PLAN tester funktioner til rejseplanlægning, mødeplanlægning og kalenderplanlægning
  • Resultaterne viser, at planlægning i naturligt sprog stadig er en stor udfordring, selv for de mest avancerede LLM'er.

Google DeepMind-forskere udviklede NATURAL PLAN, et benchmark til evaluering af LLM'ers evne til at planlægge opgaver i den virkelige verden baseret på naturlige sprogbeskeder.

Den næste udvikling inden for AI er at få den til at forlade en chatplatform og påtage sig agentroller for at udføre opgaver på tværs af platforme på vores vegne. Men det er sværere, end det lyder.

Planlægningsopgaver som at planlægge et møde eller sammensætte en ferieplan kan virke enkle for os. Mennesker er gode til at ræsonnere sig gennem flere trin og forudsige, om en fremgangsmåde vil føre til det ønskede mål eller ej.

Du synes måske, det er nemt, men selv de bedste AI-modeller har svært ved at planlægge. Kan vi benchmarke dem for at se, hvilken LLM der er bedst til at planlægge?

NATURAL PLAN-benchmarket tester LLM'er på 3 planlægningsopgaver:

  • Planlægning af rejse - Planlægning af en rejseplan under fly- og destinationsbegrænsninger
  • Planlægning af møder - Planlægning af møder med flere venner på forskellige steder
  • Planlægning af kalender - Planlægning af arbejdsmøder mellem flere personer på baggrund af eksisterende tidsplaner og forskellige begrænsninger

Eksperimentet begyndte med få-skud-prompter, hvor modellerne fik 5 eksempler på prompter og tilsvarende korrekte svar. Derefter blev de bedt om at planlægge opgaver af varierende sværhedsgrad.

Her er et eksempel på en opfordring og en løsning, der blev givet som et eksempel til modellerne:

Et eksempel på en opfordring og en løsning, der blev brugt i Trip Planning-eksperimentet. Kilde: arXiv

Resultater

Forskerne testede GPT-3.5, GPT-4, GPT-4o, Gemini 1.5 Flash og Gemini 1.5 ProIngen af dem klarede sig særlig godt i disse tests.

Resultaterne må dog være faldet i god jord på DeepMind-kontoret, da Gemini 1.5 Pro kom ud på toppen.

NATURAL PLAN benchmark-resultater. Kilde: arXiv

Som forventet blev resultaterne eksponentielt dårligere med mere komplekse opgaver, hvor antallet af personer eller byer blev øget. Se for eksempel, hvor hurtigt præcisionen faldt, da der blev tilføjet flere personer til mødeplanlægningstesten.

Nøjagtigheden af resultaterne i mødeplanlægningstesten forringedes eksponentielt, efterhånden som spørgsmålene blev mere komplekse. Kilde: arXiv

Kan multi-shot prompting resultere i forbedret præcision? Forskningsresultaterne viser, at det kan det, men kun hvis modellen har et stort nok kontekstvindue.

Gemini 1.5 Pros større kontekstvindue gør det muligt at udnytte flere eksempler i konteksten end GPT-modellerne.

Forskerne fandt ud af, at en forøgelse af antallet af skud fra 1 til 800 i Trip Planning forbedrer nøjagtigheden af Gemini Pro 1.5 fra 2,7% til 39,9%.

Avisen "Disse resultater viser det lovende ved planlægning i kontekst, hvor de lange kontekstfunktioner gør det muligt for LLM'er at udnytte yderligere kontekst til at forbedre planlægningen."

Et mærkeligt resultat var, at GPT-4o var virkelig dårlig til rejseplanlægning. Forskerne fandt ud af, at den havde svært ved at "forstå og respektere begrænsningerne i flyforbindelser og rejsedatoer."

Et andet mærkeligt resultat var, at selvkorrektion førte til et betydeligt fald i modellernes ydeevne på tværs af alle modeller. Når modellerne blev bedt om at tjekke deres arbejde og foretage rettelser, lavede de flere fejl.

Interessant nok led de stærkere modeller, såsom GPT-4 og Gemini 1.5 Pro, større tab end GPT-3.5, når de selvkorrigerede.

Agentisk AI er et spændende perspektiv, og vi ser allerede nogle praktiske anvendelser i Microsoft Copilot agenter.

Men resultaterne af NATURAL PLAN-benchmarkprøverne viser, at der er et stykke vej endnu, før AI kan håndtere mere kompleks planlægning.

DeepMind-forskerne konkluderede, at "NATURAL PLAN er meget svær at løse for state-of-the-art-modeller."

Det ser ud til, at AI ikke vil erstatte rejsebureauer og personlige assistenter helt endnu.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser