NATURAL PLAN: Benchmarking von LLMs zur Planung natürlicher Sprache

Juni 10, 2024

  • Google DeepMind-Forscher entwickelten NATURAL PLAN, ein Benchmark zur Messung der LLM-Planungsfähigkeit
  • NATURAL PLAN testet Funktionen zur Reise- und Besprechungsplanung sowie zur Kalenderplanung
  • Die Ergebnisse zeigen, dass die Planung in natürlicher Sprache selbst für modernste LLMs immer noch eine große Herausforderung darstellt

Google DeepMind-Forscher haben NATURAL PLAN entwickelt, einen Benchmark zur Bewertung der Fähigkeit von LLMs, reale Aufgaben auf der Grundlage von natürlichsprachlichen Aufforderungen zu planen.

Die nächste Evolutionsstufe der KI besteht darin, dass sie die Grenzen einer Chat-Plattform verlässt und die Rolle eines Agenten übernimmt, um plattformübergreifende Aufgaben in unserem Namen zu erledigen. Aber das ist schwieriger, als es klingt.

Planungsaufgaben wie das Ansetzen einer Besprechung oder das Zusammenstellen einer Urlaubsroute mögen uns einfach erscheinen. Wir Menschen sind gut darin, mehrere Schritte zu durchdenken und vorherzusagen, ob eine bestimmte Vorgehensweise zum gewünschten Ziel führt oder nicht.

Das mag Ihnen leicht fallen, aber selbst die besten KI-Modelle haben Probleme mit der Planung. Könnten wir sie vergleichen, um zu sehen, welches LLM am besten planen kann?

Der NATURAL PLAN-Benchmark testet LLMs auf 3 Planungsaufgaben:

  • Planung der Reise - Planung einer Reiseroute unter Berücksichtigung von Flug- und Zielortbeschränkungen
  • Planung von Sitzungen - Planung von Treffen mit mehreren Freunden an verschiedenen Orten
  • Kalenderplanung - Planung von Arbeitssitzungen zwischen mehreren Personen unter Berücksichtigung bestehender Zeitpläne und verschiedener Sachzwänge

Das Experiment begann mit einem "few-shot prompting", bei dem den Modellen 5 Beispiele für Aufforderungen und die entsprechenden richtigen Antworten vorgelegt wurden. Anschließend wurden sie mit Planungsaufforderungen unterschiedlicher Schwierigkeit konfrontiert.

Hier ist ein Beispiel für eine Aufforderung und eine Lösung, die den Modellen als Beispiel zur Verfügung gestellt wird:

Ein Beispiel für eine Aufforderung und eine Lösung, die im Trip Planning Experiment verwendet wurden. Quelle: arXiv

Ergebnisse

Die Forscher testeten GPT-3.5, GPT-4, GPT-4o, Gemini 1.5 Flash, und Gemini 1.5 Profidie bei diesen Tests nicht sehr gut abgeschnitten haben.

Die Ergebnisse müssen im DeepMind-Büro gut angekommen sein, denn Gemini 1.5 Pro hat sich als Sieger durchgesetzt.

NATURAL PLAN Benchmark-Ergebnisse. Quelle: arXiv

Wie erwartet, verschlechterten sich die Ergebnisse exponentiell mit komplexeren Aufforderungen, bei denen die Anzahl der Personen oder Städte erhöht wurde. Schauen Sie sich zum Beispiel an, wie schnell die Genauigkeit abnahm, als mehr Personen in den Test zur Planung eines Meetings einbezogen wurden.

Die Genauigkeit der Ergebnisse im Test zur Sitzungsplanung nahm exponentiell ab, je komplexer die Aufforderungen wurden. Quelle: arXiv

Könnte das Prompting mit mehreren Schüssen zu einer verbesserten Genauigkeit führen? Die Forschungsergebnisse deuten darauf hin, dass dies möglich ist, allerdings nur, wenn das Modell ein ausreichend großes Kontextfenster hat.

Das größere Kontextfenster von Gemini 1.5 Pro ermöglicht es, mehr In-Context-Beispiele zu nutzen als die GPT-Modelle.

Die Forscher fanden heraus, dass bei der Reiseplanung eine Erhöhung der Anzahl der Schüsse von 1 auf 800 die Genauigkeit von Gemini Pro 1.5 von 2,7% auf 39,9% verbessert.

Das Papier "Diese Ergebnisse zeigen, wie vielversprechend die kontextinterne Planung ist, bei der die LLMs dank der Langkontext-Fähigkeiten weitere Kontexte nutzen können, um die Planung zu verbessern."

Ein seltsames Ergebnis war, dass GPT-4o bei der Reiseplanung wirklich schlecht war. Die Forscher stellten fest, dass es Schwierigkeiten hatte, "die Flugverbindungen und Reisedaten zu verstehen und zu berücksichtigen".

Ein weiteres merkwürdiges Ergebnis war, dass die Selbstkorrektur bei allen Modellen zu einem deutlichen Leistungsabfall führte. Wenn die Modelle aufgefordert wurden, ihre Arbeit zu überprüfen und zu korrigieren, machten sie mehr Fehler.

Interessanterweise erlitten die stärkeren Modelle, wie GPT-4 und Gemini 1.5 Pro, bei der Selbstkorrektur größere Verluste als GPT-3.5.

Agentische KI ist eine spannende Perspektive, und wir sehen bereits einige praktische Anwendungsfälle in Microsoft Copilot Agenten.

Die Ergebnisse der NATURAL PLAN-Benchmark-Tests zeigen jedoch, dass wir noch einen weiten Weg vor uns haben, bevor KI komplexere Planungen durchführen kann.

Die DeepMind-Forscher kamen zu dem Schluss, dass "NATURAL PLAN für moderne Modelle sehr schwer zu lösen ist."

Es scheint, dass KI Reisebüros und persönliche Assistenten noch nicht ersetzen wird.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen