Neues Benchmark RECAP verbessert Intent-Erkennung in Agenten-Planung
Eine aktuelle Veröffentlichung auf arXiv (ID 2509.04472v1) stellt das neue Benchmark RECAP vor, das speziell für die Bewertung von Intent‑Rewriting in Agenten‑Planungssystemen entwickelt wurde. Das Projekt richtet sich an Conversational‑Assistants, die mit großen Sprachmodellen (LLMs) arbeiten und mehrere Agenten koordinieren.
Die Autoren betonen, dass die Erkennung von Nutzerabsichten in realen Dialogen häufig durch Mehrdeutigkeit, Unterangaben oder dynamische Themen erschwert wird. Klassische Klassifikationsansätze zeigen in offenen Umgebungen Schwächen, was zu unzuverlässigen Interpretationen und schlechter Planung führt.
RECAP adressiert diese Herausforderungen, indem es Konversationen in prägnante Zielbeschreibungen umschreibt. Das Benchmark umfasst vielfältige Szenarien wie Ambiguität, Intent‑Drift, Unklarheiten und Gespräche mit mehreren Zielen. Zusätzlich wird ein LLM‑basierter Evaluator bereitgestellt, der die Planungsnützlichkeit der umgeschriebenen Intents misst.
Durch die Nutzung von RECAP konnten die Forscher einen prompt‑basierten Rewriter entwickeln, der die Basismodelle übertrifft. Weiterhin zeigte die Feinabstimmung zweier DPO‑basierter Rewriter zusätzliche Leistungssteigerungen. Die Ergebnisse unterstreichen, dass Intent‑Rewriting ein entscheidender und handhabbarer Ansatz zur Verbesserung der Agenten‑Planung in offenen Dialogsystemen ist.