Reinforcement Learning verbessert Planung von LLM-Agenten ohne verifizierbare Daten
Die Leistungsfähigkeit von Large‑Language‑Model‑Agenten hängt vor allem von zwei Kernfähigkeiten ab: der Planung von Aktionen und der Zusammenfassung von Antworten. Während die Planung das entscheidende Element ist, werden die beiden Fähigkeiten bislang meist gleichzeitig in einem end‑to‑end‑Training optimiert. Dieses Vorgehen führt zu einer unausgewogenen Verteilung der Optimierungsziele und erschwert die Nutzung von verifizierbaren Daten, was die Weiterentwicklung der Planungsfunktion behindert.
Um diese Probleme anzugehen, wurde das neue Framework „Reinforcement Learning with Tool‑use Rewards“ (RLTR) vorgestellt. RLTR trennt den Trainingsprozess, sodass die Planungseinheit als eigenständiges, single‑objective‑Problem behandelt werden kann. Der Schlüssel liegt in einem Belohnungssignal, das die Vollständigkeit der Werkzeug‑Nutzung bewertet. Dadurch erhält das Modell ein direktes und zuverlässiges Feedback zur Qualität der Werkzeug‑Aufruf‑Sequenzen, ohne dass die Endantwort überprüft werden muss.
Experimentelle Ergebnisse zeigen, dass RLTR die Planungsleistung um 8 % bis 12 % steigert im Vergleich zu herkömmlichen end‑to‑end‑Baselines. Diese verbesserte Planungsfähigkeit führt wiederum zu einer Steigerung der Gesamtantwortqualität um 5 % bis 6 %. Damit eröffnet RLTR einen vielversprechenden Weg, LLM‑Agenten effizienter und unabhängiger von verifizierbaren Daten zu trainieren.