LLMs nach dem Training: Bessere Entscheidungsagenten durch Regret-Minimierung
Wissenschaftler haben ein neues Verfahren entwickelt, das große Sprachmodelle (LLMs) zu effektiveren Entscheidungsagenten macht. Durch die Methode „Iterative Regret‑Minimization Fine‑Tuning“ (Iterative RMFT) werden die Modelle nach dem ursprünglichen Training erneut trainiert, indem sie ihre eigenen Entscheidungswege mit geringem Regret wieder in das Modell einfließen lassen.
Im Gegensatz zu bisherigen Ansätzen, die auf vorgefertigten Aktionssequenzen oder starren Chain‑of‑Thought‑Vorlagen basieren, nutzt Iterative RMFT das Regret‑Kriterium, um die natürlichen Entscheidungsfähigkeiten und Erklärungen des Modells zu fördern. Das Verfahren führt mehrere Entscheidungswege aus, wählt die k mit dem niedrigsten Regret aus und feint das Modell anschließend auf diese Beispiele.
Experimentelle Ergebnisse zeigen, dass die Methode die Entscheidungsleistung von LLMs über verschiedene Architekturen hinweg verbessert – von numerischen Transformer‑Modellen bis hin zu Open‑Weight‑ und fortgeschrittenen Closed‑Weight‑Modellen wie GPT‑4o mini. Durch die flexible Handhabung von Ausgabe‑ und Erklärungsformaten lässt sich die Technik auf Aufgaben mit unterschiedlichen Zeithorizonten, Aktionsräumen, Belohnungsprozessen und sprachlichen Kontexten übertragen.
Die Autoren liefern zudem theoretische Erkenntnisse, die zeigen, dass ein einstufiger Transformer unter diesem Paradigma die Regret‑Minimierung optimal unterstützt. Diese Fortschritte markieren einen wichtigen Schritt, um LLMs als robuste Agenten in dynamischen, interaktiven Umgebungen einzusetzen.