Neues PPO-Verfahren stabilisiert Multi‑Turn-Agenten-Training

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Proximal Policy Optimization (PPO) ist ein beliebtes Verfahren zum Trainieren großer Sprachmodelle in mehrstufigen Dialogen und komplexen Denkaufgaben. In der Praxis zeigen sich jedoch häufig Instabilitäten und sogar komplette Leistungsabfälle. Forscher haben zwei Hauptursachen dafür identifiziert: Erstens die Verwendung von token‑basiertem Importance Sampling, das nicht mit der natürlichen Turn‑Level‑Struktur von Multi‑Turn‑Umgebungen übereinstimmt. Zweitens ungenaue Vorteilsschätzungen aus Off‑Policy‑Samples, bei denen der Kritiker bestimmte Zustands‑Aktionspaare noch nicht zuverlässig bewerten kann, was zu hochvarianten Gradienten und instabilen Updates führt.

Um diese Probleme zu lösen, wurden zwei ergänzende Stabilisierungstechniken entwickelt. Die erste ist Turn‑Level‑Importance Sampling, das die Optimierung an die echte Turn‑Struktur anpasst. Die zweite ist Clipping‑Bias‑Correction, die Gradienten normalisiert, indem stark Off‑Policy‑Samples abgewertet werden. Durch die Kombination dieser Ansätze entstehen drei Varianten: Turn‑PPO (nur Turn‑Sampling), S‑PPO (Clipping‑Bias‑Correction auf token‑basiertem PPO) und ST‑PPO (Beide Techniken zusammen).

In umfangreichen Experimenten, die Multi‑Turn‑Suchaufgaben in Bereichen wie allgemeine Frage‑Antwort, Multi‑Hop‑QA und medizinische Multiple‑Choice‑QA abdecken, zeigen ST‑PPO und S‑PPO eine konsequente Vermeidung von Leistungsabfällen. Die Ergebnisse deuten darauf hin, dass die beiden Stabilisierungsmethoden gemeinsam die Hauptursachen für Instabilität im Multi‑Turn‑Training adressieren und damit die Zuverlässigkeit von Sprachagenten erheblich verbessern.

Ähnliche Artikel