Adaptive Layerwise Perturbation stabilisiert LLM‑RL‑Training und verbessert Leistung
In der aktuellen Forschung zu Large‑Language‑Model‑RL (LLM‑RL) stellen Off‑Policy‑Probleme wie Policy‑Stalenz und Trainings‑Inference‑Mismatch einen wesentlichen Engpass für die Trainingsstabilität dar. Diese Diskrepanz…