Soft Actor-Critic ohne Episoden-Reset: Lernfortschritt bleibt stabil
In einer neuen Studie wird gezeigt, dass der Soft Actor-Critic (SAC) auch ohne die üblichen Episodenenden und Reset‑Mechanismen von Robotern effektiv lernen kann. Durch eine kleine Anpassung des Algorithmus wird SAC in eine kontinuierliche Variante überführt, die bei einfachen Modifikationen der Belohnungsfunktionen genauso gut oder sogar besser abschneidet als die klassische episodische Version. Besonders bemerkenswert ist, dass die Leistung weniger stark vom Diskontierungsfaktor \(\gamma\) abhängt.
Auf einer angepassten Gym Reacher‑Umgebung untersuchten die Forscher, warum das Fehlen von Embodiment‑Resets die Lernfortschritte beeinträchtigt. Sie fanden heraus, dass Reset‑Zyklen die Exploration des Zustandsraums erleichtern. Ohne diese Reset‑Punkte bleibt der Agent in einem begrenzten Teil des Raums gefangen, was zu langsamerem oder gar fehlendem Lernen führt.
Um diesem Problem entgegenzuwirken, demonstrierten die Autoren, dass eine gezielte Erhöhung der Entropie der Politik – also die Förderung von zufälligen Aktionen – die Leistung wiederherstellen kann, wenn sie zu einem Leistungsabfall oder einer stagnierenden Entwicklung führt. Diese Erkenntnisse gelten nicht nur für simulierte Aufgaben, sondern auch für reale Robotik‑Vision‑Anwendungen, wodurch der Weg zu natürlicheren und nachhaltigeren Lernumgebungen geebnet wird.