Zero-Shot-Transfer von RL-Policen dank Buckingham’s Pi-Theorem

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Reinforcement‑Learning‑Modelle stoßen häufig an ihre Grenzen, wenn sie auf neue Roboter, Aufgaben oder Umgebungen mit veränderten physikalischen Parametern übertragen werden. Das neue Verfahren nutzt das klassische Buckingham‑Pi‑Theorem, um diese Hürde zu überwinden – und zwar ohne jegliches Retraining.

Durch die Skalierung von Beobachtungen und Aktionen in einen dimensionslosen Raum passt die vortrainierte Policy automatisch an neue Systemkontexte an. Das Verfahren wird gegen einen naiven Transfer‑Ansatz getestet und in drei aufeinander aufbauenden Szenarien validiert: ein simuliertes Pendel, ein physisches Pendel zur Sim‑to‑Real‑Validierung und das hochdimensionale HalfCheetah‑Modell.

Die Ergebnisse sind überzeugend: Für dynamisch ähnliche Umgebungen verliert die skalierte Policy keine Leistung, während sie in nicht‑ähnlichen Kontexten konsequent den naiven Ansatz übertrifft. Damit wird deutlich, dass dimensionale Analyse ein wirkungsvolles Werkzeug ist, um die Robustheit und Generalisierbarkeit von RL‑Policen signifikant zu erhöhen.

Ähnliche Artikel