RAMP: Online‑Lernen numerischer Aktionsmodelle mit Hybrid‑DRL
Automatisierte Planungsalgorithmen brauchen ein Aktionsmodell, das die Voraussetzungen und Wirkungen jeder Aktion beschreibt. Dieses Modell zu erhalten, ist jedoch häufig schwierig. Zwar lässt sich ein Aktionsmodell aus…
- Automatisierte Planungsalgorithmen brauchen ein Aktionsmodell, das die Voraussetzungen und Wirkungen jeder Aktion beschreibt.
- Dieses Modell zu erhalten, ist jedoch häufig schwierig.
- Zwar lässt sich ein Aktionsmodell aus Beobachtungen lernen, bisherige Verfahren für numerische Domänen arbeiten jedoch offline und benötigen Experten‑Spuren als Eingabe.
Automatisierte Planungsalgorithmen brauchen ein Aktionsmodell, das die Voraussetzungen und Wirkungen jeder Aktion beschreibt. Dieses Modell zu erhalten, ist jedoch häufig schwierig. Zwar lässt sich ein Aktionsmodell aus Beobachtungen lernen, bisherige Verfahren für numerische Domänen arbeiten jedoch offline und benötigen Experten‑Spuren als Eingabe.
Mit der neuen RAMP‑Strategie (Reinforcement learning, Action Model learning, and Planning) wird das Lernen von numerischen Aktionsmodellen online ermöglicht. RAMP trainiert gleichzeitig eine Deep‑Reinforcement‑Learning‑(DRL)‑Policy, erfasst aus vergangenen Interaktionen ein numerisches Aktionsmodell und nutzt dieses Modell anschließend, um zukünftige Aktionen zu planen, wenn möglich.
Die drei Komponenten bilden einen positiven Feedback‑Loop: Die RL‑Policy sammelt Daten, um das Aktionsmodell zu verfeinern, während der Planer Pläne erstellt, die die RL‑Policy weiter trainieren. Um diese Integration zu erleichtern, wurde Numeric PDDLGym entwickelt – ein automatisiertes Framework, das numerische Planungsprobleme in Gym‑Umgebungen umwandelt.
Experimentelle Ergebnisse auf Standard‑IPC‑numerischen Domänen zeigen, dass RAMP die bekannte DRL‑Methode PPO deutlich übertrifft – sowohl in Bezug auf die Lösbarkeit als auch auf die Qualität der erzeugten Pläne.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.