Forschung arXiv – cs.AI

RAMP: Online‑Lernen numerischer Aktionsmodelle mit Hybrid‑DRL

Automatisierte Planungsalgorithmen brauchen ein Aktionsmodell, das die Voraussetzungen und Wirkungen jeder Aktion beschreibt. Dieses Modell zu erhalten, ist jedoch häufig schwierig. Zwar lässt sich ein Aktionsmodell aus…

≈1 Min. Lesezeit Originalquelle
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Automatisierte Planungsalgorithmen brauchen ein Aktionsmodell, das die Voraussetzungen und Wirkungen jeder Aktion beschreibt.
  • Dieses Modell zu erhalten, ist jedoch häufig schwierig.
  • Zwar lässt sich ein Aktionsmodell aus Beobachtungen lernen, bisherige Verfahren für numerische Domänen arbeiten jedoch offline und benötigen Experten‑Spuren als Eingabe.

Automatisierte Planungsalgorithmen brauchen ein Aktionsmodell, das die Voraussetzungen und Wirkungen jeder Aktion beschreibt. Dieses Modell zu erhalten, ist jedoch häufig schwierig. Zwar lässt sich ein Aktionsmodell aus Beobachtungen lernen, bisherige Verfahren für numerische Domänen arbeiten jedoch offline und benötigen Experten‑Spuren als Eingabe.

Mit der neuen RAMP‑Strategie (Reinforcement learning, Action Model learning, and Planning) wird das Lernen von numerischen Aktionsmodellen online ermöglicht. RAMP trainiert gleichzeitig eine Deep‑Reinforcement‑Learning‑(DRL)‑Policy, erfasst aus vergangenen Interaktionen ein numerisches Aktionsmodell und nutzt dieses Modell anschließend, um zukünftige Aktionen zu planen, wenn möglich.

Die drei Komponenten bilden einen positiven Feedback‑Loop: Die RL‑Policy sammelt Daten, um das Aktionsmodell zu verfeinern, während der Planer Pläne erstellt, die die RL‑Policy weiter trainieren. Um diese Integration zu erleichtern, wurde Numeric PDDLGym entwickelt – ein automatisiertes Framework, das numerische Planungsprobleme in Gym‑Umgebungen umwandelt.

Experimentelle Ergebnisse auf Standard‑IPC‑numerischen Domänen zeigen, dass RAMP die bekannte DRL‑Methode PPO deutlich übertrifft – sowohl in Bezug auf die Lösbarkeit als auch auf die Qualität der erzeugten Pläne.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

Aktionsmodell
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Reinforcement Learning
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Deep Reinforcement Learning
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen