KI-gestützte intrinsische Motivation steigert RL bei sparsamen Belohnungen

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Eine neue Studie auf arXiv zeigt, wie die Kombination zweier intrinsischer Motivationsstrategien die Effizienz von Reinforcement‑Learning‑Agenten in Umgebungen mit extrem spärlichen Belohnungen deutlich erhöht. In solchen Szenarien, in denen positives Feedback selten auftritt, scheitern klassische Lernalgorithmen häufig an mangelnder Exploration.

Die Autoren kombinieren die Variational State as Intrinsic Reward (VSIMR)-Methode, die mithilfe von Variational Autoencoders (VAEs) Zustände belohnt, die neu oder ungewöhnlich sind, mit einem auf Large Language Models (LLMs) basierenden Ansatz. Die LLMs nutzen ihr vortrainiertes Wissen, um aus Beschreibungen der Umgebung und der Ziele gezielte Belohnungssignale zu generieren, die den Agenten gezielt in die richtige Richtung lenken.

Die Kombination wurde in einem Actor‑Critic (A2C) Agenten im MiniGrid DoorKey‑Benchmark implementiert, einem klassischen Testfeld für sparse‑Reward‑Probleme. Die experimentellen Ergebnisse zeigen, dass die kombinierte Strategie die Leistung des Agenten und die Stichproben­effizienz deutlich steigert, während die einzelnen Ansätze allein oder ein Standard‑A2C‑Agent, der nicht lernte, deutlich schlechter abschnitten.

Die Lernkurven verdeutlichen, dass VSIMR die Erkundung neuer Zustände vorantreibt, während die LLM‑generierten Belohnungen den Agenten schrittweise zum Ziel führen. Diese Synergie aus modellbasierter Neugierde und sprachgestützter Zielorientierung eröffnet neue Perspektiven für Reinforcement‑Learning‑Anwendungen, bei denen externe Belohnungen knapp sind.

Ähnliche Artikel