Re:Frame: Mit wenigen Experten‑Trajektorien Offline RL drastisch verbessern
Offline‑Reinforcement‑Learning (RL) kämpft häufig mit unvollständigen Daten, weil große Expertendatensätze schwer zu beschaffen sind. Dadurch haben Agenten nur begrenzte Möglichkeiten, aus schlechten oder inkonsistenten Trajektorien zu lernen und ihre Leistung zu steigern. Die zentrale Frage lautet daher: Wie kann man wenige, aber wertvolle Expertenbeispiele optimal nutzen?
Die neue Methode Re:Frame (Retrieving Experience From Associative Memory) bietet eine elegante Lösung. Sie fügt einer Standard‑Offline‑RL‑Policy – etwa dem Decision Transformer – ein kleines externes Associative Memory Buffer (AMB) hinzu, das mit wenigen Experten‑Trajektorien aus einem separaten Datensatz gefüllt wird. Während des Trainings auf minderwertigen Daten lernt die Policy, relevante Experteninformationen aus dem AMB über inhaltliche Ähnlichkeiten abzurufen und in ihre Entscheidungsfindung einzubinden. Das gleiche AMB wird auch bei der Evaluation abgefragt, ohne dass zusätzliche Umgebungsinteraktionen oder Änderungen an der Kernarchitektur nötig sind.
In Experimenten auf den D4RL MuJoCo‑Aufgaben zeigte Re:Frame beeindruckende Ergebnisse: Mit lediglich 60 Experten‑Trajektorien – das entspricht nur 0,1 % eines 6000‑Trajektorien‑Datensatzes – erzielte die Methode in drei von vier Testfällen eine Leistungssteigerung von bis zu 10,7 normalisierten Punkten gegenüber einem starken Decision‑Transformer‑Baseline. Diese Ergebnisse demonstrieren, dass Re:Frame eine einfache und daten‑effiziente Möglichkeit darstellt, knappe Expertenkenntnisse einzubringen und die Offline‑RL‑Leistung signifikant zu erhöhen.