CADENT: Gated Hybrid Distillation erhöht Sample‑Effizienz im RL um bis zu 60 %
Die hohe Sample‑Komplexität von Deep Reinforcement Learning (RL) bleibt ein zentrales Hindernis für die praktische Anwendung. Transferlernen soll dieses Problem lösen, doch bisherige Ansätze kämpfen mit der Domänenverschiebung zwischen Quell- und Zielumgebungen.
Policy‑Distillation liefert zwar starke taktische Anweisungen, verliert jedoch die langfristige strategische Perspektive. Automaton‑basierte Methoden erfassen die Aufgabenstruktur, bieten aber keine feinkörnige Aktionsführung. Beide Ansätze ergänzen sich also, bleiben aber unvollständig.
Die neue Methode CADENT (Kontext‑bewusste Distillation mit erfahrungsgesteuertem Transfer) verbindet diese beiden Wissensformen zu einem kohärenten Leitsignal. Ein innovativer, erlebnisgesteuerter Vertrauensmechanismus gewichtet die Anleitung des Lehrers dynamisch gegen die eigene Erfahrung des Lernenden auf Ebene von Zustand‑Aktion‑Paaren. Dadurch passt sich das Modell sanft an die spezifischen Gegebenheiten der Zielumgebung an.
In einer Reihe anspruchsvoller Tests – von sparsamen Belohnungs‑Grid‑Welten bis zu kontinuierlichen Steuerungsaufgaben – übertrifft CADENT die Standard‑Methoden um 40 % bis 60 % in der Sample‑Effizienz, während die Endleistung gleichbleibend besser bleibt. Das Ergebnis ist ein robuster Ansatz für adaptiven Wissenstransfer in RL, der sowohl strategische als auch taktische Elemente optimal nutzt.