Ohne Belohnungen: Beobachter lernen optimale Politik aus Aktionen
In der neuen Studie zum Inverse Contextual Bandit (ICB) wird untersucht, wie ein Beobachter ohne Zugriff auf Belohnungen die zugrunde liegenden Problemparameter aus rein beobachteten Aktionen rekonstruieren kann. Währen…