KI News. Verstehen, was wichtig wird.

Suche Anmelden

Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Policy‑Gradient‑Theorem”

Unmaskierte Policy-Gradient-Algorithmen: Validitäts‑Suppression überwunden

Ein brandneues arXiv‑Veröffentlichung beleuchtet ein bislang wenig verstandenes Problem in der Verstärkungslern‑Forschung: Wenn Agenten in…

arXiv – cs.LG 11.03.2026 04:00

Neues RL-Framework: Risiko-sensitives Lernen mit Expectiles, Shortfall und OCE

In einer kürzlich veröffentlichten Arbeit auf arXiv wird ein neues Framework für risiko-sensitives Reinforcement Learning vorgestellt, das…

arXiv – cs.LG 11.02.2026 05:00

Non‑stationäre MDPs mit variabler Diskontierung: Ein neues Lern‑Framework

In einer kürzlich veröffentlichten Arbeit auf arXiv wird das NVMDP‑Framework vorgestellt, das klassische Markov‑Entscheidungsprozesse (MDPs…

arXiv – cs.LG 25.11.2025 05:00