Offline MORL optimiert Entscheidungen im Intensivbereich

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

In der Intensivmedizin stehen Ärzte vor der schwierigen Aufgabe, die Lebensrettung eines Patienten mit dem effizienten Einsatz von Ressourcen wie der Aufenthaltsdauer abzugleichen. Traditionelle Reinforcement‑Learning‑Ansätze lösen dieses Problem meist mit einer festen, skalarisierten Belohnungsfunktion, was zu starren Richtlinien führt, die sich nicht an unterschiedliche klinische Prioritäten anpassen lassen.

Multi‑Objective Reinforcement Learning (MORL) bietet hier eine vielversprechende Alternative: Es lernt ein Set optimaler Strategien entlang der Pareto‑Grenze, sodass die Präferenz für ein bestimmtes Ziel erst im Einsatz festgelegt werden kann. Für den Einsatz im Gesundheitswesen ist jedoch ein ausschließlich offline basiertes Lernen aus historischen Daten erforderlich.

In einer aktuellen Studie wurden drei Offline‑MORL‑Algorithmen – Conditioned Conservative Pareto Q‑Learning (CPQL), Adaptive CPQL und ein modifiziertes Pareto Efficient Decision Agent Decision Transformer (PEDA DT) – gegen drei skalare Single‑Objective‑Baselines (Behavior Cloning, Conservative Q‑Learning und Double‑DQN) auf dem MIMIC‑IV‑Datensatz getestet. Durch Off‑Policy‑Evaluation‑Metriken zeigte sich, dass PEDA DT die größte Flexibilität bietet und damit die dynamische Auswahl von Präferenzen am besten unterstützt.

Die Ergebnisse bestätigen frühere Befunde zu Decision Transformers in der Medizin und unterstreichen, dass sequentielle Modellarchitekturen auch bei der Multi‑Objective‑Generierung robust und effektiv bleiben. Insgesamt deuten die Befunde darauf hin, dass Offline‑MORL ein vielversprechender Rahmen ist, um personalisierte und anpassbare Entscheidungsprozesse in der kritischen Versorgung zu ermöglichen.

Ähnliche Artikel