CRPO: KI‑Logik für Medizin verbessert Genauigkeit, Treue und Vollständigkeit
In den letzten Jahren haben große Sprachmodelle (LLMs) beeindruckende Fortschritte im logischen Denken erzielt, vor allem durch umfangreiches Pre‑Training und anschließendem Reinforcement Learning. Doch die gängigen Post‑Training‑Ansätze, wie Grouped Relative Policy Optimization (GRPO), belohnen vor allem die Richtigkeit der Antworten. In hochriskanten Bereichen wie der Medizin reicht das nicht aus – dort muss die Argumentation nicht nur korrekt, sondern auch treu und umfassend sein.
Um diese Anforderungen zu erfüllen, wurde Clinical‑Objective Relative Policy Optimization (CRPO) entwickelt. CRPO ist ein skalierbares, mehrzieliges und überprüfbares Reinforcement‑Learning‑Verfahren, das LLMs nach den Prinzipien klinischer Entscheidungsfindung ausrichtet. Durch die Kombination regelbasierter und verifizierbarer Belohnungssignale optimiert CRPO gleichzeitig Genauigkeit, Treue und Vollständigkeit – und das ohne auf menschliche Annotationen angewiesen zu sein.
Als Demonstration wurde das Modell Clinical‑R1‑3B mit 3 Milliarden Parametern trainiert. In drei unterschiedlichen Benchmarks zeigte CRPO signifikante Verbesserungen in Wahrhaftigkeit und Vollständigkeit gegenüber dem Standard‑GRPO, während die Genauigkeit weiterhin gesteigert wurde. Diese Ergebnisse verdeutlichen, dass CRPO die Leistungsfähigkeit von LLMs in medizinischen Kontexten nachhaltig erhöhen kann.
Das vorgestellte Framework eröffnet einen skalierbaren Weg, um KI‑Modelle an klinische Zielsetzungen anzupassen. Damit können sicherere und kollaborativere KI‑Systeme im Gesundheitswesen entstehen, und zugleich wird das Potenzial mehrzieliger, überprüfbarer RL‑Methoden für die Skalierung von LLMs in medizinischen Domänen aufgezeigt.