HealthRubrics & HealthPrinciples: KI‑Alignment in der Medizin verbessert
Die Künstliche Intelligenz hat in den letzten Jahren enorme Fortschritte im medizinischen Fachwissen erzielt, doch die Feinabstimmung ihrer offenen Antworten an die Präferenzen von Fachärzten bleibt ein zentrales Problem. Traditionelle Ansätze stützen sich häufig auf grobe Zielsetzungen oder unzuverlässige automatisierte Prüfer, die nur schwach an professionellen Leitlinien orientiert sind.
Um diese Lücke zu schließen, hat ein neues Forschungsprojekt ein zweistufiges Framework entwickelt. Zunächst wurde HealthRubrics erstellt – ein Datensatz mit 7.034 von Ärzten verifizierten Präferenzbeispielen, in denen medizinische Fachkräfte von LLM-Entwürfen ausgehen und diese zu präzisen, klinisch fundierten Rubriken verfeinern. Diese Rubriken bilden die Grundlage für die nächste Stufe.
Aus den Rubriken wurden 119 allgemein einsetzbare, klinisch fundierte Prinzipien – HealthPrinciples – abgeleitet. Diese Prinzipien sind nach klinischen Dimensionen strukturiert und ermöglichen eine skalierbare Überwachung, die weit über manuelle Annotationen hinausgeht. HealthPrinciples werden sowohl für die Offline‑Anpassung genutzt, indem sie für unbeschriftete Anfragen synthetisiert werden, als auch als Tool zur selbstgesteuerten Revision in Echtzeit.
Ein 30‑Billionen‑Parameter‑Modell, das bei der Inferenz lediglich 3 Billionen Parameter aktiviert, erreichte mit diesem Ansatz einen bemerkenswerten Score von 33,4 % auf dem HealthBench‑Hard‑Benchmark. Damit übertrifft es deutlich größere Modelle wie Deepseek‑R1 und o3 und setzt einen ressourcenschonenden Standard für die klinische Ausrichtung von KI‑Systemen.