Chain-of-Thought schlägt zurück: Prompt-Sensitivität bei medizinischen LLMs
In einer aktuellen Studie wurde die Empfindlichkeit von medizinischen Sprachmodellen gegenüber Prompt-Formatierungen eingehend untersucht. Dabei wurden die Modelle MedGemma in den Varianten 4 B und 27 B auf zwei umfangr…
- In einer aktuellen Studie wurde die Empfindlichkeit von medizinischen Sprachmodellen gegenüber Prompt-Formatierungen eingehend untersucht.
- Dabei wurden die Modelle MedGemma in den Varianten 4 B und 27 B auf zwei umfangreichen Fragebögen – MedMCQA mit 4 183 Fragen und PubMedQA mit 1 000 Fragen – getestet.
- Die Ergebnisse zeigen, dass die gängige Chain‑of‑Thought (CoT) Technik die Genauigkeit um 5,7 % senkt, wenn sie im Vergleich zu einer direkten Antwort verwendet wird.
In einer aktuellen Studie wurde die Empfindlichkeit von medizinischen Sprachmodellen gegenüber Prompt-Formatierungen eingehend untersucht. Dabei wurden die Modelle MedGemma in den Varianten 4 B und 27 B auf zwei umfangreichen Fragebögen – MedMCQA mit 4 183 Fragen und PubMedQA mit 1 000 Fragen – getestet.
Die Ergebnisse zeigen, dass die gängige Chain‑of‑Thought (CoT) Technik die Genauigkeit um 5,7 % senkt, wenn sie im Vergleich zu einer direkten Antwort verwendet wird. Außerdem führen Few‑Shot-Beispiele zu einer Leistungsabnahme von 11,9 % und erhöhen die Positions‑Bias von 0,14 auf 0,47.
Ein weiteres überraschendes Ergebnis ist, dass das Mischen der Antwortoptionen die Vorhersagen des Modells in 59,1 % der Fälle verändert und die Genauigkeit um bis zu 27,4 Prozentpunkte reduziert. Wenn der Kontext auf die ersten 50 % gekürzt wird, fällt die Genauigkeit sogar unter die Basislinie ohne Kontext, während eine Rückwärts‑Kürzung die volle Genauigkeit zu 97 % beibehält.
Eine alternative Herangehensweise, das Cloze‑Scoring, bei dem die Option mit der höchsten Log‑Wahrscheinlichkeit ausgewählt wird, erzielt beeindruckende Ergebnisse: 51,8 % bei der 4‑B‑Variante und 64,5 % bei der 27‑B‑Variante – deutlich besser als alle anderen Prompt‑Strategien. Dies verdeutlicht, dass die Modelle mehr Wissen besitzen, als ihr generierter Text offenbart.
Durch Permutation‑Voting kann die Genauigkeit zusätzlich um vier Prozentpunkte im Vergleich zu einer einzelnen Reihenfolge verbessert werden.
Die Studie unterstreicht, dass Prompt‑Engineering‑Techniken, die für allgemeine Modelle entwickelt wurden, nicht automatisch auf medizinische LLMs übertragbar sind. Gleichzeitig zeigt sie, dass verlässliche Alternativen existieren, die die Leistung in sensiblen Anwendungsbereichen stabilisieren.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.