Forschung arXiv – cs.AI

Chain-of-Thought schlägt zurück: Prompt-Sensitivität bei medizinischen LLMs

In einer aktuellen Studie wurde die Empfindlichkeit von medizinischen Sprachmodellen gegenüber Prompt-Formatierungen eingehend untersucht. Dabei wurden die Modelle MedGemma in den Varianten 4 B und 27 B auf zwei umfangr…

≈2 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • In einer aktuellen Studie wurde die Empfindlichkeit von medizinischen Sprachmodellen gegenüber Prompt-Formatierungen eingehend untersucht.
  • Dabei wurden die Modelle MedGemma in den Varianten 4 B und 27 B auf zwei umfangreichen Fragebögen – MedMCQA mit 4 183 Fragen und PubMedQA mit 1 000 Fragen – getestet.
  • Die Ergebnisse zeigen, dass die gängige Chain‑of‑Thought (CoT) Technik die Genauigkeit um 5,7 % senkt, wenn sie im Vergleich zu einer direkten Antwort verwendet wird.

In einer aktuellen Studie wurde die Empfindlichkeit von medizinischen Sprachmodellen gegenüber Prompt-Formatierungen eingehend untersucht. Dabei wurden die Modelle MedGemma in den Varianten 4 B und 27 B auf zwei umfangreichen Fragebögen – MedMCQA mit 4 183 Fragen und PubMedQA mit 1 000 Fragen – getestet.

Die Ergebnisse zeigen, dass die gängige Chain‑of‑Thought (CoT) Technik die Genauigkeit um 5,7 % senkt, wenn sie im Vergleich zu einer direkten Antwort verwendet wird. Außerdem führen Few‑Shot-Beispiele zu einer Leistungsabnahme von 11,9 % und erhöhen die Positions‑Bias von 0,14 auf 0,47.

Ein weiteres überraschendes Ergebnis ist, dass das Mischen der Antwortoptionen die Vorhersagen des Modells in 59,1 % der Fälle verändert und die Genauigkeit um bis zu 27,4 Prozentpunkte reduziert. Wenn der Kontext auf die ersten 50 % gekürzt wird, fällt die Genauigkeit sogar unter die Basislinie ohne Kontext, während eine Rückwärts‑Kürzung die volle Genauigkeit zu 97 % beibehält.

Eine alternative Herangehensweise, das Cloze‑Scoring, bei dem die Option mit der höchsten Log‑Wahrscheinlichkeit ausgewählt wird, erzielt beeindruckende Ergebnisse: 51,8 % bei der 4‑B‑Variante und 64,5 % bei der 27‑B‑Variante – deutlich besser als alle anderen Prompt‑Strategien. Dies verdeutlicht, dass die Modelle mehr Wissen besitzen, als ihr generierter Text offenbart.

Durch Permutation‑Voting kann die Genauigkeit zusätzlich um vier Prozentpunkte im Vergleich zu einer einzelnen Reihenfolge verbessert werden.

Die Studie unterstreicht, dass Prompt‑Engineering‑Techniken, die für allgemeine Modelle entwickelt wurden, nicht automatisch auf medizinische LLMs übertragbar sind. Gleichzeitig zeigt sie, dass verlässliche Alternativen existieren, die die Leistung in sensiblen Anwendungsbereichen stabilisieren.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

MedGemma
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Chain-of-Thought
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Few-Shot
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen