LLMs: Reflektierendes Denken entschlüsselt – Aktivierungssteuerung
In einer bahnbrechenden Studie auf arXiv wird die bislang wenig verstandene Fähigkeit großer Sprachmodelle (LLMs), ihre eigenen Überlegungen zu bewerten und zu korrigieren, genauer untersucht. Während frühere Arbeiten sich vor allem auf das Design von Prompting-Strategien oder Reinforcement‑Learning‑Zielen konzentrierten, beleuchtet die neue Arbeit die inneren Mechanismen der Reflexion.
Die Autoren nutzen eine Methode namens „Activation Steering“, um die Aktivierungsvektoren der Modelle zu steuern und so drei Reflexionsstufen zu unterscheiden: keine Reflexion, intrinsische Reflexion und ausgelöste Reflexion. Durch den Vergleich dieser Vektoren können sie systematisch neue, reflexionsfördernde Anweisungen identifizieren und gleichzeitig zeigen, dass Reflexion gezielt verstärkt oder abgeschwächt werden kann.
Die Experimente, die auf dem GSM8k‑adv‑Datensatz mit den Modellen Qwen2.5‑3B und Gemma3‑4B durchgeführt wurden, bestätigen die klare Unterscheidung der Reflexionsstufen. Die gezielten Aktivierungsinterventionen demonstrieren, dass die Steuerung der Reflexion zuverlässig funktioniert – und dass das Unterdrücken von Reflexion dabei deutlich einfacher ist als das Anregen.
Diese Erkenntnisse eröffnen neue Möglichkeiten, etwa durch reflexionsverstärkende Sicherheitsmechanismen, und weisen zugleich auf Risiken hin, wie die gezielte Unterdrückung von Reflexion in Angriffen gegen Sprachmodelle. Die Arbeit liefert damit einen wichtigen Schritt hin zu einem mechanistischen Verständnis des reflektierenden Denkens in LLMs.