LLM-Fehler frühzeitig erkennen: Instabilitätssignal vorhersagt Ausfälle

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

In einer neuen Studie von Forschern aus dem Bereich der künstlichen Intelligenz wird gezeigt, dass Fehler bei der Beantwortung von Fragen durch große Sprachmodelle (LLMs) nicht nur am Ende einer Textgenerierung auftreten, sondern häufig schon mitten im Denkprozess. Die Autoren haben ein einfaches, aber wirkungsvolles Signal entwickelt, das auf reinen Inferenzdaten basiert und ohne zusätzliche Trainingsschritte funktioniert.

Das Instabilitätssignal kombiniert die Veränderung der Wahrscheinlichkeitsverteilung zwischen aufeinanderfolgenden Tokens – gemessen mit der Jensen‑Shannon‑Divergenz – mit der Unsicherheit des Modells, ausgedrückt durch die Entropie. Für jede Antwort wird die maximale Instabilität während des gesamten Decodierungsprozesses ermittelt. In den Datensätzen GSM8K und HotpotQA konnte gezeigt werden, dass diese Peak‑Instabilität zuverlässig auf falsche Antworten hinweist: Der AUC liegt deutlich über dem Zufallswert und die Genauigkeit sinkt monoton, je größer das Modell ist.

Ein besonders interessantes Ergebnis ist die Unterscheidung zwischen „korrigierender“ und „zerstörerischer“ Instabilität. Frühzeitige Instabilität kann dazu führen, dass das Modell im weiteren Verlauf stabilisiert und die korrekte Antwort liefert. Spät auftretende Instabilität hingegen geht häufiger zu einem Fehlschlag über, selbst wenn die maximale Instabilität ähnlich hoch ist. Damit zeigt sich, dass die Zeitpunkte, an denen die Wahrscheinlichkeitsverteilung stark schwankt, entscheidend für die Nachvollziehbarkeit des Modells sind.

Das vorgestellte Verfahren ist modellunabhängig, erfordert keine zusätzlichen Trainingsdaten und ist vollständig reproduzierbar. Es dient als diagnostisches Werkzeug, um die Dynamik von LLM‑Antworten zu verstehen, anstatt die Modelle selbst zu korrigieren oder zu steuern. Die Ergebnisse eröffnen neue Perspektiven für die Entwicklung robusterer Sprachmodelle und für die Analyse von Fehlerquellen in Echtzeit.

Ähnliche Artikel