Strokes als Rosetta Stone: Neue Methode zur Interpretation von Sprachmodellen

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Die Leistungsfähigkeit großer Sprachmodelle (LLMs) ist unbestreitbar, doch bleibt die Frage, welche internen Komponenten wirklich für die Sprachverarbeitung entscheidend sind, weitgehend ungeklärt. Traditionelle Interpretationsansätze stützen sich auf interne Metriken und bieten kaum externe Validierung.

Mit dem Brain‑LLM Unified Model (BLUM) wird ein völlig neuer Ansatz vorgestellt: Die jahrzehntelange Goldstandard-Methode der Läsion‑Symptom‑Mapping aus der klinischen Neurowissenschaft wird als externer Referenzrahmen genutzt. Auf Basis von Daten von 410 Patienten mit chronischer poststroke‑Aphasie wurden Modelle trainiert, die aus Verhaltensfehlerprofilen die Lage von Hirnverletzungen vorhersagen.

Durch gezielte Störungen einzelner Transformer‑Schichten wurden die LLMs anschließend denselben klinischen Tests unterzogen wie die Patienten. Die Fehlerprofile der Modelle wurden in den menschlichen Läsionsraum projiziert. Dabei zeigte sich, dass die Fehler der LLMs die menschlichen Fehler so gut abbilden, dass die vorhergesagten Läsionen bei 67 % der Bildbenennungsaufgaben und bei 68,3 % der Satzvollständigungsaufgaben über dem Zufallsniveau lagen (p < 10⁻²³ bzw. p < 10⁻⁶¹). Semantische Fehler korrespondierten mit Läsionen im ventralen Strang, phonemische Fehler mit Läsionen im dorsal‑Strang.

Diese Ergebnisse eröffnen einen völlig neuen Weg für die Interpretierbarkeit von LLMs: Klinische Neurowissenschaften liefern eine externe Validierung, und die etablierte Läsion‑Symptom‑Mapping wird zum Referenzrahmen für die Bewertung künstlicher Sprachsysteme. Damit wird ein wichtiger Schritt in Richtung nachvollziehbarer, verlässlicher KI‑Sprachmodelle gemacht.

Ähnliche Artikel