LLMSHAP: Prinzipielle Erklärbarkeit von Sprachmodellen mit Shapley‑Werten

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Ein neues arXiv‑Veröffentlichung mit dem Titel llmSHAP: A Principled Approach to LLM Explainability zeigt, wie die Shapley‑Werte, ein bewährtes Konzept aus der kooperativen Spieltheorie, auf große Sprachmodelle (LLMs) übertragen werden können, obwohl deren Vorhersagen per Definition stochastisch sind. Die Autoren untersuchen, unter welchen Bedingungen die klassischen Prinzipien der Shapley‑Attribution – wie Fairness, Additivität und Symmetrie – in LLM‑basierten Entscheidungshilfesystemen gelten, und welche Implementierungsvarianten diese Prinzipien unterstützen oder verletzen.

Durch gezielte Experimente demonstrieren die Forscher, dass bei bestimmten LLM‑Architekturen und Sampling‑Strategien die Shapley‑Prinzipien weitgehend erhalten bleiben, während bei anderen Varianten Abweichungen auftreten. Besonders hervorzuheben ist die Analyse, wie die inhärente Zufälligkeit von LLM‑Ausgaben die Genauigkeit der Attributionswerte beeinflusst und welche Kompromisse zwischen Erklärungsgenauigkeit, Rechenzeit und Prinzipienerfüllung bestehen.

Die Arbeit liefert damit einen wichtigen Leitfaden für Entwickler, die erklärbare KI in produktiven LLM‑Anwendungen einsetzen wollen, und legt die Grundlage für zukünftige Optimierungen, die sowohl die Erklärbarkeit als auch die Effizienz von Sprachmodellen verbessern.

Ähnliche Artikel