CAGE: Graphbasierte Erklärungen für die Logik großer Sprachmodelle
Neues Forschungspapier aus dem arXiv präsentiert CAGE, ein innovatives Framework, das die Entscheidungsprozesse von großen Sprachmodellen (LLMs) transparent macht. Durch die Kombination von Attribution-Methoden mit einem gerichteten Graphen können Forscher nun genau nachvollziehen, wie einzelne Tokens von der Eingabe und von vorherigen Generationen beeinflusst werden.
Traditionelle Kontextattributionen beschränken sich oft auf die direkte Beziehung zwischen Prompt und generiertem Text und vernachlässigen dabei die wechselseitigen Einflüsse zwischen den einzelnen Tokens. CAGE überwindet dieses Problem, indem es einen Graphen erstellt, der sowohl Kausalität als auch Zeilenspezifische Stochastizität gewährleistet. Auf dieser Basis werden die Beiträge entlang aller Pfade im Graphen marginalisiert, um vollständige Kontextattributionen zu erhalten.
In umfangreichen Experimenten mit verschiedenen Modellen, Datensätzen und Metriken konnte CAGE die Glaubwürdigkeit der Kontextattributionen um bis zu 40 % steigern. Diese signifikante Verbesserung unterstreicht das Potenzial von graphbasierten Erklärungen, die Sicherheit und das Vertrauen in KI-Systeme nachhaltig zu erhöhen.