Forschung
Mechanistische Interpretierbarkeit reicht nicht: Modelle korrigieren Fehler nicht
Eine neue Untersuchung auf arXiv zeigt, dass mechanistische Interpretationsansätze – obwohl sie die internen Wissensrepräsentationen eines…
arXiv – cs.AI