Forschung
GPT-2-Modelle zeigen 'Attention Sink': Mechanistische Analyse enthüllt Ursachen
In der Welt der Transformer‑Modelle tritt häufig ein Phänomen namens „Attention Sink“ auf: ein überproportional hoher Fokus auf die erste P…
arXiv – cs.LG