GPT-2-Modelle zeigen 'Attention Sink': Mechanistische Analyse enthüllt Ursachen
In der Welt der Transformer‑Modelle tritt häufig ein Phänomen namens „Attention Sink“ auf: ein überproportional hoher Fokus auf die erste Position eines Eingabevektors. In einer neuen Untersuchung wurden GPT‑2‑ähnliche…