Erklärung des Attention‑Sinks: Warum LLMs den ersten Token dominieren
In großen Sprachmodellen kommt es häufig vor, dass ein einzelner Token unverhältnismäßig viel Aufmerksamkeit erhält – ein Phänomen, das als Attention‑Sink bezeichnet wird. Die neue Studie zeigt, dass dieser Effekt beson…