Forschung
DAPA: Schnellere, ressourcenschonende Aktivierungsfunktionen für Transformer
DAPA (Distribution‑Aware Piecewise Activation) ist eine neue, differenzierbare Aktivierungsfunktion, die speziell für Transformer‑Modelle e…
arXiv – cs.LG