DAPA: Schnellere, ressourcenschonende Aktivierungsfunktionen für Transformer
DAPA (Distribution‑Aware Piecewise Activation) ist eine neue, differenzierbare Aktivierungsfunktion, die speziell für Transformer‑Modelle entwickelt wurde. Sie nutzt die Verteilung der Vor‑Aktivierungsdaten, um die Rech…