Diagonal-SSM-Initialisierung enthüllt Frequenzbias – neue S4D-DFouT-Variante

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In der Welt der Zustandsraummodelle (SSMs) dominierte bislang das HiPPO‑Framework als Standard für die Initialisierung der Modellparameter. Dieses Verfahren nutzt eine Online‑Approximation orthogonaler Polynome, um die Lernkurve zu steuern. Kürzlich haben jedoch diagonale Alternativen gezeigt, dass sie ein vergleichbares Leistungsniveau erreichen, dabei aber deutlich effizienter sind, weil die Kernel‑Berechnung stark vereinfacht wird.

Die Autoren dieses neuen Beitrags haben die bislang wenig beleuchtete Rolle der diagonalen Initialisierung aus einer Frequenzperspektive untersucht. Sie zeigen, wie die Pole in der Initialisierung die Lernbiases von SSMs prägen und stellen eine neue Methode vor: die diagonale Initialisierung im diskreten Fourier‑Bereich, genannt S4D‑DFouT.

Durch die gezielte Platzierung der Pole lässt sich das Modell nicht nur besser skalieren, sondern auch auf dem Long‑Range‑Arena‑Benchmark die bisher beste Leistung erzielen. Darüber hinaus ermöglicht die neue Technik das Training von Grund auf bei extrem großen Datensätzen – ein Beispiel dafür ist das PathX‑256‑Dataset.

Ähnliche Artikel