RMNP: Schnellere Optimierung von Sprachmodellen durch Zeilen‑Normierung
Auf der Plattform arXiv wurde ein neuer Optimierer namens RMNP (Row‑Momentum Normalized Preconditioning) vorgestellt, der die Trainingsgeschwindigkeit großer Sprachmodelle deutlich steigert. Preconditioned adaptive Meth…
- Auf der Plattform arXiv wurde ein neuer Optimierer namens RMNP (Row‑Momentum Normalized Preconditioning) vorgestellt, der die Trainingsgeschwindigkeit großer Sprachmodel…
- Preconditioned adaptive Methoden haben in den letzten Jahren stark an Bedeutung gewonnen, weil sie die Krümmungsinformationen des Verlustlandschapes erfassen.
- Das zentrale Problem besteht darin, die Wirksamkeit der Preconditioner mit einer effizienten Implementierung in Einklang zu bringen.
Auf der Plattform arXiv wurde ein neuer Optimierer namens RMNP (Row‑Momentum Normalized Preconditioning) vorgestellt, der die Trainingsgeschwindigkeit großer Sprachmodelle deutlich steigert.
Preconditioned adaptive Methoden haben in den letzten Jahren stark an Bedeutung gewonnen, weil sie die Krümmungsinformationen des Verlustlandschapes erfassen. Das zentrale Problem besteht darin, die Wirksamkeit der Preconditioner mit einer effizienten Implementierung in Einklang zu bringen.
Der aktuelle Standard Muon nutzt die Newton‑Schulz‑Iteration, um preconditionierte Updates zu berechnen, ohne die Preconditioner‑Matrix explizit zu bilden. Trotz dieser Vorteile bleibt die Rechenkomplexität von Muon ein Engpass.
RMNP ersetzt die Newton‑Schulz‑Iteration durch eine einfache Zeilen‑weise ℓ₂‑Normierung. Diese Änderung reduziert die pro‑Iteration‑Komplexität von O(mn·min(m,n)) auf O(mn) für eine m×n‑Gewichtsmatrix, ohne die Optimierungsleistung zu beeinträchtigen.
Die Autoren zeigen theoretisch, dass RMNP im nicht‑konvexen Setting konvergiert und die Informationstheoretisch optimale Minimax‑Komplexität erreicht – ein Ergebnis, das mit den jüngsten Resultaten für Muon‑Optimierer vergleichbar ist.
Umfangreiche Experimente beim Pre‑Training großer Sprachmodelle demonstrieren, dass RMNP eine konkurrenzfähige Optimierungsleistung liefert und gleichzeitig die Wall‑Clock‑Zeit für die Preconditioning‑Berechnung erheblich senkt.
Der zugehörige Code ist öffentlich verfügbar, sodass Forscher und Entwickler die Methode sofort in ihren eigenen Projekten einsetzen können.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.