Neuer Skalierungs­gesetz für Lernrate und Verlust in Deep Learning

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Deep Learning arbeitet mit einem nicht-konvexen Verlustlandscape, doch die Optimierungsdynamik zeigt sich empirisch konvexartig. In dieser Arbeit wird untersucht, wie Konvexität und Lipschitz‑Stetigkeit genutzt werden können, um die Verlustentwicklung durch Lernratenpläne präzise zu steuern.

Die Autoren zeigen, dass ein Modell nach kurzer Trainingszeit bereits schwach konvex wird und der Verlust durch eine obere Schranke des letzten Iterationswertes vorhergesagt werden kann. Daraus folgt ein Skalierungs­gesetz für die optimale Lernrate.

Durch die konvexitätsbasierte Analyse lassen sich Lernraten- und Verlustskalen ableiten, die sich über bis zu 80‑fach längere Trainingshorizonte und 70‑fach größere Modellgrößen extrapolieren lassen.

Diese Erkenntnisse liefern ein praktisches Werkzeug, um Lernratenstrategien zu optimieren und die Effizienz von Deep‑Learning‑Modellen signifikant zu steigern.

Ähnliche Artikel