Neuer Skalierungsgesetz für Lernrate und Verlust in Deep Learning
Deep Learning arbeitet mit einem nicht-konvexen Verlustlandscape, doch die Optimierungsdynamik zeigt sich empirisch konvexartig. In dieser Arbeit wird untersucht, wie Konvexität und Lipschitz‑Stetigkeit genutzt werden können, um die Verlustentwicklung durch Lernratenpläne präzise zu steuern.
Die Autoren zeigen, dass ein Modell nach kurzer Trainingszeit bereits schwach konvex wird und der Verlust durch eine obere Schranke des letzten Iterationswertes vorhergesagt werden kann. Daraus folgt ein Skalierungsgesetz für die optimale Lernrate.
Durch die konvexitätsbasierte Analyse lassen sich Lernraten- und Verlustskalen ableiten, die sich über bis zu 80‑fach längere Trainingshorizonte und 70‑fach größere Modellgrößen extrapolieren lassen.
Diese Erkenntnisse liefern ein praktisches Werkzeug, um Lernratenstrategien zu optimieren und die Effizienz von Deep‑Learning‑Modellen signifikant zu steigern.