AHTSGD: Neuer Optimierer steigert Generalisierung neuronaler Netze
In der heutigen Ära großer neuronaler Netzwerke kämpfen Optimierungsalgorithmen häufig damit, dass die Modelle zu stark auf den Trainingsverlust fokussiert sind und dadurch die Generalisierung leidet. Forschungen zeigen, dass breite Minima – Bereiche um ein lokales Minimum, in denen der Verlust allmählich ansteigt – die Stabilität gegenüber kleinen Eingabe- oder Parameteränderungen erhöhen und somit die Generalisierung verbessern. Im Gegensatz dazu sind scharfe Minima empfindlicher und weniger robust.
Aus zwei wichtigen Beobachtungen resultiert der neue Ansatz Adaptive Heavy Tailed Stochastic Gradient Descent (AHTSGD). Erstens weist der Gradient-Noise bei stochastischem Gradientenabstieg eine schwere, heavy‑tailed Verteilung auf. Zweitens zeigt das sogenannte Edge‑of‑Stability‑Phänomen, dass die Krümmung während des Trainings zunächst zunimmt, bevor sie sich auf einem Plateau stabilisiert. AHTSGD nutzt diese Erkenntnisse, indem es zu Beginn des Trainings stärkeres, heavy‑tailed Rauschen in den Optimierer einführt, um die Exploration zu fördern, und das Rauschen allmählich auf leichtere Verteilungen reduziert, sobald die Schärfe des Verlustlandschapes abnimmt. Auf diese Weise passt sich der Algorithmus dynamisch an die aktuelle Topologie des Loss‑Spiegels an.
Erst der erste Optimierer, der die Art des injizierten Rauschens anhand des Edge‑of‑Stability‑Phänomens anpasst, hat sich in umfangreichen Benchmarks als überlegen erwiesen. AHTSGD übertrifft sowohl klassischen SGD als auch andere rauschbasierte Methoden auf MNIST, CIFAR‑10 und insbesondere auf stark verrauschten Datensätzen wie SVHN. Durch die beschleunigte Konvergenz in den frühen Trainingsphasen, selbst bei schlechten Initialisierungen, und die verbesserte Generalisierung liefert AHTSGD einen deutlichen Mehrwert für die Praxis des Deep Learning.