DEBA: Architekturabhängiges Batch‑Scheduling steigert Trainingseffizienz
Ein neues Verfahren namens DEBA (Dynamic Efficient Batch Adaptation) zeigt, dass die Wahl der Batch‑Größe beim Training von neuronalen Netzen stark von der jeweiligen Architektur abhängt. Statt einer einheitlichen Anpassungsstrategie nutzt DEBA Kennzahlen wie die Varianz der Gradienten, die Variation des Gradientennorms und die Verlustvariation, um die Batch‑Größe dynamisch zu steuern.
In einer umfangreichen Evaluation wurden sechs unterschiedliche Modelle – ResNet‑18, ResNet‑50, DenseNet‑121, EfficientNet‑B0, MobileNet‑V3 und ViT‑B16 – auf den Datensätzen CIFAR‑10 und CIFAR‑100 getestet. Für jede Konfiguration wurden fünf Zufallssamen verwendet, um die Ergebnisse zu stabilisieren. Die Ergebnisse zeigen, dass leichtgewichtige und mittelgroße Architekturen wie MobileNet‑V3, DenseNet‑121 und EfficientNet‑B0 die Trainingsgeschwindigkeit um 45 % bis 62 % steigern können, während gleichzeitig die Genauigkeit um 1 % bis 7 % verbessert wird.
Schwächere Residualnetze wie ResNet‑18 profitieren ebenfalls deutlich: Genauigkeitsgewinne von 2,4 % bis 4,0 % und Geschwindigkeitszuwächse von 36 % bis 43 % wurden beobachtet. Im Gegensatz dazu zeigen tiefere Residualnetze wie ResNet‑50 eine hohe Varianz in den Ergebnissen und können gelegentlich sogar schlechter abschneiden. Für bereits gut optimierte Modelle wie ViT‑B16 ist die Geschwindigkeit nur um etwa 6 % höher, die Genauigkeit bleibt jedoch unverändert.
DEBA liefert zudem ein Rahmenwerk zur Vorhersage, welche Architekturen von adaptivem Batch‑Scheduling profitieren. Durch die Messung von Gradient‑Stabilitätsmetriken – Stabilitätsscore und Gradient‑Norm‑Variation – lässt sich das Potenzial für Verbesserungen einschätzen. Ablationsstudien verdeutlichen, dass oft übersehene Design‑Entscheidungen, wie die Wahl des Sliding‑Window‑Parameters, entscheidend für den Erfolg sind.