Dezentralisiertes Deep Learning skaliert: Benchmarking & adaptive Lösung
Ein neues arXiv‑Veröffentlichung (2509.12213v1) beleuchtet die bislang wenig erforschte Praxis des dezentralen Lernens. Trotz theoretischer Fortschritte fehlt es bislang an Stabilität, Skalierbarkeit und Generalität für den Einsatz in großem Maßstab.
Um diese Lücken zu schließen, stellt die Arbeit das Benchmarking‑Framework DBench vor, das sowohl zentralisierte als auch dezentralisierte DNN‑Trainingsumgebungen abbildet. Durch gezielte Variation von Kommunikationsgraphen und Trainingsgrößen werden Zusammenhänge zwischen Modellgenauigkeit und Parameter‑Tensor‑Varianzen systematisch untersucht.
Die Ergebnisse zeigen, dass dezentralisiertes Datenparalleltraining, ähnlich wie sein zentraler Gegenpart, bei zunehmender Größe Skalierungsprobleme aufweist. Zudem hängt die Genauigkeit stark von der Anzahl der Verbindungen im Kommunikationsgraphen ab und ist überraschend empfindlich gegenüber der Varianz der Parameter‑Tensoren über die Replikate hinweg.
Auf Basis dieser Erkenntnisse wird die adaptive Methode Ada vorgestellt. Ada passt den Kommunikationsgraphen dynamisch während der Trainingsepochen an und nutzt einen dezentralen SGD‑Ansatz. In großen Trainingsszenarien erzielt Ada konsequent die besten Konvergenzraten und liefert Ergebnisse, die mit zentralisierten Verfahren vergleichbar oder sogar überlegen sind.