Entstehung von Low‑Rank‑Trainingsdynamiken in MLPs mit glatten Aktivierungen
Ein neues arXiv‑Papier beleuchtet, wie große neuronale Netzwerke während des Trainings in stark reduzierten, niedrigdimensionalen Räumen arbeiten. Die Autoren zeigen, dass die Gewichtsdynamiken von Multi‑Layer‑Perceptrons (MLPs) unter Gradient‑Descent in invariantem, niedrigdimensionalem Unterraum konzentriert bleiben.
Im Fokus steht die theoretische Analyse von Zwei‑Layer‑Netzen mit glatten Nichtlinearitäten. Dort werden die betreffenden Unterräume exakt charakterisiert, was bisher in nichtlinearen Netzwerken kaum möglich war. Die Ergebnisse liefern einen klaren mathematischen Rahmen für das beobachtete Low‑Rank‑Phänomen.
Experimentelle Untersuchungen bestätigen, dass das Phänomen weit über die theoretischen Annahmen hinausreicht. Die Autoren demonstrieren, dass die Low‑Rank‑Dynamik auch bei komplexeren Architekturen und Aufgaben stabil bleibt.
Auf Basis dieser Erkenntnisse wird gezeigt, dass eine Low‑Rank‑Parameterisierung – wenn sie im passenden Unterraum initialisiert wird – die gleiche Klassifikationsleistung wie vollständig parameterisierte Modelle erzielt. Damit eröffnet das Papier neue Wege für effiziente Trainingstechniken und Modellkompression.