Neues Stiefel-Manifold-Init für tiefe ReLU-Netze: Stabilere Trainingsleistung
Ein neues Initialisierungskonzept für tiefe ReLU‑Netze wurde vorgestellt, das die Trainingsstabilität deutlich verbessert. Durch die Optimierung einer orthogonalen Initialisierung auf der Stiefel‑Mannigfaltigkeit werden sowohl die Skalierung als auch die Voraktivierungsstatistiken von Anfang an kontrolliert. Das Verfahren verhindert das häufige Problem der „dying ReLU“ und reduziert die Abnahme der Aktivierungsvarianz, wodurch Gradient‑Vanishing‑Probleme gemildert werden.
Die Autoren präsentieren eine Familie geschlossener Lösungen sowie ein effizientes Sampling‑Schema, das ohne zusätzlichen Rechenaufwand in bestehende Trainingspipelines integriert werden kann. Theoretische Analysen zeigen, dass die Methode die Signal‑ und Gradientendurchflusswege in sehr tiefen Architekturen stabilisiert. Empirisch über MNIST, Fashion‑MNIST, mehrere tabellarische Datensätze, Few‑Shot‑Szenarien und verschiedene ReLU‑Familienaktivierungen übertrifft das neue Init bestehende Verfahren wie He, Xavier und klassische orthogonale Initialisierungen.
Damit eröffnet sich ein neuer Ansatz, um die Leistungsgrenzen tiefer neuronaler Netze zu verschieben und gleichzeitig die Trainingszeit zu verkürzen.