Mimetic Initialization: Neue Technik beschleunigt MLP-Training
In einer kürzlich veröffentlichten Studie auf arXiv wird die „Mimetic Initialization“ vorgestellt, die vortrainierte Modelle als Inspirationsquelle nutzt, um neue, einfache Initialisierungsmethoden zu entwickeln. Durch die Analyse von Strukturen in bereits trainierten Gewichten entstehen Ansätze, die das Training von neuronalen Netzen effizienter machen.
Bislang wurde die Methode ausschließlich auf räumliche Mischschichten wie Convolutional-, Self‑Attention- und State‑Space‑Layer angewendet. Das neue Papier erweitert den Ansatz nun auf Kanal‑Mischschichten, insbesondere auf Multilayer Perceptrons (MLPs). Dabei wird eine extrem einfache Technik eingesetzt: die erste Schicht erhält einen nicht‑null‑Mittelwert.
Ergebnisse zeigen, dass diese Anpassung das Training bei kleinen Bildklassifikationsaufgaben wie CIFAR‑10 und ImageNet‑1k deutlich beschleunigt. Obwohl der Effekt bei MLPs im Vergleich zu räumlichen Initialisierungen kleiner ausfällt, kann die Methode in Kombination mit bestehenden Techniken zusätzliche Vorteile bringen.