Neue Optimierungstheorie erklärt Hyperparameter‑Skalierung für große Modelle
In einer kürzlich veröffentlichten Arbeit auf arXiv wird gezeigt, wie moderne Optimierungstheorie die Skalierung von Hyperparametern für große neuronale Netzwerke systematisch erklärt. Die Autoren konzentrieren sich dab…