KI News: Kurz und klar.

Anmelden

Robust Layerwise Scaling Rules by Proper Weight Decay Tuning

arXiv – cs.LG • 20.10.2025 05:00 • Original

#Scaling Laws #maximal-update parameterization #AdamW #weight decay #sublayer gain #width scaling

Anzeige

Ähnliche Artikel

arXiv – cs.LG • 10.12.2025 05:00

Neuer Ansatz: Gewichtungsabklingung neu: Lernrate² statt Lernrate stabilisiert Training

arXiv – cs.LG • 08.12.2025 05:00

Matrix-Preconditionierte Optimierer liefern stabile Geschwindigkeitsvorteile Skalierung

arXiv – cs.LG • 12.11.2025 05:00

DP-AdamW: Neue Optimierer für privates Deep Learning zeigen überlegene Leistung

Gary Marcus – Marcus on AI • 22.10.2025 20:16

Generative KI verliert an Dynamik: 5 Anzeichen für sinkende Nutzung

arXiv – cs.AI • 01.10.2025 05:00

Understanding Generative Recommendation with Semantic IDs from a Model-scaling View

arXiv – cs.LG • 01.10.2025 05:00

Predicting Training Re-evaluation Curves Enables Effective Data Curriculums for LLMs