Robust Layerwise Scaling Rules by Proper Weight Decay Tuning
Anzeige
Ähnliche Artikel
arXiv – cs.LG
•
Neuer Ansatz: Gewichtungsabklingung neu: Lernrate² statt Lernrate stabilisiert Training
arXiv – cs.LG
•
Matrix-Preconditionierte Optimierer liefern stabile Geschwindigkeitsvorteile Skalierung
arXiv – cs.LG
•
DP-AdamW: Neue Optimierer für privates Deep Learning zeigen überlegene Leistung
Gary Marcus – Marcus on AI
•
Generative KI verliert an Dynamik: 5 Anzeichen für sinkende Nutzung
arXiv – cs.AI
•
Understanding Generative Recommendation with Semantic IDs from a Model-scaling View
arXiv – cs.LG
•
Predicting Training Re-evaluation Curves Enables Effective Data Curriculums for LLMs