Optimale Low‑Rank‑Schätzung für effizientes LLM‑Training
Das Training großer Sprachmodelle (LLMs) wird häufig durch Speicherengpässe und Rausch‑Stochastische Gradienten in hochdimensionalen Parameter‑Räumen begrenzt. Untersuchungen zeigen, dass viele Gradient‑Matrixen während…