LLM-Modelle: Gewichtungsverteilung enthüllt neue Zusammenhänge
Ein neues arXiv‑Preprint (2509.00046v1) beleuchtet, wie die Gewichte in großen Sprachmodellen je nach Layer unterschiedlich verteilt sind und welche Folgen das für die Effektivität von LoRA‑Training hat. Die Autoren zeigen, dass die Kosinus‑Entfernungen zwischen den Gewichtsmatrizen verschiedener Schichten einer Power‑Law‑Verteilung folgen. Durch Singular‑Value‑Decomposition werden die Singularwerte der Query‑, Down‑ und anderen Projektionen extrahiert und in Matrizen gruppiert. Die Analyse der Verteilung dieser Entfernungen liefert ein qualitatives Bild der Gewichtungsverteilung in unterschiedlichen Modellen. Anschließend wird ein Datengenerator vorgestellt, der mittels einer Kombination aus Gaußschen Prozess‑ und Pareto‑Verteilungsfunktionen synthetische Gewichte erzeugt, die die beobachteten Verteilungsmuster widerspiegeln. Diese Erkenntnisse eröffnen neue Perspektiven für die gezielte Gestaltung von Modellen und die Optimierung von Low‑Rank‑Adaptations‑Techniken.