Forschung
<h1>Skalierung erhöht kritische semantische Duplikate im Pretraining</h1> <p>In der KI‑Forschung wird deutlich, dass Datenduplikate während des Pretrainings die Generalisierung von Modellen stark beeinträchtigen können. Besonders bei Web‑Skalen wird die Definition eines „Duplikats“ komplexer: Neben offensichtlichen Text‑Übereinstimmungen können semantisch gleichwertige Dokumente – etwa Übersetzungen – zu redundanten Trainingssignalen führen, sobald Modelle leistungsfähiger werden.</p> <p>Die Studie zeigt,
arXiv – cs.LG