Data Darwinism: Wissenschaftliche Daten für KI-Training neu erschlossen
In einer wegweisenden Veröffentlichung auf arXiv wird das Konzept „Data Darwinism“ vorgestellt, das die Qualität von Daten als entscheidenden Faktor für die Leistung von Basismodellen hervorhebt und zugleich die fehlende systematische Verarbeitung von Daten adressiert.
Data Darwinism definiert eine zehnstufige Taxonomie (L0 bis L9), die die wechselseitige Entwicklung von Daten und Modellen beschreibt: Fortschrittliche Modelle erzeugen dabei verbesserte Daten, die wiederum die nächste Generation von KI-Systemen antreiben.
Zur Validierung des Ansatzes wurde der „Darwin-Science“-Korpus aufgebaut, der 900 Milliarden Tokens aus wissenschaftlicher Literatur umfasst und die Stufen L0 bis L5 abdeckt.
Die Analyse zeigte, dass rohes wissenschaftliches Textmaterial Lernschwierigkeiten aufweist. Diese Lücke wird durch die Stufen L4 (Generative Refinement) und L5 (Cognitive Completion) geschlossen, wobei modernste große Sprachmodelle eingesetzt werden, um Logik und Fachterminologie zu erklären.
Zur Gewährleistung einer strengen Vergleichbarkeit wurden die Modelle daVinci-origin-3B und 7B von Grund auf neu trainiert, wobei sämtliche wissenschaftlichen Inhalte ausgeschlossen wurden, um eine kontaminationsfreie Basis zu schaffen.
Nach 600 Milliarden Tokens zusätzlicher Vortrainingszeit übertraf der Darwin-Science‑Korpus die Baselines um +2,12 Punkte (3B) und +2,95 Punkte (7B) über mehr als 20 Benchmarks. Auf domänenspezifischen Aufgaben stiegen die Verbesserungen auf +5,60 bzw. +8,40 Punkte.
Die systematische Weiterentwicklung bis zur Stufe L5 erzielte einen Gesamtgewinn von +1,36 Punkten, was eindeutig zeigt, dass höhere Verarbeitungsebenen den latenten Wert von Daten freisetzen.
Der Korpus sowie die daVinci-origin‑Modelle werden veröffentlicht, um eine prinzipielle, ko-evolutionäre Weiterentwicklung von Daten und Modellen zu ermöglichen.