TheoremForge: Kosten‑effiziente Daten‑Synthese für formale Mathematik
In der formalen Mathematik sind agentische Arbeitsabläufe oft zu teuer, was die Erstellung großer, offener Datensätze erschwert. Mit dem neuen Tool TheoremForge wird dieses Problem angegangen. Die Pipeline zerlegt die Formalisierung in fünf klar definierte Schritte: Aussage‑Formalisation, Beweiserzeugung, Prämissen‑Auswahl, Beweiskorrektur und Beweis‑Skizzierung.
Ein zentrales Merkmal ist die Decoupled Extraction Strategy, die aus komplett fehlgeschlagenen Durchläufen dennoch brauchbare Trainingssignale extrahiert. Dadurch wird die Rechenleistung effizienter genutzt und die Datenmenge erhöht.
In Tests mit einem Benchmark von 2.000 Aufgaben erzielte TheoremForge eine verifizierte Erfolgsrate von 12,6 % – deutlich höher als die 8,6 % des bisherigen Baselines. Der durchschnittliche Kostenaufwand pro erfolgreicher Durchlauf beträgt dabei lediglich $0,481 (Gemini‑3‑Flash). Zudem steigert die neue Strategie die Datenproduktion für Beweiserzeugung um das 1,6‑fache im Vergleich zu herkömmlichen Filtermethoden.
Diese Ergebnisse zeigen, dass TheoremForge ein skalierbares Fundament bildet, um einen Daten‑Flywheel zu schaffen, der zukünftige Expertenmodelle trainiert. Der komplette Code ist unter GitHub verfügbar.