Effiziente Symbolische Regression dank Foundation-Model-Distillation

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Die Entdeckung von mathematischen Gleichungen aus Messdaten – auch als symbolische Regression bekannt – ist ein zentrales Werkzeug für die wissenschaftliche Forschung. Sie ermöglicht es, physikalische, biologische und ökonomische Prozesse transparent zu modellieren. Doch wenn große, vortrainierte Foundation‑Modelle auf kleine, domänenspezifische Datensätze angewendet werden, treten häufig negative Transfereffekte auf und die Modelle generalisieren schlecht.

In dem neuen Beitrag wird EQUATE vorgestellt, ein daten‑effizientes Fine‑Tuning‑Framework, das Foundation‑Modelle für die symbolische Gleichungserkennung in Low‑Data‑Umgebungen mittels Distillation anpasst. EQUATE kombiniert eine symbolisch-numerische Ausrichtung mit einer evaluator‑gesteuerten Optimierung der Embeddings. Dadurch entsteht ein prinzipielles Embedding‑Such‑Generierungsparadigma, das die diskrete Gleichungssuche in eine kontinuierliche Optimierungsaufgabe in einem gemeinsamen Embedding‑Raum überführt.

Die Optimierung wird dabei von der Fitness der Gleichung zu den Daten sowie von ihrer Einfachheit geleitet. Auf den drei Standard‑Benchmarks Feynman, Strogatz und diversen Black‑Box‑Datensätzen konnte EQUATE konsequent die führenden Baselines in Genauigkeit und Robustheit übertreffen, während die Modelle gleichzeitig eine niedrige Komplexität und schnelle Inferenzzeiten beibehalten. Diese Ergebnisse zeigen, dass EQUATE eine praktikable und generalisierbare Lösung für daten‑effiziente symbolische Regression in Foundation‑Model‑Distillation‑Szenarien darstellt.

Ähnliche Artikel