VIPER-R1: Multimodales Modell entdeckt physikalische Formeln aus Bildern
Die automatisierte Entdeckung fundamentaler physikalischer Gesetze aus Beobachtungsdaten gilt als einer der größten Herausforderungen der künstlichen Intelligenz. Bisherige Ansätze, die sich auf symbolische Regression oder große Sprachmodelle stützen, beschränken sich meist auf ein einziges Modalität und vernachlässigen die reichhaltigen visuellen Darstellungen von Bewegungen, die für Physiker unverzichtbar sind.
Mit dem neuen Modell VIPER‑R1 (Visual Induction for Physics-based Equation Reasoning) wird dieses Defizit behoben. Das System kombiniert Bildverarbeitung, Trajektorienanalyse und symbolisches Denken, um den wissenschaftlichen Entdeckungsprozess nachzuahmen. Durch ein schrittweises Curriculum namens Motion Structure Induction lernt VIPER‑R1 zunächst, kinematische Phasenporträts zu interpretieren und Hypothesen mittels einer Causal Chain of Thought zu generieren. Anschließend wird die Formelstruktur mit Reward‑Guided Symbolic Calibration unter Einsatz von Reinforcement Learning verfeinert.
Im Inferenzmodus agiert VIPER‑R1 als eigenständiger Agent: Er schlägt zunächst ein hochvertrauenswürdiges symbolisches Modell vor und ruft anschließend ein externes Symbolic‑Regression‑Tool auf, um die Residuen zu realignieren – ein Verfahren, das der perturbativen Analyse eines Physikers entspricht. Durch diese Kombination aus visueller Induktion und symbolischer Feinjustierung wird die Übereinstimmung zwischen theoretischem Modell und empirischen Daten deutlich verbessert.
Zur Unterstützung der Forschung wurde der neue multimodale Korpus PhysSymbol mit 5.000 Instanzen eingeführt. Erste Experimente zeigen, dass VIPER‑R1 die bisherigen Ansätze konsequent übertrifft und damit einen bedeutenden Fortschritt in der automatisierten Gesetzesentdeckung darstellt.