Open-Source-Vision‑Language‑Modell P1‑VL erzielt Rekord bei Physik‑Olympiaden
Ein neues Open‑Source-Visionsprache-Modell namens P1‑VL hat die Grenzen der wissenschaftlichen Argumentation in Physik‑Olympiaden neu definiert. Durch die Kombination von Bild‑ und Textverständnis kann das System komplexe physikalische Diagramme nicht nur erkennen, sondern auch logisch interpretieren.
In der Physik ist die Einhaltung der Naturgesetze entscheidend. Diagramme enthalten oft entscheidende Einschränkungen wie Randbedingungen und Symmetrien, die im Text allein nicht ersichtlich sind. P1‑VL verbindet diese visuellen Hinweise mit abstraktem logischem Denken, um physikalisch konsistente Lösungen zu generieren.
Die technische Basis von P1‑VL besteht aus Curriculum‑Reinforcement‑Learning, das die Schwierigkeit schrittweise erhöht, und Agentic Augmentation, das eine iterative Selbstverifikation während der Inferenz ermöglicht. Diese Kombination stabilisiert das Modell nach dem Training und verbessert die Genauigkeit bei komplexen Aufgaben.
Auf dem HiPhO‑Benchmark, der 13 Prüfungen aus den Olympiaden 2024‑2025 umfasst, erzielte das Flagship-Modell P1‑VL‑235B‑A22B 12 Goldmedaillen – ein Rekord für Open‑Source-Visionsprache‑Modelle. Es belegte den zweiten Platz weltweit, nur hinter Gemini‑3‑Pro, und setzte damit neue Maßstäbe für die Leistungsfähigkeit von frei verfügbaren Modellen.
Darüber hinaus demonstriert P1‑VL eine bemerkenswerte Fähigkeit zum wissenschaftlichen Denken in Bereichen jenseits der Physik. In verschiedenen STEM‑Benchmarks übertrifft es Basismodelle deutlich, was seine Vielseitigkeit und Anwendbarkeit in der Forschung unterstreicht.
Durch die Open‑Source‑Veröffentlichung bietet P1‑V L eine solide Grundlage für zukünftige Entwicklungen in der multimodalen KI und fördert die Weiterentwicklung von Modellen, die sowohl visuelle als auch logische Kompetenzen in wissenschaftlichen Kontexten besitzen.