OpenMMReasoner: Mehr multimodale KI‑Logik mit kleineren, smarteren Datensätzen
Forscher von MiroMind AI in Zusammenarbeit mit mehreren chinesischen Universitäten haben das neue Trainingsframework OpenMMReasoner vorgestellt, das die multimodale Denkfähigkeit von Sprachmodellen deutlich steigert. Durch einen zweistufigen Ansatz wird zunächst ein Basismodell mit einem sorgfältig zusammengestellten Datensatz in einer Supervised Fine‑Tuning‑Phase verfeinert. Anschließend leitet ein Reinforcement‑Learning‑Schritt das Modell an, komplexe Aufgaben, die Text und Bild kombinieren, noch effektiver zu lösen.
Experimentelle Ergebnisse zeigen, dass Modelle, die mit OpenMMReasoner trainiert wurden, führende visuelle Reasoning‑Modelle übertreffen – und das häufig bei deutlich kleineren, aber qualitativ hochwertigeren Datensätzen. Das komplette Framework sowie sämtliche Ressourcen, darunter ein bereits trainiertes 7‑Billionen‑Parameter‑Modell, sind vollständig Open Source. Dadurch erhalten Entwickler eine robuste Basis, die Transparenz, Nachvollziehbarkeit und Zuverlässigkeit garantiert.
Kaichen Zhang, Mitautor der zugehörigen Forschungsarbeit, betont die praktischen Vorteile für Unternehmen: Durch die geringere Modellgröße lassen sich OpenMMReasoner‑Modelle lokal einsetzen, was die Latenz reduziert, die Token‑Kosten senkt und die volle Kontrolle über die eigenen Daten ermöglicht. Gleichzeitig bleibt das Modell hochgradig anpassbar, sodass es exakt auf spezifische Anwendungsfälle zugeschnitten werden kann.
Die Fortschritte im Bereich Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) haben die Fähigkeit großer Sprachmodelle, logische Ketten zu bilden, erheblich verbessert. OpenMMReasoner nutzt diese Technik, um die Erzeugung von „Chain‑of‑Thought“-Tokens zu optimieren und damit die Qualität multimodaler Argumentation weiter zu erhöhen.