R-4B: Automatisches Denken in multimodalen Modellen – effizienter & genauer

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Ein neues multimodales Sprachmodell namens R‑4B hat die Art und Weise, wie KI komplexe Aufgaben löst, revolutioniert. Durch die Kombination von „Thinking“ und „Non‑Thinking“ Modus kann R‑4B selbst entscheiden, ob ein Problem eine ausführliche Schritt‑für‑Schritt‑Analyse erfordert oder ob eine schnelle Antwort ausreicht. Diese adaptive Entscheidungsfindung reduziert unnötige Rechenaufwand und steigert gleichzeitig die Genauigkeit.

Der Kernmechanismus von R‑4B ist das sogenannte Bi‑Mode Annealing, das das Modell mit beiden Denk‑ und Nicht‑Denken‑Modi gleichzeitig trainiert. Anschließend wird die Leistung mit Bi‑Mode Policy Optimization (BPO) verfeinert, wobei ein verbessertes GRPO‑Framework eingesetzt wird. In diesem zweiten Trainingsschritt wird das Modell gezwungen, für jede Eingabe sowohl Denk‑ als auch Nicht‑Denken‑Antworten zu generieren, wodurch die Fähigkeit zur Moduswahl weiter geschärft wird.

Die Ergebnisse sprechen für sich: Auf 25 anspruchsvollen Benchmarks erreicht R‑4B einen neuen Stand der Technik. Es übertrifft das Modell Qwen2.5‑VL‑7B in den meisten Aufgaben und erreicht bei rechenintensiven Reasoning‑Tests eine Leistung, die mit größeren Modellen wie Kimi‑VL‑A3B‑Thinking‑2506 (16 B) vergleichbar ist – und das zu deutlich geringeren Kosten.

Ähnliche Artikel