Forschung
SCALe: Präzisere Vision‑Language‑Modelle durch Chain‑of‑Thought‑Training
Vision‑Language‑Modelle (VLMs) nutzen häufig ein zweistufiges Training: zunächst ein supervised fine‑tuning (SFT) und anschließend Reinforc…
arXiv – cs.AI