SCALe: Präzisere Vision‑Language‑Modelle durch Chain‑of‑Thought‑Training
Vision‑Language‑Modelle (VLMs) nutzen häufig ein zweistufiges Training: zunächst ein supervised fine‑tuning (SFT) und anschließend Reinforcement Learning (RL). Beim klassischen SFT tragen alle Tokens gleich zum Verlust…