ChromouVQA: Neues Benchmark für Vision‑Language‑Modelle mit chromatischer Tarnung
Vision‑Language‑Modelle (VLMs) haben die multimodale Verarbeitung von Bild- und Textdaten revolutioniert, stoßen jedoch bei der Erkennung von Objekten in stark verunreinigten Hintergründen noch immer an ihre Grenzen. Um…