Neues Benchmark CARV zeigt MLLM-Mangel bei analoger Bildlogik
Ein brandneues Benchmark namens CARV (Compositional Analogical Reasoning in Vision) wurde vorgestellt, um die Fähigkeit multimodaler Large Language Models (MLLMs) zur analogischen Logik genauer zu prüfen. CARV erweitert…