KI News: Kurz und klar.

Anmelden

MMSearch-Plus: A Simple Yet Challenging Benchmark for Multimodal Browsing Agents

arXiv – cs.AI • 01.09.2025 05:00 • Original

#MMSearch-Plus #Multimodale Sprachmodelle #visuelles Denken #räumlich-zeitliche Extrapolation #Bildsuche #Werkzeugnutzung

Anzeige

Ähnliche Artikel

PyTorch – Blog • 06.11.2025 00:05

KernelFalcon: Autonomous GPU Kernel Generation via Deep Agents

MarkTechPost • 05.11.2025 18:00

How to Build a Model-Native Agent That Learns Internal Planning, Memory, and Multi-Tool Reasoning Through End-to-End Reinforcement Learning

arXiv – cs.AI • 03.11.2025 05:00

Visual Backdoor Attacks on MLLM Embodied Decision Making via Contrastive Trigger Learning

arXiv – cs.LG • 03.11.2025 05:00

SmoothGuard: Defending Multimodal Large Language Models with Noise Perturbation and Clustering Aggregation

arXiv – cs.AI • 29.10.2025 04:00

FunReason-MT Technical Report: Overcoming the Complexity Barrier in Multi-Turn Function Calling

arXiv – cs.LG • 22.10.2025 05:00

UniRL-Zero: Reinforcement Learning on Unified Models with Joint Language Model and Diffusion Model Experts