DR$^{3}$-Eval: Realistische Benchmark für Deep Research Agents
Deep Research Agents (DRAs) sollen komplexe, langfristige Forschungsaufgaben lösen, indem sie Planung, Abruf, multimodales Verständnis und Berichtserstellung kombinieren. Doch die Bewertung dieser Agenten gestaltet sich…