Open Deep Research Agent erreicht mit ODR+ 10 % Erfolg bei neuem Benchmark

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Deep Research Agents (DRAs) sind KI‑Systeme, die aus einer natürlichen Sprachaufforderung des Nutzers eigenständig im Internet nach relevanten Informationen suchen und diese nutzen, um die Aufgabe zu lösen. Obwohl aktuelle DRAs beeindruckende Leistungen auf öffentlichen Benchmarks zeigen, sind die meisten dieser Systeme proprietär und nicht offen zugänglich.

In der vorliegenden Studie wurde das neue, offene DRA‑System Open Deep Research (ODR) mit dem anspruchsvollen BrowseComp‑Benchmark verglichen. Um die Rechenanforderungen für akademische Labore zu reduzieren, wurde ein kleinerer Teil des Benchmarks – BrowseComp‑Small (BC‑Small) – entwickelt. Auf diesem Testset mit 60 Fragen erzielten ODR, ein System von Anthropic und ein System von Google jeweils 0 % Genauigkeit.

Durch die Einführung dreier gezielter Verbesserungen wurde ODR zu ODR+ weiterentwickelt. Das neue Modell erreichte damit einen Rekordwert von 10 % Erfolgsrate auf BC‑Small und übertraf damit sowohl die offenen als auch die geschlossenen Systeme. Ablationsstudien zeigten, dass jede der drei Verbesserungen einen wesentlichen Beitrag zum Erfolg von ODR+ leistete.

Ähnliche Artikel