ServiceNow präsentiert DRBench – realistische Benchmark für Deep-Research-Agenten

MarkTechPost Original ≈1 Min. Lesezeit
Anzeige

ServiceNow Research hat DRBench veröffentlicht, eine neue Benchmark und ein lauffähiges Umfeld, das die Leistungsfähigkeit von „Deep‑Research“-Agenten auf komplexen, offenen Unternehmensaufgaben bewertet. Ziel ist es, die Fähigkeit von KI-Systemen zu messen, Fakten aus öffentlichen Webquellen sowie aus privaten Unternehmensdaten zu extrahieren, zu verarbeiten und in korrekt zitierten Berichten zusammenzuführen.

Im Gegensatz zu herkömmlichen, ausschließlich webbasierten Testumgebungen stellt DRBench heterogene, unternehmenstypische Arbeitsabläufe bereit. Dazu gehören Dateien, E‑Mails, Chat‑Logs und Cloud‑Speicher. Agenten müssen daher nicht nur Informationen suchen, sondern auch filtern, filtern und eindeutig zuordnen, um die geforderten Berichte zu erstellen.

Mit DRBench liefert ServiceNow ein praxisnahes Werkzeug, das die Entwicklung von KI‑Agenten fördert, die in realen Unternehmensumgebungen arbeiten sollen. Die Benchmark ermöglicht es Forschern und Entwicklern, die Fortschritte in der Deep‑Research‑Technologie transparent und vergleichbar zu machen.

Ähnliche Artikel