EnterpriseBench: LLM-Agenten im Unternehmen auf die Probe gestellt

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Unternehmenssoftware ist entscheidend für die Produktivität und Entscheidungsfindung von Mitarbeitern und Kunden. Durch die Integration von Large‑Language‑Model‑basierten Systemen können Unternehmen intelligente Automatisierung, personalisierte Erlebnisse und effiziente Informationsbeschaffung realisieren, was die operative Effizienz steigert und strategisches Wachstum fördert.

Die Entwicklung und Bewertung solcher Systeme gestaltet sich jedoch schwierig, weil Unternehmensumgebungen komplex sind: Daten sind über zahlreiche Quellen verstreut und unterliegen strengen Zugriffskontrollen. Um diese Herausforderungen zu adressieren, wurde EnterpriseBench entwickelt – ein umfassender Benchmark, der reale Unternehmensbedingungen simuliert.

EnterpriseBench umfasst 500 vielfältige Aufgaben aus den Bereichen Softwareentwicklung, Personalwesen, Finanzen und Verwaltung. Der Benchmark erfasst zentrale Unternehmensmerkmale wie fragmentierte Datenquellen, hierarchische Zugriffsrechte und abteilungsübergreifende Arbeitsabläufe. Zusätzlich stellt ein neuartiger Daten‑Generierungs‑Pipeline konsistente Aufgaben aus organisatorischen Metadaten bereit.

Experimentelle Tests mit hochmodernen LLM‑Agenten zeigen, dass selbst die leistungsfähigsten Modelle lediglich 41,8 % der Aufgaben erfolgreich abschließen. Diese Ergebnisse unterstreichen die erheblichen Verbesserungs­potenziale für KI‑Systeme, die speziell auf Unternehmensanforderungen zugeschnitten sind.

Ähnliche Artikel