BeSafe-Bench enthüllt Sicherheitsrisiken von Agenten in realen Umgebungen
Die rasante Entwicklung großer multimodaler Modelle (LMMs) hat es Agenten ermöglicht, komplexe digitale und physische Aufgaben zu bewältigen. Gleichzeitig birgt ihre autonome Entscheidungsfindung erhebliche unbeabsichtigte Sicherheitsrisiken. Ein entscheidendes Hindernis war das Fehlen eines umfass…