BackdoorAgent: Einheitliches Framework gegen Backdoor-Angriffe in LLM-Agenten
Moderne Sprachmodell‑Agenten erledigen Aufgaben über komplexe, mehrstufige Workflows, die Planung, Gedächtnis und Tool‑Nutzung kombinieren. Diese Autonomie eröffnet zwar neue Anwendungsmöglichkeiten, erweitert aber gleichzeitig die Angriffsfläche für Backdoor‑Bedrohungen erheblich.
Backdoor‑Trigger, die in einzelne Phasen eines Agenten‑Workflows eingebettet werden, können sich über mehrere Zwischenschritte hinweg ausbreiten und die Endausgabe nachhaltig beeinflussen. Bisher wurden solche Angriffe meist isoliert untersucht, sodass die Wechselwirkungen zwischen den Stufen kaum verstanden werden.
Mit dem neuen Framework BackdoorAgent wird diese Lücke geschlossen. Das System ist modular aufgebaut und berücksichtigt explizit die drei Kernstufen eines Agenten: Planung, Gedächtnis und Tool‑Nutzung. Durch gezielte Instrumentierung der Ausführung können Forscher Trigger‑Aktivierungen und deren Weiterleitung systematisch analysieren.
Zur Demonstration wurde ein standardisiertes Benchmark‑Set entwickelt, das vier repräsentative Agentenanwendungen abdeckt: Agent QA, Agent Code, Agent Web und Agent Drive – sowohl reine Sprach‑ als auch multimodale Szenarien. Die experimentellen Ergebnisse zeigen deutlich, dass ein Trigger, der in einer einzigen Stufe implantiert wird, über mehrere Schritte hinweg bestehen bleibt und sich über Zwischenzustände hinweg ausbreitet. In Tests mit einem GPT‑basierten Kernmodell wurde dies besonders stark beobachtet.
BackdoorAgent liefert damit einen einheitlichen, agentenzentrierten Ansatz, um Backdoor‑Angriffe in LLM‑Agenten zu identifizieren und zu verstehen. Die Erkenntnisse legen nahe, dass Sicherheitsmaßnahmen frühzeitig in allen Workflow‑Stufen integriert werden müssen, um die Integrität autonomer Sprachmodelle zu gewährleisten.