LLM-Architekturen im Penetration Testing: Leistungsbewertung und Schlüsselfähigkeiten
Large Language Models (LLMs) werden zunehmend eingesetzt, um Penetration‑Tests zu automatisieren oder zu unterstützen. Trotz ihrer wachsenden Verbreitung bleibt jedoch unklar, wie zuverlässig und effektiv sie in den verschiedenen Phasen eines Angriffs sind.
In einer umfassenden Studie wurden mehrere LLM‑basierte Agenten – von Einzelagenten bis hin zu modularen Systemen – in realistischen Penetration‑Testing‑Szenarien getestet. Dabei wurden die tatsächliche Leistung sowie wiederkehrende Fehlermuster systematisch erfasst.
Die Forscher isolierten gezielt fünf zentrale Funktionsfähigkeiten, die die Effektivität von LLM‑Agenten maßgeblich beeinflussen: Global Context Memory (GCM) für Kontextkohärenz, Inter‑Agent Messaging (IAM) für die Koordination zwischen Komponenten, Context‑Conditioned Invocation (CCI) zur präzisen Werkzeugauswahl, Adaptive Planning (AP) für mehrstufige Strategien und Real‑Time Monitoring (RTM) für dynamische Reaktionsfähigkeit.
Die Ergebnisse zeigen, dass zwar einige Architekturen bereits Teilmengen dieser Eigenschaften besitzen, jedoch gezielte Ergänzungen die Leistung modularer Agenten deutlich steigern. Besonders bei komplexen, mehrstufigen und Echtzeit‑Penetration‑Testing‑Aufgaben führen die Verbesserungen zu einer signifikanten Steigerung der Erfolgsquote und einer Reduktion von Fehlern.