VISION: Robustes und erklärbares Erkennen von Code‑Schwachstellen

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

Die automatisierte Erkennung von Schwachstellen in Quellcode ist ein zentrales Thema der Cybersicherheit, denn sie bildet die Basis für das Vertrauen in digitale Systeme. Graph Neural Networks (GNNs) haben sich als vielversprechende Methode etabliert, weil sie strukturelle und logische Zusammenhänge im Code lernen können. Ihre Leistung wird jedoch stark durch Ungleichgewichte in den Trainingsdaten und Rausch‑Labels eingeschränkt, sodass GNNs oft „spurious“ Korrelationen aus oberflächlichen Code‑Ähnlichkeiten übernehmen und bei neuen, realen Daten versagen.

Der neue Ansatz VISION (Robust and Interpretable Code Vulnerability Detection Leveraging Counterfactual Augmentation) adressiert dieses Problem, indem er ein einheitliches Framework entwickelt, das gezielt kontrafaktorische Trainingsdaten erzeugt. Zunächst werden mithilfe eines Large Language Models (LLM) Code‑Beispiele generiert, die nur minimale semantische Änderungen aufweisen, aber das gegenteilige Schwachstellen‑Label tragen. Anschließend erfolgt ein gezieltes GNN‑Training auf diesen gepaarten Beispielen, wodurch das Modell lernt, echte Zusammenhänge zu erkennen und nicht auf spurielle Muster zu setzen. Zusätzlich bietet VISION eine graphbasierte Interpretierbarkeit, die die entscheidenden Code‑Statements hervorhebt und spurious Features ignoriert.

Die Ergebnisse sind beeindruckend: Bei der Analyse der CWE‑20‑Schwachstelle steigt die Gesamt‑Genauigkeit von 51,8 % auf 97,8 %, die Paar‑Kontrast‑Genauigkeit von 4,5 % auf 95,8 % und die Worst‑Group‑Genauigkeit von 0,7 % auf 85,5 %. Darüber hinaus werden neue Metriken wie die intra‑Klassen‑Attributionsvarianz eingesetzt, um die Robustheit des Modells weiter zu quantifizieren. Diese Zahlen zeigen, dass VISION nicht nur die Lernleistung drastisch verbessert, sondern auch die Generalisierbarkeit auf unbekannte Daten erhöht.

Durch die Kombination aus kontrafaktischer Datenaugmentation, gezieltem GNN‑Training und erklärbarer Graph‑Analyse liefert VISION eine robuste und nachvollziehbare Lösung für die Schwachstellen‑Erkennung. Entwickler erhalten klare Hinweise darauf, welche Code‑Statements tatsächlich kritisch sind, während das Modell gleichzeitig weniger anfällig für spurielle Muster wird. Diese Fortschritte markieren einen wichtigen Schritt hin zu sichereren Software‑Entwicklungsprozessen und könnten die Grundlage für zukünftige Standards in der automatisierten Sicherheitsanalyse bilden.

Ähnliche Artikel