Microsoft präsentiert Methode zur Erkennung versteckter Backdoors in LLMs

AI News (TechForge) Original ≈1 Min. Lesezeit
Anzeige

Microsoft-Forscher haben eine neue Scanning-Technik vorgestellt, die verseuchte Sprachmodelle erkennen kann – selbst wenn weder der Trigger noch das beabsichtigte Ziel bekannt sind.

Organisationen, die Open‑Weight‑Large‑Language‑Models (LLMs) einsetzen, stehen vor einer speziellen Lieferketten‑Schwachstelle. Durch auffällige Speicherlecks und ungewöhnliche interne Aufmerksamkeitsmuster lassen sich versteckte Gefahren, sogenannte „sleeper agents“, aufdecken.

Diese verseuchten Modelle tragen latente Backdoors, die erst unter bestimmten Bedingungen aktiv werden. Die neue Methode ermöglicht es, solche Bedrohungen frühzeitig zu identifizieren und zu neutralisieren, bevor sie ausgenutzt werden können.

Ähnliche Artikel