Neue Methode erkennt kontaminierte VLMs durch semantische Störung

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Vision‑Language‑Modelle (VLMs) haben in den letzten Jahren beeindruckende Ergebnisse auf zahlreichen Benchmark‑Aufgaben erzielt. Doch die Nutzung von internet‑Skalen‑Korpora, die oft proprietär sind, wirft ein ernstes Problem auf: die Gefahr von Test‑Set‑Leckagen, die die Leistung künstlich anheben.

Während frühere Studien sich auf die Bereinigung von Trainingsdaten oder die Neugestaltung von Benchmarks konzentrierten, blieb die Entwicklung von Detektionsmethoden für kontaminierte VLMs weitgehend unerforscht. In dieser Arbeit wurden Open‑Source‑VLMs gezielt auf populären Benchmarks kontaminiert, um die Wirksamkeit bestehender Ansätze zu prüfen. Die Ergebnisse zeigten, dass die meisten aktuellen Detektionsverfahren entweder komplett versagen oder inkonsistente Ergebnisse liefern.

Um diesem Problem zu begegnen, wird ein neuer, einfacher Ansatz vorgestellt, der auf multi‑modaler semantischer Perturbation basiert. Durch gezielte Störungen der semantischen Inhalte wird gezeigt, dass kontaminierte Modelle ihre Generalisierungsfähigkeit verlieren. Die Methode wurde auf verschiedenen realistischen Kontaminationsstrategien getestet und erwies sich als robust und effektiv.

Der zugehörige Code sowie die perturbed‑Dataset werden öffentlich zugänglich gemacht, sodass die Community die Ergebnisse reproduzieren und weiterentwickeln kann.

Ähnliche Artikel