Text‑zu‑Bild‑Modelle lassen sich leicht identifizieren – Gefahr für Leaderboards
Generative‑AI‑Leaderboards, die die Leistungsfähigkeit von Modellen bewerten, sind ein zentrales Instrument in der Forschung, aber gleichzeitig ein Ziel für Manipulationen. Besonders gefährlich ist die Rangmanipulation, bei der ein Angreifer die Modelle hinter den angezeigten Ausgaben erst deanonymisieren muss – ein Problem, das bereits bei großen Sprachmodellen (LLMs) untersucht wurde.
In einer neuen Studie wurden über 150.000 generierte Bilder aus 280 unterschiedlichen Prompts und 19 Modellen – von verschiedenen Organisationen, Architekturen und Größen – analysiert. Die Forscher zeigten, dass eine einfache Echtzeit‑Klassifikation im CLIP‑Einbettungsraum die erzeugende Modellidentität mit hoher Genauigkeit bestimmen kann, selbst ohne Kontrolle über die Prompts oder historische Daten. Zusätzlich wurde ein Prompt‑Level‑Separabilitätsmaß eingeführt, das bestimmte Prompts identifiziert, die nahezu perfekte Deanonymisierung ermöglichen.
Die Ergebnisse verdeutlichen, dass die Manipulation von Ranglisten in Text‑zu‑Bild‑Leaderboards leichter ist, als bisher angenommen. Dies unterstreicht die dringende Notwendigkeit, robustere Schutzmechanismen zu entwickeln, um die Integrität solcher Leaderboards zu gewährleisten und die Forschung vor gezielten Angriffen zu schützen.