Medix: Median-basierte Methode verbessert OOD-Erkennung mit unlabelten Daten
Die Erkennung von Daten außerhalb des Trainingsbereichs (Out-of-Distribution, OOD) ist entscheidend für die Zuverlässigkeit von KI-Systemen in der Praxis. Neuere Ansätze nutzen unlabelte Daten, um die OOD-Erkennung zu stärken, doch die gemischte Zusammensetzung aus In-Distribution (InD) und OOD-Proben erschwert die effektive Nutzung.
Das neue Framework Medix löst dieses Problem, indem es die Medianoperation einsetzt, um potenzielle Ausreißer in unlabelten Datensätzen zu identifizieren. Der Median liefert eine stabile Schätzung der zentralen Tendenz und ist gegenüber Rauschen und Ausreißern robust, was ihn zu einem geeigneten Mechanismus für die OOD-Erkennung macht.
Die erkannten Ausreißer werden zusammen mit gelabelten InD-Daten verwendet, um einen robusten OOD-Klassifikator zu trainieren. Theoretisch werden Fehlergrenzen abgeleitet, die zeigen, dass Medix eine niedrige Fehlerquote erreicht. Praktische Tests bestätigen diese Erkenntnisse: Medix übertrifft bestehende Methoden in offenen Weltbedingungen und unterstreicht damit die Wirksamkeit der medianbasierten Strategie.