MacrOData: Tausende neue Datensätze für robuste Tabellenausreißer-Erkennung

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Die Forschung zur Ausreißererkennung in tabellarischen Daten erhält einen bedeutenden Schub: Mit dem neuen Benchmark‑Set MacrOData werden nun über 2 400 sorgfältig kuratierte Datensätze zur Verfügung gestellt. Diese Sammlung übersteigt das bisherige Standardwerk AdBench, das lediglich 57 Datensätze umfasst, deutlich und bietet dadurch eine viel größere Vielfalt und statistische Aussagekraft.

MacrOData gliedert sich in drei Hauptkomponenten. OddBench enthält 790 reale Datensätze, die semantische Anomalien aufweisen; OvrBench bietet 856 Datensätze mit realen statistischen Ausreißern; SynBench liefert 800 synthetisch generierte Datensätze, die unterschiedliche Datenprioritäten und Ausreißer‑Archetypen abdecken. Für jedes Dataset sind standardisierte Train‑/Test‑Splits definiert, und es existieren öffentliche sowie private Benchmark‑Partitionen mit versteckten Test‑Labels, die für ein Online‑Leaderboard vorgesehen sind. Zusätzlich werden semantische Metadaten bereitgestellt, die die Analyse erleichtern.

In umfangreichen Experimenten wurden sämtliche Benchmarks mit einer breiten Palette von Ausreißererkennungs‑Methoden getestet – von klassischen Algorithmen über Deep‑Learning‑Ansätze bis hin zu Foundation‑Modellen. Die Ergebnisse liefern detaillierte empirische Erkenntnisse und praxisnahe Richtlinien, die Forschern und Anwendern helfen, fundierte Entscheidungen bei der Auswahl und Anpassung von Modellen zu treffen.

Ähnliche Artikel