Autoencoder mit Clustering: Neue Dimensionalitätsreduktion für Ensemble‑Daten

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Wissenschaftliche Ensemble‑Datensätze, die sich durch hohe Dimensionalität und Komplexität auszeichnen, stellen Analysten vor große Herausforderungen. Ein neues Autoencoder‑Framework, vorgestellt auf arXiv, kombiniert klassische Rekonstruktionsziele mit einem Clustering‑Loss, der auf dem weichen Silhouette‑Score basiert, sowie einem kontrastiven Loss. Durch diese Kombination werden ähnliche Datenpunkte im latenten Raum zusammengeführt, während unterschiedliche Cluster klar voneinander getrennt werden.

Zur Beschriftung der bislang unlabelten Teile der Datensätze nutzt das Verfahren EfficientNetV2, um Pseudo‑Labels zu generieren. Anschließend wird die latente Repräsentation mittels UMAP in zwei Dimensionen projiziert, wobei die Qualität der Projektion mit dem Silhouette‑Score bewertet wird. Verschiedene Autoencoder‑Architekturen wurden getestet, um die Fähigkeit zur Extraktion aussagekräftiger Merkmale zu vergleichen.

Die Experimente umfassen zwei reale wissenschaftliche Datensätze: Kanalstrukturen im Boden, die aus Markov‑Chain‑Monte‑Carlo‑Simulationen stammen, und die Dynamik von Tropfen auf Filmoberflächen. In beiden Fällen zeigen Modelle, die Clustering‑ oder kontrastive Losses einbeziehen, eine leichte, aber konsistente Verbesserung gegenüber herkömmlichen Ansätzen.

Ähnliche Artikel