DCER: Kompression & energiesbasierte Rekonstruktion für multimodale Fusion
Die neu vorgestellte Methode DCER (Dual-Stage Compression and Energy-Based Reconstruction) löst zwei zentrale Schwachstellen der multimodalen Fusion: Rauschen in den Eingaben und fehlende Modalitäten. Durch einen zweistufigen Ansatz werden sowohl die Qualität der Repräsentationen als auch die Zuverlässigkeit der Vorhersagen signifikant verbessert.
Im ersten Schritt erfolgt die Kompression auf zwei Ebenen. Innerhalb jeder Modality werden Frequenztransformationen eingesetzt – Wavelet‑Transformationen für Audio und DCT für Video – um Rauschen zu entfernen, während taskrelevante Muster erhalten bleiben. Anschließend zwingt ein cross‑modality Bottleneck‑Token die Modelle, echte Integration statt Modality‑spezifischer Abkürzungen zu nutzen. Für den Fall fehlender Modalitäten nutzt DCER eine energiesbasierte Rekonstruktion: Durch Gradientenabstieg auf einer lernenden Energiefunktion werden fehlende Repräsentationen rekonstruiert, wobei die finale Energie als intrinsische Unsicherheitsmetrik dient. Die Korrelation zwischen dieser Energie und dem Vorhersagefehler liegt bei über 0,72.
Experimentelle Ergebnisse auf den Benchmark‑Datensätzen CMU‑MOSI, CMU‑MOSEI und CH‑SIMS zeigen, dass DCER die bisher beste Performance erzielt. Das Modell präsentiert ein U‑förmiges Robustheitsmuster, das sowohl bei vollständigen als auch bei stark fehlenden Modalitäten Vorteile bietet. Der zugehörige Code wird auf GitHub veröffentlicht, sodass die Forschungsgemeinschaft die Methode leicht reproduzieren und weiterentwickeln kann.