D-CAT: Sensorübergreifender Transfer für ein‑Sensor‑Inferezen
Eine neue Methode namens Decoupled Cross‑Attention Transfer (D‑CAT) ermöglicht es, Wissen zwischen verschiedenen Sensortypen zu übertragen, ohne dass alle Sensoren gleichzeitig anwesend sein müssen. Das spart Hardware‑Kosten und macht komplexe Wahrnehmungssysteme in ressourcenbeschränkten Umgebungen praktikabler.
D‑CAT kombiniert ein selbst‑aufmerksamkeit‑basiertes Feature‑Extraktionsmodul mit einem innovativen Cross‑Attention‑Alignment‑Verlust. Durch diesen Verlust werden die Merkmalsräume der einzelnen Sensoren ausgerichtet, ohne dass die Klassifikationspipelines der beiden Modalitäten gekoppelt werden müssen. So kann ein Modell, das mit Video‑Daten trainiert wurde, seine Erkenntnisse auf ein IMU‑Modell übertragen – und umgekehrt.
In Tests mit drei multimodalen Datensätzen für die menschliche Aktivitätserkennung (IMU, Video und Audio) zeigte D‑CAT beeindruckende Ergebnisse. Bei in‑Distribution‑Szenarien erzielte der Transfer von leistungsstarken Modalitäten wie Video zu IMU bis zu 10 % höhere F1‑Scores als reine unimodale Modelle. Auch in Out‑of‑Distribution‑Szenarien half ein schwächerer Quellmodus, die Zielleistung zu verbessern, solange das Zielmodell nicht überangepasst war.
Durch die Möglichkeit, mit nur einem Sensor zu arbeiten und gleichzeitig von Wissen anderer Modalitäten zu profitieren, reduziert D‑CAT die Notwendigkeit redundanter Hardware. Das ist besonders wichtig für kostensensitive oder adaptive Einsatzszenarien, in denen Genauigkeit und Effizienz Hand in Hand gehen müssen.