Modality‑Decoupled Experts verhindern Modalfall bei multimodalen Modellen

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Ein neues Verfahren namens Modality‑Decoupled Experts (MoDE) löst ein bislang wenig beachtetes Problem in multimodalen Lernsystemen: das „inter‑modal“ Vergessen, bei dem ein Modell beim Erlernen neuer Aufgaben die Fähigkeiten einer anderen Modalität verliert. Gleichzeitig adressiert MoDE auch das bekannte „intra‑modal“ Vergessen, bei dem innerhalb einer Modalität Wissen verloren geht.

Die Autoren untersuchten Unified Multimodal Generative Models (UMGMs), die Bildverstehen und Bildgenerierung in einem einzigen autoregressiven Rahmen kombinieren. Durch gezielte Experimente zeigte sich, dass Gradientenkonflikte zwischen den Modalitäten die Ursache für das inter‑modal Vergessen sind. MoDE löst dieses Problem, indem es die Updates für jede Modalität in separaten Expertenschichten isoliert und gleichzeitig Knowledge‑Distillation einsetzt, um die vortrainierten Fähigkeiten zu bewahren.

In einer Reihe von Benchmark‑Tests übertraf MoDE bestehende kontinuierliche Lernmethoden deutlich, indem es sowohl intra‑ als auch inter‑modal Vergessen signifikant reduzierte. Der Ansatz ist leichtgewichtig, skalierbar und erfordert keine aufwändige Neu‑Architektur. Der Quellcode wird öffentlich zugänglich gemacht, sodass die Forschungsgemeinschaft die Ergebnisse reproduzieren und weiterentwickeln kann.

Ähnliche Artikel