Modulare Embedding-Rekomposition verbessert kontinuierliches Lernen
Die neueste Veröffentlichung auf arXiv (2508.16463v1) präsentiert MoDER – ein innovatives Verfahren, das die Zero‑Shot‑Fähigkeiten von Vision‑Language‑Modellen (VLMs) nicht nur erhält, sondern aktiv verbessert. Durch die Kombination mehrerer textbasierter Experten, die jeweils auf eine bekannte Klasse spezialisiert sind, schafft MoDER ein flexibles Hub‑System, aus dem bei der Klassifizierung unbekannter Klassen passende Experten abgerufen und zu einem verfeinerten Prototypen zusammengesetzt werden.
Im Gegensatz zu bisherigen Ansätzen, die sich ausschließlich auf die Erhaltung der Zero‑Shot‑Leistung konzentrieren, nutzt MoDER diese Stärken gezielt, um die Leistung bei neuen, noch nicht gesehenen Klassen zu steigern. Die Methode wurde auf den beiden führenden Zero‑Shot‑Incremental‑Learning‑Protokollen – Class‑IL und MTIL – getestet und zeigte über 14 verschiedene Datensätze hinweg signifikante Verbesserungen.
Die Autoren betonen, dass MoDER besonders für reale Anwendungen geeignet ist, bei denen VLMs ohne umfangreiche Anpassung robuste Ergebnisse liefern sollen. Der komplette Code ist frei verfügbar unter https://github.com/aimagelab/mammoth.