FedUMM: Federated Learning multimodale Modelle geringem Kommunikationsaufwand
Unified multimodale Modelle (UMMs) gelten als leistungsstarke Basismodelle, die sowohl generative als auch Verständnisaufgaben in einer einzigen Architektur bewältigen können. In der Praxis werden sie jedoch meist zentral trainiert, wodurch ihre Nutzung in datenschutzkritischen und geografisch verteilten Szenarien stark eingeschränkt wird.
Mit FedUMM wird ein generisches Federated‑Learning‑Framework vorgestellt, das UMMs unter nicht‑IID multimodalen Daten mit minimalem Kommunikationsaufwand ermöglicht. Das System baut auf NVIDIA FLARE auf und nutzt einen BLIP3o‑Backbone. Durch parameter‑effizientes Fine‑Tuning trainieren die Clients leichte LoRA‑Adapter, während die Basismodelle eingefroren bleiben. Der Server aggregiert ausschließlich die Adapter‑Updates, wodurch die Datenübertragung deutlich reduziert wird.
Die Evaluation erfolgte an den Benchmarks VQA v2 und GenEval unter Dirichlet‑kontrollierter Heterogenität mit bis zu 16 Clients. Die Ergebnisse zeigen nur geringe Leistungseinbußen, wenn die Clientzahl und die Heterogenität steigen, und bleiben dennoch mit zentralem Training konkurrenzfähig. Eine detaillierte Analyse der Rechen‑Kommunikations‑Trade‑offs verdeutlicht, dass die Adapter‑nur‑Federation die pro‑Runde-Kommunikation um mehr als ein Vielfaches senkt im Vergleich zum vollständigen Fine‑Tuning, was die praktische Umsetzung von federated UMM‑Training realistisch macht.
FedUMM liefert damit wertvolle empirische Erkenntnisse für zukünftige Forschungen zu datenschutzfreundlichen, federated‑Learning‑Ansätzen für einheitliche multimodale Modelle.