FLUID: Token‑Distillation stärkt multimodale Klassifikation

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In der multimodalen Klassifikation gilt die robuste Integration von Bild‑ und Textdaten als entscheidend, doch herkömmliche Fusionsmethoden sind oft anfällig für Modality‑spezifisches Rauschen. Das neue Verfahren FLUID (Flow‑Latent Unified Integration via Token Distillation) löst dieses Problem, indem es auf Token‑Ebene arbeitet und die Stärken beider Modalitäten gezielt nutzt.

FLUID besteht aus drei Schlüsselelementen: Erstens Q‑Transforms, lernbare Abfrage‑Tokens, die wichtige Merkmale aus den jeweiligen Modality‑Backbones extrahieren und erhalten. Zweitens ein zweistufiges Fusionsschema, das zunächst durch kontrastive Ausrichtung Konsistenz zwischen den Modalitäten herstellt und anschließend mit einem Gate‑Mechanismus sowie einem Q‑Bottleneck eine adaptive, auf die Aufgabe zugeschnittene Fusion ermöglicht. Drittens ein leichtgewichtiges, load‑balanciertes Mixture‑of‑Experts, das bei der Vorhersage effizient auf unterschiedliche semantische Muster spezialisiert.

Die umfangreichen Experimente zeigen, dass FLUID mit 91 % Genauigkeit den GLAMI‑1M‑Benchmark deutlich übertrifft. Das System demonstriert zudem eine starke Widerstandsfähigkeit gegenüber Label‑Noise, langen Tail‑Klassen und semantischer Heterogenität. Ablationsstudien belegen die individuellen und synergistischen Vorteile der drei Komponenten und unterstreichen die Skalierbarkeit sowie die Rauschresistenz von FLUID.

Zusammenfassend präsentiert FLUID eine skalierbare, robuste Lösung für multimodale Produktklassifikation, die sowohl die Leistung als auch die Effizienz in realen Anwendungsfällen erheblich steigert.

Ähnliche Artikel