MLLMs entschlüsselt: Wie Schichten Bilder verstehen und Aufgaben lösen
Multimodale Large Language Models (MLLMs) haben in den letzten Monaten beeindruckende Ergebnisse bei einer Vielzahl von Vision‑Language‑Aufgaben erzielt. Trotz dieser Leistungsfähigkeit bleibt die genaue Funktionsweise ihrer internen Verarbeitungsschichten weitgehend unerforscht.
In einer neuen Studie wurde ein Probing‑Framework entwickelt, das systematisch untersucht, wie MLLMs visuelle und textuelle Eingaben über die einzelnen Schichten hinweg verarbeiten. Dabei werden lineare Klassifikatoren trainiert, die aus den Token‑Embeddings jeder Schicht fein abgestufte Bildkategorien – etwa Hundespezies – vorhersagen. Der Ansatz nutzt dafür eine einheitliche „Anchor‑Frage“, die die Analyse konsistent hält.
Um die Rollen der einzelnen Schichten genauer zu beleuchten, wurden die Probes unter drei kontrollierten Prompt‑Variationen getestet: (1) lexikalische Varianten, die die Sensitivität gegenüber Oberflächendetails prüfen; (2) semantische Negationsvarianten, die die erwartete Antwort durch Änderung des Bildkonzepts im Prompt umkehren; und (3) Ausgabe‑Format‑Varianten, die die Logik beibehalten, aber das Antwortformat verändern.
Die Anwendung des Frameworks auf LLaVA‑1.5, LLaVA‑Next‑LLaMA‑3 und Qwen2‑VL zeigte ein konsistentes, stufenweises Aufbauprinzip: Frühere Schichten dienen dem visuellen Grounding, mittlere Schichten integrieren lexikalische Informationen und führen semantische Schlussfolgerungen durch, während spätere Schichten die eigentlichen, aufgabenbezogenen Ausgaben vorbereiten. Diese stufenweise Struktur bleibt über unterschiedliche Tokenisierungen, Instruction‑Tuning‑Datensätze und Pre‑Training‑Korpora hinweg stabil, ändert sich jedoch in der genauen Schichtzuordnung, wenn die zugrunde liegende LLM‑Architektur variiert.
Die Ergebnisse liefern einen einheitlichen Blick auf die Schicht‑weise Organisation von MLLMs und stellen einen leichtgewichtigen, modellunabhängigen Ansatz dar, der die interne Dynamik dieser komplexen Systeme transparent macht. Diese Erkenntnisse sind ein wichtiger Schritt, um die Leistungsfähigkeit multimodaler Modelle besser zu verstehen und weiter zu optimieren.