KI-Modelle zeigen menschenähnliche Bildrepräsentationen – Größe Training Bildtyp
Eine neue Studie aus dem Labor von ArXiv hat gezeigt, dass selbstüberwachte Vision‑Transformer, die mit unterschiedlichen Modellgrößen, Trainingslängen und Bildtypen trainiert wurden, zunehmend neuronale Muster entwickeln, die denen des menschlichen Gehirns ähneln. Durch den Einsatz von DINOv3‑Modellen konnte die Forschung die Einflüsse dieser drei Faktoren systematisch voneinander trennen.
Die Forscher verglichen die Bildrepräsentationen der Modelle mit Messungen aus funktioneller Magnetresonanztomographie (fMRI) und Magnetoenzephalographie (MEG). Dabei wurden drei ergänzende Metriken verwendet: die globale Repräsentationsähnlichkeit, die topografische Organisation der Aktivität und die zeitlichen Dynamiken. Alle drei Metriken zeigten, dass Modellgröße, Trainingsmenge und Bildtyp unabhängig voneinander sowie in Wechselwirkung die Ähnlichkeit zum Gehirn bestimmen.
Besonders auffällig war, dass die größten DINOv3‑Modelle, die mit stark menschzentrierten Bilddatensätzen trainiert wurden, die höchste Gehirn‑ähnlichkeit erreichten. Die Entwicklung der Ähnlichkeit folgt einer klaren Chronologie: Zunächst stimmen die Modelle mit den frühen Repräsentationen der sensorischen Cortex‑Bereiche überein, erst später mit den späten und präfrontalen Bereichen. Diese zeitliche Entwicklung spiegelt sowohl strukturelle als auch funktionale Eigenschaften der menschlichen Cortex‑Regionen wider.
Die Ergebnisse legen nahe, dass die Kombination aus großer Modellgröße, umfangreichem Training und relevanten Bilddaten entscheidend dafür ist, dass KI‑Modelle menschenähnliche Bildrepräsentationen entwickeln. Sie liefern damit wichtige Einblicke in die Mechanismen, die die Kluft zwischen künstlicher Intelligenz und biologischer Wahrnehmung überbrücken.