SpatialBench: Neuer Maßstab für räumliche Intelligenz multimodaler Sprachmodelle

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Die räumliche Wahrnehmung ist ein zentrales Element echter multimodaler Intelligenz, denn sie ermöglicht es Modellen, mit ihrer physischen Umgebung effektiv zu interagieren. Trotz großer Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) bleiben bestehende Benchmarks oft zu einfach, indem sie räumliche Fähigkeiten auf ein einziges, eindimensionales Maß reduzieren. Dieses Vorgehen erfasst weder die hierarchische Struktur noch die wechselseitigen Abhängigkeiten räumlicher Kompetenzen.

Um diese Lücke zu schließen, hat ein Forschungsteam einen hierarchischen Rahmen für räumliche Kognition entwickelt, der die räumliche Intelligenz in fünf zunehmend komplexe Ebenen unterteilt – von der einfachen Beobachtung bis hin zur hochrangigen Planung. Auf Basis dieser Taxonomie wurde SpatialBench konzipiert, ein umfangreiches, fein abgestuftes Benchmarking-Set mit 15 Aufgaben, die gezielt die jeweiligen kognitiven Ebenen abdecken. Zusätzlich wurde ein übergreifendes, kapabilitätsorientiertes Messkriterium eingeführt, das die Gesamtleistung eines Modells in Bezug auf räumliches Denken zuverlässig bewertet.

Groß angelegte Experimente mit einer Vielzahl von MLLMs zeigen deutlich, dass die Modelle zwar eine starke sensorische Verankerung besitzen, jedoch bei symbolischem Denken, kausaler Inferenz und Planung noch stark eingeschränkt sind. Ergänzende Tests mit menschlichen Probanden verdeutlichen, dass Menschen gezielt abstrahieren und zielgerichtet handeln, während MLLMs häufig zu sehr auf Oberflächendetails fokussieren und dabei die übergeordnete räumliche Absicht verlieren. SpatialBench liefert damit das erste systematische Instrument, um hierarchische räumliche Kognition in multimodalen Sprachmodellen zu messen und legt damit die Grundlage für die Entwicklung wirklich räumlich intelligenter Systeme.

Ähnliche Artikel