World2Mind: Neues Toolkit für räumliches Denken in multimodalen Modellen
Die Fähigkeit, komplexe räumliche Zusammenhänge zuverlässig zu erkennen, bleibt ein zentrales Problem für aktuelle multimodale Foundation Models (MFMs). Viele Ansätze greifen zu stark auf 3‑D‑Grounding‑Daten zurück und…