Forschung
<h1>Multimodale Sprachmodelle zeigen Schwächen beim räumlichen Perspektivwechsel</h1> <p>Mit der zunehmenden Nutzung multimodaler Sprachmodelle (MLMs) in sozialen und kollaborativen Anwendungen wird die Frage nach ihrer Fähigkeit zum Perspektivwechsel immer wichtiger. Bisher beruhen die meisten Tests auf rein textbasierten Szenarien oder statischen Bildanalysen, wodurch der Bereich des visuospatziellen Perspektivwechsels (VPT) kaum untersucht wurde.</p> <p>Um diese Lücke zu schließen, wurden zwei etablierte
arXiv – cs.AI