Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Multimodale Sprachmodelle”
Forschung

<h1>Multimodale Sprachmodelle zeigen Schwächen beim räumlichen Perspektivwechsel</h1> <p>Mit der zunehmenden Nutzung multimodaler Sprachmodelle (MLMs) in sozialen und kollaborativen Anwendungen wird die Frage nach ihrer Fähigkeit zum Perspektivwechsel immer wichtiger. Bisher beruhen die meisten Tests auf rein textbasierten Szenarien oder statischen Bildanalysen, wodurch der Bereich des visuospatziellen Perspektivwechsels (VPT) kaum untersucht wurde.</p> <p>Um diese Lücke zu schließen, wurden zwei etablierte

arXiv – cs.AI
Forschung

<p>Multimodale Modelle halluzinieren: Neue Benchmark zeigt Schwächen beim Szenenvergleich</p> <p>Ein neues arXiv-Papier (ArXiv:2511.03768v1) präsentiert die erste umfassende Untersuchung, wie multimodale Sprachmodelle – die gleichzeitig Text und Bild verarbeiten – bei der Beantwortung von Fragen über mehrere Szenen hinweg versagen. Die Autoren haben einen Benchmark namens <strong>Common‑O</strong> entwickelt, der über 10.500 Beispiele aus völlig neuen Bildern enthält, die nicht in den Trainingsdaten der Mod

arXiv – cs.LG