Suche nach Multimodale Sprachmodelle

<h1>Multimodale Sprachmodelle zeigen Schwächen beim räumlichen Perspektivwechsel</h1> <p>Mit der zunehmenden Nutzung multimodaler Sprachmodelle (MLMs) in sozialen und kollaborativen Anwendungen wird die Frage nach ihrer Fähigkeit zum Perspektivwechsel immer wichtiger. Bisher beruhen die meisten Tests auf rein textbasierten Szenarien oder statischen Bildanalysen, wodurch der Bereich des visuospatziellen Perspektivwechsels (VPT) kaum untersucht wurde.</p> <p>Um diese Lücke zu schließen, wurden zwei etablierte

arXiv – cs.AI 26.03.2026 04:00

RoboAlign: KI-gestützte Lernmethode steigert Robotik-Performance um bis zu 106 %

Die Fähigkeit, multimodale Informationen in konkrete Handlungen umzusetzen, ist entscheidend für die nächste Generation von Vision‑Language…

arXiv – cs.AI 24.03.2026 04:00

Forschung

CRYSTAL: Neuer Benchmark für transparente multimodale Logikprüfung

Mit dem neuen Benchmark CRYSTAL (Clear Reasoning via Yielded Steps, Traceability and Logic) stellen Forscher ein umfangreiches Diagnostik-S…

arXiv – cs.AI 16.03.2026 04:00

Forschung

Meissa: Leichtgewichtiges medizinisches Agentenmodell ohne API‑Abhängigkeit

In einer Zeit, in der multimodale Sprachmodelle bereits beeindruckende Leistungen in der medizinischen Bildanalyse und klinischen Entscheid…

arXiv – cs.AI 11.03.2026 04:00

Forschung

MLLMs gegen visuelle Täuschungen: Adversarial Training stärkt Robustheit

Ein brandneues Forschungsdokument aus dem Bereich der multimodalen großen Sprachmodelle (MLLMs) zeigt, wie man die Wahrnehmungsstabilität d…

arXiv – cs.LG 27.02.2026 05:00

Forschung

OmniGAIA: Der Weg zu nativen, omni-modal AI-Agenten

Die menschliche Intelligenz verbindet von Natur aus omni-modal Wahrnehmung – Vision, Audio und Sprache – mit komplexem Denken und Werkzeugg…

arXiv – cs.AI 27.02.2026 05:00

Forschung

MAPLE: Modality-Aware Post-Training – 30 % Genauigkeitsgewinn, 3‑fach Konvergenz

Multimodale Sprachmodelle kombinieren Text, Audio und Video zu einer einheitlichen Denkweise. In der Praxis werden jedoch bei bestehenden R…

arXiv – cs.AI 13.02.2026 05:00

Forschung

SVRepair: Multimodales APR nutzt strukturierte visuelle Analyse

In der Welt der automatisierten Programmreparatur (APR) hat ein neues Verfahren namens SVRepair die Messlatte höher gelegt. Durch die Kombi…

arXiv – cs.AI 09.02.2026 05:00

Forschung

Neues Tool bewertet Maskenqualität bei sprachgesteuerter Audio-Visual-Segmentierung

In einer wegweisenden Veröffentlichung stellt ein Forschungsteam ein neues Verfahren vor, das die Qualität von Segmentierungsmasken in spra…

arXiv – cs.AI 05.02.2026 05:00

Forschung

MemCtrl als aktive Gedächtniskontrolle: MemCtrl steigert Agentenleistung

In der neuesten Studie von MemCtrl wird gezeigt, wie Multimodale Large Language Models (MLLMs) als aktive Gedächtniskontrolle für eingebett…

arXiv – cs.AI 29.01.2026 05:00

Forschung

Neues Token-Konzept verbessert räumliches Denken in multimodalen Modellen

Eine aktuelle Veröffentlichung auf arXiv präsentiert ein innovatives Verfahren, mit dem multimodale Sprachmodelle ihre bisherige egocentris…

arXiv – cs.AI 26.01.2026 05:00

Forschung

Mehr als oberflächliches Auslernen: Geometrisch stabile Entfernung von Halluzinationen in multimodalen LLMs

Multimodale Sprachmodelle sind leistungsfähig, doch sie neigen dazu, „Halluzinationen“ zu erzeugen – Beschreibungen von Objekten, die nicht…

arXiv – cs.LG 26.01.2026 05:00

Forschung

AMUSE: Benchmark für Agenten-Orientierte Audio-Video-Verständnis

Neuste multimodale Sprachmodelle wie GPT‑4o und Qwen3‑Omni zeigen beeindruckende Wahrnehmungsfähigkeiten, doch sie kämpfen in Szenarien mit…

arXiv – cs.AI 19.12.2025 05:00

Forschung

Textbasierte Angriffe auf multimodale Modelle: Neue Studie zeigt Wirkung

Eine neue Untersuchung von Forschern auf arXiv (Arbeitstitel: „Lost in Modality“) beleuchtet, wie effektiv textbasierte Membership‑Inferenc…

arXiv – cs.AI 04.12.2025 05:00

Forschung

Med-CMR: Neuer Benchmark für medizinisches multimodales Denken

In klinischen Arbeitsabläufen tauchen multimodale Sprachmodelle (MLLMs) immer häufiger auf, doch ihre Fähigkeit, komplexe medizinische Frag…

arXiv – cs.AI 02.12.2025 05:00

Forschung

Multimodale Sprachmodelle: Räumliches Denken – Aufgaben, Benchmarks & Methoden

Ein neues Survey‑Paper von arXiv (2511.15722v1) beleuchtet die bislang wenig erforschte Fähigkeit von multimodalen großen Sprachmodellen (M…

arXiv – cs.AI 21.11.2025 05:00

Forschung

CrochetBench: KI muss jetzt nicht nur beschreiben, sondern auch häkeln

Die neue Studie „CrochetBench“ stellt multimodale Sprachmodelle vor die Herausforderung, im Bereich des Häkels nicht nur zu beschreiben, so…

arXiv – cs.AI 13.11.2025 05:00

Forschung

<p>Multimodale Modelle halluzinieren: Neue Benchmark zeigt Schwächen beim Szenenvergleich</p> <p>Ein neues arXiv-Papier (ArXiv:2511.03768v1) präsentiert die erste umfassende Untersuchung, wie multimodale Sprachmodelle – die gleichzeitig Text und Bild verarbeiten – bei der Beantwortung von Fragen über mehrere Szenen hinweg versagen. Die Autoren haben einen Benchmark namens <strong>Common‑O</strong> entwickelt, der über 10.500 Beispiele aus völlig neuen Bildern enthält, die nicht in den Trainingsdaten der Mod

arXiv – cs.LG 07.11.2025 05:00

Forschung

Kleine Modelle, große Erfolge: Überlegene Intent-Extraktion durch Decomposition

Die präzise Erfassung von Nutzerabsichten aus Interaktionspfaden bleibt ein zentrales, aber schwieriges Ziel in der Entwicklung intelligent…

arXiv – cs.AI 17.09.2025 05:00

Forschung

Neues multimodales Datenset und Modell revolutionieren Augenheilkunde-Intelligenz

In der Augenheilkunde hat ein neues multimodales Datenset namens MM‑Retinal‑Reason die Messlatte für künstliche Intelligenz höher gelegt. E…

arXiv – cs.AI 25.08.2025 05:00

Forschung

KnowDR-REC: Neuer Benchmark prüft multimodale Sprachmodelle mit realen Wissensdaten

Die Aufgabe der Referring Expression Comprehension (REC) verlangt, dass ein Modell ein Zielobjekt in einem Bild anhand einer Textbeschreibu…

arXiv – cs.LG 21.08.2025 05:00

Finde Modelle, Firmen und Themen

RoboAlign: KI-gestützte Lernmethode steigert Robotik-Performance um bis zu 106 %

CRYSTAL: Neuer Benchmark für transparente multimodale Logikprüfung

Meissa: Leichtgewichtiges medizinisches Agentenmodell ohne API‑Abhängigkeit

MLLMs gegen visuelle Täuschungen: Adversarial Training stärkt Robustheit

OmniGAIA: Der Weg zu nativen, omni-modal AI-Agenten

MAPLE: Modality-Aware Post-Training – 30 % Genauigkeitsgewinn, 3‑fach Konvergenz

SVRepair: Multimodales APR nutzt strukturierte visuelle Analyse

Neues Tool bewertet Maskenqualität bei sprachgesteuerter Audio-Visual-Segmentierung

MemCtrl als aktive Gedächtniskontrolle: MemCtrl steigert Agentenleistung

Neues Token-Konzept verbessert räumliches Denken in multimodalen Modellen

Mehr als oberflächliches Auslernen: Geometrisch stabile Entfernung von Halluzinationen in multimodalen LLMs

AMUSE: Benchmark für Agenten-Orientierte Audio-Video-Verständnis

Textbasierte Angriffe auf multimodale Modelle: Neue Studie zeigt Wirkung

Med-CMR: Neuer Benchmark für medizinisches multimodales Denken

Multimodale Sprachmodelle: Räumliches Denken – Aufgaben, Benchmarks & Methoden

CrochetBench: KI muss jetzt nicht nur beschreiben, sondern auch häkeln

Kleine Modelle, große Erfolge: Überlegene Intent-Extraktion durch Decomposition

Neues multimodales Datenset und Modell revolutionieren Augenheilkunde-Intelligenz

KnowDR-REC: Neuer Benchmark prüft multimodale Sprachmodelle mit realen Wissensdaten

🍪 Cookie-Einstellungen

RoboAlign: KI-gestützte Lernmethode steigert Robotik-Performance um bis zu 106 %

MAPLE: Modality-Aware Post-Training – 30 % Genauigkeitsgewinn, 3‑fach Konvergenz