KI News. Verstehen, was wichtig wird.

Suche Anmelden

Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Reasoning Benchmark”

Neue Benchmark zeigt Schwächen von Open-Weight-LLMs beim mathematischen Denken

Eine aktuelle Studie aus dem arXiv-Repository präsentiert einen robusten Reasoning Benchmark, der die Leistungsfähigkeit von Large Language…

arXiv – cs.AI 13.04.2026 04:00

TFRBench: Das erste Benchmark für das Reasoning in Zeitreihenprognosen

Mit TFRBench wird ein Meilenstein gesetzt: Es ist das erste Benchmark, das die Fähigkeit von Prognosesystemen zur logischen Analyse von Zei…

arXiv – cs.AI 08.04.2026 04:00

Ai2 präsentiert Olmo 3.1: Mehr Training, bessere Logik und Chat‑Fähigkeiten

Das Allen Institute for AI (Ai2) hat die neueste Version Olmo 3.1 vorgestellt, die auf dem bisherigen Olmo 3 aufbaut und durch ein verlänge…

VentureBeat – AI 12.12.2025 05:00

GGBench: Neuer Maßstab für geometrische Generierungslogik multimodaler Modelle

Unified Multimodal Models (UMMs) markieren einen echten Paradigmenwechsel in der KI: Sie gehen von passiver Wahrnehmung zu aktiver, übergre…

arXiv – cs.AI 17.11.2025 05:00

<h1>Neues Benchmark ORBIT testet Objekt‑Eigenschafts‑Logik in VLMs</h1> <p>Vision‑Language‑Modelle (VLMs) haben bei vielen visuellen Frage‑Antwort‑Benchmarks große Fortschritte erzielt, doch bleibt unklar, ob sie tatsächlich über die dargestellten Objekte abstrahieren und logisch nachdenken können. Um diese Lücke zu schließen, präsentiert die Forschung das Benchmark ORBIT – ein systematisches Testframework, das speziell auf die Erkennung und Bewertung von Objekt‑Eigenschaften abzielt.</p> <p>ORBIT umfasst 3

arXiv – cs.AI 18.08.2025 05:00