KI News: Kurz und klar.

Anmelden

CombiGraph-Vis: A Curated Multimodal Olympiad Benchmark for Discrete Mathematical Reasoning

arXiv – cs.AI • 03.11.2025 05:00 • Original

#LLM #Beweisbewertung #Agentenworkflow #Rubriken #Mathematik-Olympiade #Kalibrierung #Teilweise Bewertung #automatisierte Bewertung

Anzeige

Ähnliche Artikel

arXiv – cs.AI • 30.01.2026 05:00

Planner-Auditor: Selbstverbessernder LLM-Planer reduziert Fehler bei Entlassungsplanung

arXiv – cs.AI • 29.01.2026 05:00

Intuition zu Expertise: Rubrikbasierte Kalibrierung zur Erkennung LLM-Koreanisch

arXiv – cs.LG • 09.01.2026 05:00

Dual-Align: Ein neuer Ansatz zur Kalibrierung von nachtrainierten Sprachmodellen

arXiv – cs.AI • 10.12.2025 05:00

AgentEval: Generative Agents als Ersatz für menschliche Bewertung von KI-Inhalten

arXiv – cs.AI • 13.11.2025 05:00

LLMs können sich selbst gefährden: Studie zeigt neues Angriffsszenario

arXiv – cs.AI • 05.11.2025 05:00

Aligning LLM agents with human learning and adjustment behavior: a dual agent approach