Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “API”
Forschung

<p>LLMs ermöglichen flexible, aber deterministische wissenschaftliche Workflows</p> <p>Neues Forschungspapier auf arXiv zeigt, dass große Sprachmodelle (LLMs) inzwischen in der Lage sind, die Ziele von Forschern in klare, ausführbare Befehle zu übersetzen. Gleichzeitig stellen wissenschaftliche Workflows hohe Anforderungen an Determinismus, Nachvollziehbarkeit und Governance – Eigenschaften, die schwer zu garantieren sind, wenn ein LLM selbst entscheidet, was ausgeführt wird.</p> <p>Durch halbstrukturierte

arXiv – cs.AI
Forschung

Neue interaktive Benchmarks: So testen wir KI wirklich<br/><p>Standard-Benchmarks werden zunehmend unzuverlässig, weil sie gesättigt, subjektiv und schlecht generalisierbar sind. Aus diesem Grund stellen die Autoren des arXiv‑Papiers (2603.04737v1) ein neues Evaluationsparadigma vor: Interaktive Benchmarks. Dabei wird die Fähigkeit eines Modells gemessen, aktiv Informationen zu beschaffen und damit seine Intelligenz zu demonstrieren.</p><p>Das Konzept umfasst zwei Hauptbereiche. In „Interactive Proofs“ arbe

arXiv – cs.AI