Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “LLM”
Forschung

<p>LLM-gestützte Planung mit PDDL-Simulation: Neue Erkenntnisse</p> <p>In einer aktuellen Studie wird untersucht, ob große Sprachmodelle (LLMs) als effektive Planer für autonome Robotiksysteme fungieren können. Dazu wurde PyPDDLEngine entwickelt – ein Open‑Source‑Simulationswerkzeug für die Planning Domain Definition Language (PDDL), das LLMs über ein Model Context Protocol (MCP) als Tool‑Calls nutzen lässt.</p> <p>Im Gegensatz zu herkömmlichen Planern, die einen kompletten Aktionsplan auf einmal generieren

arXiv – cs.AI
Forschung

<p>LLMs ermöglichen flexible, aber deterministische wissenschaftliche Workflows</p> <p>Neues Forschungspapier auf arXiv zeigt, dass große Sprachmodelle (LLMs) inzwischen in der Lage sind, die Ziele von Forschern in klare, ausführbare Befehle zu übersetzen. Gleichzeitig stellen wissenschaftliche Workflows hohe Anforderungen an Determinismus, Nachvollziehbarkeit und Governance – Eigenschaften, die schwer zu garantieren sind, wenn ein LLM selbst entscheidet, was ausgeführt wird.</p> <p>Durch halbstrukturierte

arXiv – cs.AI
Forschung

<p>Selbstlernende Medizinagenten verbessern Bilddiagnostik durch Erfahrung</p> <p>In einer kürzlich veröffentlichten Studie auf arXiv wird ein neues System namens MACRO vorgestellt, das die Art und Weise revolutioniert, wie KI-gestützte Agenten medizinische Bilddaten interpretieren. Während herkömmliche Large‑Language‑Modelle (LLM) ihre Tool‑Ketten nach dem Deployment festlegen und damit bei Änderungen im klinischen Umfeld schnell an Genauigkeit verlieren, lernt MACRO kontinuierlich aus vergangenen Ausführu

arXiv – cs.AI
Forschung

Neue Methode: Gated Behavior Trees sichern LLM-Agenten <p>Forscher haben eine neue Technik namens Traversal-as-Policy entwickelt, die die Sicherheit und Effizienz von großen Sprachmodell-Agenten deutlich verbessert. Dabei werden die Ausführungsprotokolle von OpenHands in einen einzigen, ausführbaren Gated Behavior Tree (GBT) überführt. Anstelle der üblichen, unkontrollierten Textgenerierung steuert der Agent nun die Aufgabe durch Traversierung dieses Baumes.</p> <p>Jeder Knoten im GBT repräsentiert ein au

arXiv – cs.AI
Forschung

<p>DBC-Benchmark: Neue Governance-Schicht senkt Risiko bei LLMs um 36,8 %</p> <p>In einer neuen Studie wurde der Dynamic Behavioral Constraint (DBC) Benchmark vorgestellt – das erste empirische Verfahren, um die Wirksamkeit einer strukturierten, 150‑Kontroll‑Governance‑Schicht für große Sprachmodelle (LLMs) zu messen. Die Schicht, genannt MDBC (Madan DBC), wird während der Inferenz angewendet und ist unabhängig vom Modell, lässt sich an verschiedene Rechtsordnungen anpassen und ist auditierbar.</p> <p>Der D

arXiv – cs.AI