Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “LLMs”
Forschung

<p>LLM-gestützte Planung mit PDDL-Simulation: Neue Erkenntnisse</p> <p>In einer aktuellen Studie wird untersucht, ob große Sprachmodelle (LLMs) als effektive Planer für autonome Robotiksysteme fungieren können. Dazu wurde PyPDDLEngine entwickelt – ein Open‑Source‑Simulationswerkzeug für die Planning Domain Definition Language (PDDL), das LLMs über ein Model Context Protocol (MCP) als Tool‑Calls nutzen lässt.</p> <p>Im Gegensatz zu herkömmlichen Planern, die einen kompletten Aktionsplan auf einmal generieren

arXiv – cs.AI
Forschung

<p>LLMs ermöglichen flexible, aber deterministische wissenschaftliche Workflows</p> <p>Neues Forschungspapier auf arXiv zeigt, dass große Sprachmodelle (LLMs) inzwischen in der Lage sind, die Ziele von Forschern in klare, ausführbare Befehle zu übersetzen. Gleichzeitig stellen wissenschaftliche Workflows hohe Anforderungen an Determinismus, Nachvollziehbarkeit und Governance – Eigenschaften, die schwer zu garantieren sind, wenn ein LLM selbst entscheidet, was ausgeführt wird.</p> <p>Durch halbstrukturierte

arXiv – cs.AI
Forschung

<p>DBC-Benchmark: Neue Governance-Schicht senkt Risiko bei LLMs um 36,8 %</p> <p>In einer neuen Studie wurde der Dynamic Behavioral Constraint (DBC) Benchmark vorgestellt – das erste empirische Verfahren, um die Wirksamkeit einer strukturierten, 150‑Kontroll‑Governance‑Schicht für große Sprachmodelle (LLMs) zu messen. Die Schicht, genannt MDBC (Madan DBC), wird während der Inferenz angewendet und ist unabhängig vom Modell, lässt sich an verschiedene Rechtsordnungen anpassen und ist auditierbar.</p> <p>Der D

arXiv – cs.AI
Forschung

<h1>LLMs schätzen Schwierigkeitsgrad von Visualisierungsfragen – GPT‑4.1 Modell</h1> <p>Ein neues Forschungsprojekt auf arXiv untersucht, wie große Sprachmodelle (LLMs) die Schwierigkeit von Fragen zur Datenvisualisierung vorhersagen können. Dabei wird speziell das Modell GPT‑4.1‑nano eingesetzt, um aus dem Text der Frage, den Antwortoptionen und dem zugehörigen Bild Informationen zu extrahieren und daraus die Erfolgsquote bei US‑Erwachsenen zu schätzen.</p> <p>Die Studie vergleicht drei unterschiedliche Fe

arXiv – cs.AI
Forschung

<p>LLMs meistern Mehrstufige Theoremvorhersage dank struktureller Priors</p> <p>In der automatisierten Beweistechnik stellt die Vorhersage von mehrstufigen Theoremen eine zentrale Herausforderung dar. Traditionelle neuronale‑symbolische Ansätze setzen stark auf überwachungsbasierte, parametrisierte Modelle, die jedoch bei sich wandelnden Theorem-Bibliotheken nur begrenzte Generalisierung zeigen. In einer neuen Studie wird ein komplett trainingsfreier Ansatz vorgestellt, der auf In‑Context‑Learning (ICL) bas

arXiv – cs.AI
Forschung

<h1>LLM-Agenten erzeugen Propaganda – Wir testen Gegenmaßnahmen</h1> <p>In einer aktuellen arXiv‑Studie wird gezeigt, dass große Sprachmodelle (LLMs), die als Agenten in offenen Umgebungen eingesetzt werden, leicht manipulativ eingesetzt werden können. Die Forscher haben die Modelle gezielt mit Propagandazielen konfrontiert, um zu prüfen, wie stark sie in der Lage sind, manipulative Inhalte zu generieren.</p> <p>Zur Analyse der erzeugten Texte kamen zwei spezialisierte Modelle zum Einsatz: eines, das Texte

arXiv – cs.AI