Suche nach PERA | meineki.news

<h1>LLMs lösen Logik korrekt, liefern aber falsche Antworten – neue Benchmark enthüllt</h1> <p>Eine neue Studie zeigt, dass große Sprachmodelle (LLMs) jeden Schritt ihrer „Chain‑of‑Thought“-Logik fehlerfrei ausführen können, dabei aber häufig falsche Endergebnisse liefern. Das Problem wurde mit dem „Novel Operator Test“ aufgedeckt, einem Benchmark, der die reine Logik eines Operators von dessen Namen trennt und so echte Denkprozesse von bloßem Mustererkennen unterscheidet.</p> <p>Der Test bewertet Boolesche

arXiv – cs.AI 16.04.2026 04:00

Skalierbare, leichte GUI-Agenten durch Multi-Role-Orchestrierung

Ein neues arXiv-Papier präsentiert einen Ansatz, mit dem autonome GUI-Agenten, die von multimodalen großen Sprachmodellen (MLLMs) angetrieb…

arXiv – cs.AI 16.04.2026 04:00

Forschung

Anomalien erkennen: Kontextabhängigkeit erfordert neue multimodale Ansätze

In einer neuen Studie auf arXiv wird deutlich, dass die klassische Annahme, Anomalien seien unabhängig vom Kontext, in der Praxis zu Fehlin…

arXiv – cs.LG 16.04.2026 04:00

Forschung

RiskWebWorld: Benchmark für GUI-Agenten im E‑Commerce‑Risiko-Management

Die neue Studie von RiskWebWorld eröffnet ein völlig neues Feld für die Bewertung von GUI-Agenten in hochkomplexen, risikoreichen E‑Commerc…

arXiv – cs.AI 16.04.2026 04:00

Forschung

Hierarchisches RL mit Sicherheitsabschirmung verbessert Stromnetzsteuerung

Reinforcement‑Learning (RL) hat das Potenzial, Aufgaben in der Stromnetzsteuerung wie die Topologie‑Kontrolle und die Lastenmanagement zu…

arXiv – cs.AI 16.04.2026 04:00

Forschung

LLMs in sensiblen Bereichen: Leichtgewichtiges Unlearning für Datenschutz

In politisch sensiblen Umgebungen werden immer häufiger große Sprachmodelle (LLMs) eingesetzt. Dabei besteht die Gefahr, dass persönliche D…

arXiv – cs.AI 15.04.2026 04:00

Forschung

Neues KI-Modell liefert Temperaturprofile für Korallenriffe aus Satellitendaten

Satellitenmessungen der Oberflächentemperatur (SST) bilden die Basis für weltweite Korallenbleichungsüberwachung, doch sie erfassen nur die…

arXiv – cs.LG 16.04.2026 04:00

Forschung

KI-gestützte Bewertung von Physikaufgaben: Wie klare Rubriken Zuverlässigkeit sichern

In einer aktuellen Untersuchung wurde die Zuverlässigkeit von KI‑unterstützter Bewertung von handschriftlichen Physikantworten getestet. Da…

arXiv – cs.AI 15.04.2026 04:00

Forschung

LLM‑Speicher beeinflusst Kooperation in sozialem Partikel‑Schwarm

Eine neue Untersuchung zeigt, wie die Speicherfähigkeit von LLM‑Agenten die Kooperation in einem sozialen Partikel‑Schwarm beeinflusst. Das…

arXiv – cs.AI 15.04.2026 04:00

Forschung

PERA: Polynomiale Erweiterung verbessert Low‑Rank‑Fine‑Tuning

Ein neues Verfahren namens Polynomial Expansion Rank Adaptation (PERA) verspricht, die Grenzen des beliebten Low‑Rank‑Adaptation (LoRA) zu…

arXiv – cs.LG 15.04.2026 04:00

Produkt

Beschleunigung von Inferenz mit spekulativem Decoding auf AWS Trainium und vLLM

In diesem Beitrag zeigen wir, wie spekulatives Decoding die Inferenz von großen Sprachmodellen beschleunigt und die Kosten pro Token auf AW…

AWS – Machine Learning Blog 15.04.2026 15:20

Forschung

Neues Rahmenwerk für KI-gestützte Langzeitgesundheitsinteraktionen

In der Forschung werden KI-Agenten zunehmend als Unterstützung für langfristige Gesundheitsaufgaben wie Symptommanagement, Verhaltensänderu…

arXiv – cs.AI 15.04.2026 04:00

Forschung

A-R-Analyse: Wie Sprachmodelle Tool-Operationen in Unternehmen ausführen

Moderne Sprachmodelle werden zunehmend als tool‑unterstützte Agenten eingesetzt, die komplexe Systemaufgaben ausführen können. Trotz dieser…

arXiv – cs.AI 15.04.2026 04:00

Forschung

Neues Design für persönliche LLM‑Speicher: Companion Knowledge Systems

Ein kürzlich veröffentlichtes Papier aus dem Jahr 2026 beleuchtet die rasante Entwicklung von persönlichen Wissenswikis für große Sprachmod…

arXiv – cs.AI 15.04.2026 04:00

Forschung

Memory Worth: Erfolgsbasierte Speicherverwaltung für Agenten

In einer kürzlich veröffentlichten Studie auf arXiv wird ein neues Konzept zur Verwaltung von Agentenspeichern vorgestellt, das als Memory…

arXiv – cs.AI 15.04.2026 04:00

Forschung

DIAX: Einheitliches JSON-Format vereint Diabetes‑Zeitreihen für Forschung und KI

Ein neues, standardisiertes Datenformat namens DIAX (DIAbetes eXchange) wurde vorgestellt, um die vielfältigen Zeitreihen von Diabetesgerät…

arXiv – cs.LG 15.04.2026 04:00

Aktuell

SAP integriert agentische KI in Human Capital Management

SAP hat angekündigt, dass die Integration von agentischer KI in die Kernmodule des Human Capital Management (HCM) dazu beitragen wird, oper…

AI News (TechForge) 14.04.2026 12:55

Forschung

CycloneMAE: Neues Multi-Task-Modell verbessert globale Tropensturmvorhersagen

Ein neues Modell namens CycloneMAE setzt neue Maßstäbe bei der Vorhersage von Tropenstürmen. Durch die Kombination eines strukturbewussten…

arXiv – cs.LG 15.04.2026 04:00

Forschung

Neue Methode testet Zuverlässigkeit von LLMs bei wiederholten Prompt-Generierungen

Traditionelle Benchmarks wie HELM und AIR‑BENCH bewerten die Sicherheit von großen Sprachmodellen (LLMs) vor allem über eine breite Aufgabe…

arXiv – cs.AI 14.04.2026 04:00

Forschung

Neue Sampling-Strategie steigert Vielfalt bei Diffusions-Sprachmodellen

In einer kürzlich veröffentlichten Studie haben Forscher einen Ansatz vorgestellt, der die Vielfalt der Ausgaben von Diffusions-Sprachmodel…

arXiv – cs.LG 14.04.2026 04:00

Forschung

Effiziente Matriximplementierung für Rotary Position Embedding

Rotary Position Embedding (RoPE) ist heute ein unverzichtbarer Bestandteil moderner Transformer‑Architekturen in Sprach-, Bild- und 3D‑Anwe…

arXiv – cs.LG 14.04.2026 04:00

Forschung

<p>Neues Multi-Head-Attention-Netzwerk verbessert Prognosen industrieller Anlagen</p> <p>In komplexen Systemen wie Flugzeugtriebwerken, Turbinen und industrieller Ausrüstung verändern sich die Betriebsbedingungen ständig. Diese Schwankungen beeinflussen die Verschlechterung stark und erschweren die Prognose, weil die Modelle die operativen Einflüsse berücksichtigen müssen. Ein neues Forschungsprojekt präsentiert deshalb ein Multi‑Head‑Attention‑basiertes Fusionsneuronales Netzwerk, das genau diese Herausfor

arXiv – cs.LG 14.04.2026 04:00

Forschung

Graph-RHO: Neuer Ansatz für langfristige Flexible Job-Shop-Planung

Die Planung von Fertigungsaufträgen über lange Zeiträume – das sogenannte Long‑Horizon Flexible Job‑Shop Scheduling (FJSP) – stellt ein eno…

arXiv – cs.LG 14.04.2026 04:00

Forschung

Neues Deep‑Learning‑Modell verbessert Modulationsklassifikation bei Rauschen

In einer aktuellen Veröffentlichung auf arXiv wird ein neues Deep‑Learning‑Modell vorgestellt, das die Klassifikation von Modulationsarten…

arXiv – cs.LG 14.04.2026 04:00

Forschung

Temperaturabhängige Leistung von Prompting-Strategien in erweiterten LLMs

Erweiterte Reasoning-Modelle markieren einen Wendepunkt in der Leistungsfähigkeit von Large Language Models (LLMs), indem sie explizite Ber…

arXiv – cs.AI 13.04.2026 04:00

Forschung

Automatisierte Metadaten-Standardisierung in der Biomedizin: LLM-Agent liefert präzise Ergebnisse

Ein neues System nutzt große Sprachmodelle, um veraltete biomedizinische Metadaten automatisch zu standardisieren. Durch die Kombination vo…

arXiv – cs.AI 13.04.2026 04:00

Forschung

Neue Methode zur Faktorisierung formaler Kontexte aus Notwendigkeitsoperatoren

In der Datenanalyse ist die Faktorisierung von Datensätzen ein zentrales Thema, doch oft gestaltet sich die Berechnung einer effizienten Fa…

arXiv – cs.AI 14.04.2026 04:00

Praxis

PhysicsNeMo: Darcy Flow, FNOs, PINNs & Surrogatmodelle – Schritt für Schritt

In diesem Tutorial wird NVIDIA PhysicsNeMo in Google Colab eingesetzt, um ein praxisnahes Workflow‑Beispiel für physikbasierte Machine‑Lear…

MarkTechPost 13.04.2026 17:07

Forschung

Strategische algorithmische Monokultur: Experimentelle Beweise aus Koordinationsspielen

In einer Welt, in der KI-Agenten immer häufiger in komplexen Mehragenten-Umgebungen agieren, wird die Fähigkeit zur Koordination zu einem e…

arXiv – cs.AI 13.04.2026 04:00

Forschung

VOLTA: Überraschende Ineffektivität von Hilfsverlusten im Deep Learning

In einer umfassenden Benchmark-Studie wurde die Effektivität von Hilfsverlusten im Deep Learning hinterfragt. Forscher haben zehn gängige M…

arXiv – cs.LG 13.04.2026 04:00

Finde Modelle, Firmen und Themen

Skalierbare, leichte GUI-Agenten durch Multi-Role-Orchestrierung

Anomalien erkennen: Kontextabhängigkeit erfordert neue multimodale Ansätze

RiskWebWorld: Benchmark für GUI-Agenten im E‑Commerce‑Risiko-Management

Hierarchisches RL mit Sicherheitsabschirmung verbessert Stromnetzsteuerung

LLMs in sensiblen Bereichen: Leichtgewichtiges Unlearning für Datenschutz

Neues KI-Modell liefert Temperaturprofile für Korallenriffe aus Satellitendaten

KI-gestützte Bewertung von Physikaufgaben: Wie klare Rubriken Zuverlässigkeit sichern

LLM‑Speicher beeinflusst Kooperation in sozialem Partikel‑Schwarm

PERA: Polynomiale Erweiterung verbessert Low‑Rank‑Fine‑Tuning

Beschleunigung von Inferenz mit spekulativem Decoding auf AWS Trainium und vLLM

Neues Rahmenwerk für KI-gestützte Langzeitgesundheitsinteraktionen

A-R-Analyse: Wie Sprachmodelle Tool-Operationen in Unternehmen ausführen

Neues Design für persönliche LLM‑Speicher: Companion Knowledge Systems

Memory Worth: Erfolgsbasierte Speicherverwaltung für Agenten

DIAX: Einheitliches JSON-Format vereint Diabetes‑Zeitreihen für Forschung und KI

SAP integriert agentische KI in Human Capital Management

CycloneMAE: Neues Multi-Task-Modell verbessert globale Tropensturmvorhersagen

Neue Methode testet Zuverlässigkeit von LLMs bei wiederholten Prompt-Generierungen

Neue Sampling-Strategie steigert Vielfalt bei Diffusions-Sprachmodellen

Effiziente Matriximplementierung für Rotary Position Embedding

Graph-RHO: Neuer Ansatz für langfristige Flexible Job-Shop-Planung

Neues Deep‑Learning‑Modell verbessert Modulationsklassifikation bei Rauschen

Temperaturabhängige Leistung von Prompting-Strategien in erweiterten LLMs

Automatisierte Metadaten-Standardisierung in der Biomedizin: LLM-Agent liefert präzise Ergebnisse

Neue Methode zur Faktorisierung formaler Kontexte aus Notwendigkeitsoperatoren

PhysicsNeMo: Darcy Flow, FNOs, PINNs & Surrogatmodelle – Schritt für Schritt

Strategische algorithmische Monokultur: Experimentelle Beweise aus Koordinationsspielen

VOLTA: Überraschende Ineffektivität von Hilfsverlusten im Deep Learning

🍪 Cookie-Einstellungen