Suche nach Long-Context

VSPrefill: Neue Sparse‑Attention für lange Kontexte – 4,95‑fach schneller

Die quadratische Komplexität der Selbst‑Attention‑Phase behindert die Nutzung von Sprachmodellen mit sehr langen Kontexten. Bestehende Spar…

arXiv – cs.LG 06.03.2026 05:00

Forschung

CHESS: Effiziente, kontextbewusste KV-Cache-Optimierung für LLMs

Ein neues arXiv-Papier (2602.20732v1) präsentiert CHESS, ein innovatives System zur Verwaltung des KV-Caches bei großen Sprachmodellen mit…

arXiv – cs.AI 25.02.2026 05:00

Forschung

Neuer Memory-Agent optimiert Langzeit-Reasoning mit Speicherverwaltung

In einer wegweisenden Veröffentlichung stellen Forscher einen neuen Ansatz vor, der die Art und Weise, wie große Sprachmodelle (LLMs) und R…

arXiv – cs.LG 24.02.2026 05:00

Forschung

AllMem: Speicherzentrierte Architektur für effizientes Langkontext-Modeling

Die neuesten Fortschritte im Bereich der großen Sprachmodelle (LLMs) zeigen, dass die klassische Self‑Attention‑Methode bei langen Sequenze…

arXiv – cs.AI 17.02.2026 05:00

Forschung

Neues Geometric Reasoner verbessert Langkettige Logik ohne Trainingsaufwand

Ein völlig neues, trainingsfreies Framework namens Geometric Reasoner (TGR) hat die Art und Weise, wie große Sprachmodelle lange Argumentat…

arXiv – cs.AI 28.01.2026 05:00

Forschung

ORBITFLOW: Adaptive KV-Cache-Optimierung steigert LLM-Performance um bis zu 3,3× Die Ausführung von Sprachmodellen mit langen Kontexten stellt die KI-Community vor ein großes Problem: Während die Token‑Generierung fortschreitet, schwankt der Speicherbedarf stark, sodass die GPU‑Speicherauslastung unvorhersehbar wird. Traditionelle Offloading‑Strategien, die KV‑Caches statisch in den Host‑Speicher verschieben, können diese Schwankungen nicht in Echtzeit ausgleichen. Das führt zu häufigen CPU‑zu‑GPU

arXiv – cs.AI 19.01.2026 05:00

Forschung

EAPO: Neue RL-Methode verbessert Langkontext-Logik durch Beweisoptimierung

In der Welt der großen Sprachmodelle (LLM) hat sich das Reinforcement Learning (RL) als kraftvolles Werkzeug erwiesen, um die Fähigkeit zur…

arXiv – cs.AI 16.01.2026 05:00

Forschung

LLM2IR: Unüberwachtes kontrastives Lernen macht LLMs zu starken Suchmaschinen

In einer neuen Studie wird gezeigt, wie ein einfaches, unüberwachtes kontrastives Lernverfahren große Sprachmodelle (LLMs) in leistungsfähi…

arXiv – cs.AI 12.01.2026 05:00

Forschung

Effiziente Langkontext-Inferenz: Write-Gated KV reduziert Speicherbedarf um bis zu 57 %

Die neue Studie von EMCLab-Sinica zeigt, dass die häufigste Ursache für langsame Langkontext-Inferenz bei großen Sprachmodellen nicht die q…

arXiv – cs.LG 22.12.2025 05:00

Forschung

Nemotron-Math: Effiziente Langkontext-Distillation mathematischer Argumentation

Die neueste Veröffentlichung von Nemotron-Math liefert ein umfangreiches mathematisches Reasoning‑Dataset, das die Grenzen bisheriger Daten…

arXiv – cs.AI 18.12.2025 05:00

Forschung

Testzeit-Training steigert Leistung von LLMs mit langen Kontexten

Mit den neuesten Fortschritten in Training und Architektur können große Sprachmodelle inzwischen Millionen von Tokens im Kontext verarbeite…

arXiv – cs.LG 17.12.2025 05:00

Forschung

ChipMind: LLM-gestützte Logik für lange Schaltkreis‑Spezifikationen

Die neuesten Fortschritte in der KI zeigen, dass große Sprachmodelle (LLMs) das Potenzial besitzen, die Entwicklung von integrierten Schalt…

arXiv – cs.AI 08.12.2025 05:00

Forschung

LLM-WebAgents: Neue Benchmark zeigt schwere Verluste bei langen Kontexten Mit der zunehmenden Verbreitung von KI‑Agenten im Alltag wird die Fähigkeit, über lange Interaktionsverläufe hinweg zu denken, immer wichtiger. Ein neues Benchmark‑Set, das von Forschern auf arXiv veröffentlicht wurde, prüft genau diese Fähigkeit bei Web‑Agenten, die in realen Browser‑Umgebungen agieren. Das Testsystem simuliert mehrere Benutzersitzungen, indem zwischen abhängigen Teilaufgaben absichtlich irrelevante

arXiv – cs.LG 05.12.2025 05:00

Aktuell

GAM bekämpft „Kontextverfall“: Zweifach-Agenten‑Speicher übertrifft LLMs

KI‑Modelle besitzen zwar enorme Rechenleistung, doch sie haben einen überraschend menschlichen Mangel: Sie vergessen. In langen Gesprächen…

VentureBeat – AI 04.12.2025 09:00

Forschung

LLM-Agenten im langen Kontext: Sicherheitsmechanismen versagen

Neue Forschungsergebnisse zeigen, dass Sprachmodelle, die mit langen Kontextfenstern arbeiten, bei der Ausführung komplexer Aufgaben unerwa…

arXiv – cs.LG 03.12.2025 05:00

Forschung

SpecPV beschleunigt Langkontext-Generierung um bis zu 6x

Die steigende Nachfrage nach Aufgaben wie Code‑Generierung, tiefgreifendem Denken und dem Verständnis langer Dokumente hat die Langkontext‑…

arXiv – cs.LG 03.12.2025 05:00

Forschung

SpeContext: Effiziente Langkontext-Analyse mit spekulativer Kontextdünnung

In einer wegweisenden Veröffentlichung präsentiert SpeContext ein neues Paradigma für die Verarbeitung langer Kontexte in großen Sprachmode…

arXiv – cs.AI 02.12.2025 05:00

Forschung

TawPipe: Topologie‑bewusster Weight‑Pipeline‑Parallelismus schnelleres LLM‑Training

Das Training großer Sprachmodelle wird häufig durch begrenzten Gerätespeicher und teure Inter‑Device‑Kommunikation eingeschränkt. Pipeline‑…

arXiv – cs.LG 14.11.2025 05:00

Forschung

BudgetMem: Effiziente Langkontextverarbeitung mit selektiver Gedächtnissteuerung

Ein neues Modell namens BudgetMem, vorgestellt auf arXiv (2511.04919v1), löst ein zentrales Problem moderner Sprachmodelle: die hohen Koste…

arXiv – cs.AI 10.11.2025 05:00

Forschung

Neues Benchmark für lange Kontexte: Effiziente Kernels & verteilte Attention

Ein neues Benchmark-Framework, veröffentlicht auf arXiv (2510.17896v1), bietet Forschern und Entwicklern ein einheitliches Testsystem, um d…

arXiv – cs.LG 22.10.2025 05:00

Forschung

TabPFN v2: Mit Chunked-TabPFN Längere Tabellendaten ohne Vorverarbeitung meistern

Die neueste Version von TabPFN, genannt v2, übertrifft herkömmliche baumbasierte Modelle bei mehreren tabellarischen Benchmarks – ein bemer…

arXiv – cs.LG 03.09.2025 05:00

Forschung

UltraMemV2 erreicht mit 120 B Parametern die Leistung von 8‑Expert MoE-Modellen

Die neueste Version des Memory‑Layer‑Netzwerks, UltraMemV2, hat mit 120 B Gesamtparametern die gleiche Leistungsfähigkeit wie aktuelle 8‑Ex…

arXiv – cs.LG 27.08.2025 05:00

Finde Modelle, Firmen und Themen

VSPrefill: Neue Sparse‑Attention für lange Kontexte – 4,95‑fach schneller

CHESS: Effiziente, kontextbewusste KV-Cache-Optimierung für LLMs

Neuer Memory-Agent optimiert Langzeit-Reasoning mit Speicherverwaltung

AllMem: Speicherzentrierte Architektur für effizientes Langkontext-Modeling

Neues Geometric Reasoner verbessert Langkettige Logik ohne Trainingsaufwand

EAPO: Neue RL-Methode verbessert Langkontext-Logik durch Beweisoptimierung

LLM2IR: Unüberwachtes kontrastives Lernen macht LLMs zu starken Suchmaschinen

Effiziente Langkontext-Inferenz: Write-Gated KV reduziert Speicherbedarf um bis zu 57 %

Nemotron-Math: Effiziente Langkontext-Distillation mathematischer Argumentation

Testzeit-Training steigert Leistung von LLMs mit langen Kontexten

ChipMind: LLM-gestützte Logik für lange Schaltkreis‑Spezifikationen

GAM bekämpft „Kontextverfall“: Zweifach-Agenten‑Speicher übertrifft LLMs

LLM-Agenten im langen Kontext: Sicherheitsmechanismen versagen

SpecPV beschleunigt Langkontext-Generierung um bis zu 6x

SpeContext: Effiziente Langkontext-Analyse mit spekulativer Kontextdünnung

TawPipe: Topologie‑bewusster Weight‑Pipeline‑Parallelismus schnelleres LLM‑Training

BudgetMem: Effiziente Langkontextverarbeitung mit selektiver Gedächtnissteuerung

Neues Benchmark für lange Kontexte: Effiziente Kernels & verteilte Attention

TabPFN v2: Mit Chunked-TabPFN Längere Tabellendaten ohne Vorverarbeitung meistern

UltraMemV2 erreicht mit 120 B Parametern die Leistung von 8‑Expert MoE-Modellen

🍪 Cookie-Einstellungen

Effiziente Langkontext-Inferenz: Write-Gated KV reduziert Speicherbedarf um bis zu 57 %

UltraMemV2 erreicht mit 120 B Parametern die Leistung von 8‑Expert MoE-Modellen