Suche nach Retraining | meineki.news

<h1>Skalierung erhöht kritische semantische Duplikate im Pretraining</h1> <p>In der KI‑Forschung wird deutlich, dass Datenduplikate während des Pretrainings die Generalisierung von Modellen stark beeinträchtigen können. Besonders bei Web‑Skalen wird die Definition eines „Duplikats“ komplexer: Neben offensichtlichen Text‑Übereinstimmungen können semantisch gleichwertige Dokumente – etwa Übersetzungen – zu redundanten Trainingssignalen führen, sobald Modelle leistungsfähiger werden.</p> <p>Die Studie zeigt,

arXiv – cs.LG 10.03.2026 04:00

Neues Tool ProtAlign verbessert Protein-Design durch Multi-Objective-Optimierung

Die Gestaltung von Proteinsequenzen erfordert ein feines Gleichgewicht zwischen Designfähigkeit – also der Fähigkeit, eine Zielstruktur exa…

arXiv – cs.LG 10.03.2026 04:00

Forschung

Bias‑Invariant Subnetworks: Fairness aus Standard‑Modellen extrahieren

Die zunehmende Besorgnis über algorithmische Vorurteile hat die Forschung zu einer Vielzahl von Debiasing‑Techniken geführt, die oft auf au…

arXiv – cs.LG 09.03.2026 04:00

Forschung

Hybrid-Optionen steigern Deep RL bei langfristigen Entscheidungen

Ein neuer Ansatz aus dem arXiv-Preprint 2603.06565v1 zeigt, wie Deep Reinforcement Learning (RL) durch logische Optionen vorangetrieben wer…

arXiv – cs.AI 09.03.2026 04:00

Forschung

EEG-Modelle trainieren: Multi-Teacher Distillation nutzt Vision und Zeitreihen

In der Welt der Gehirn‑Signalverarbeitung hat sich das Pre‑Training von EEG‑Foundation‑Modellen bislang stark auf selbstüberwachtes Masked‑…

arXiv – cs.LG 06.03.2026 05:00

Forschung

Unlearnable Examples schlagen zurück: Pretraining macht sie nutzlos

Unlearnable Examples (UEs) sind ein Schutzmechanismus, der unsichtbare Störungen in Daten einfügt, um Modelle dazu zu bringen, falsche Zusa…

arXiv – cs.LG 06.03.2026 05:00

Forschung

Local Shapley: Lokale Datenbewertung durch Modell-Induzierte Lokalität

Die Shapley‑Werte bilden die theoretische Basis für die Bewertung von Daten, doch ihre exakte Berechnung ist aufgrund der exponentiellen An…

arXiv – cs.LG 05.03.2026 05:00

Forschung

Directional Neural Collapse erklärt Few-Shot-Transfer in SSL

In einer neuen Studie auf arXiv wird gezeigt, wie selbstüberwachte Lernmodelle mit nur wenigen gelabelten Beispielen in einer Vielzahl von…

arXiv – cs.LG 05.03.2026 05:00

Forschung

Rigidity‑Aware Geometrisches Pretraining für Protein‑Design und Ensembles

Ein neues Verfahren namens RigidSSL (Rigidity‑Aware Self‑Supervised Learning) verspricht, die Grenzen aktueller generativer Protein‑Design‑…

arXiv – cs.LG 04.03.2026 05:00

Forschung

Router‑Kalibrierung rettet re‑Training‑freie MoE‑Kompression

Die neueste Studie aus dem arXiv‑Repository zeigt, dass die gängige Praxis, Mixture‑of‑Experts‑Modelle ohne erneutes Training zu komprimier…

arXiv – cs.LG 04.03.2026 05:00

Forschung

CoPeP: Benchmark für kontinuierliches Vortraining von Protein‑Sprachmodellen

Protein‑Sprachmodelle (pLMs) haben die Forschung im Bereich der Wirkstoffentwicklung neu definiert, indem sie aus großen, ständig aktualisi…

arXiv – cs.LG 03.03.2026 05:00

Forschung

Neues Brain-OF-Modell vereint fMRI, EEG und MEG in einem Foundation Model

In einer wegweisenden Veröffentlichung präsentiert das Forschungsteam das Brain-OF-Modell, das erstmals fMRI, EEG und MEG gemeinsam in eine…

arXiv – cs.AI 02.03.2026 05:00

Forschung

SleepLM: Sprachbasierte KI revolutioniert Schlafanalyse

SleepLM ist eine neue Familie von Schlaf‑Sprach‑Foundation‑Modellen, die es ermöglichen, menschlichen Schlaf mit natürlicher Sprache auszur…

arXiv – cs.AI 02.03.2026 05:00

Forschung

Neue Methode reduziert additive Fehler bei subadditiven Mengenfunktionen

Subadditive Mengenfunktionen sind in der rechnerischen Ökonomie, bei kombinatorischen Auktionen und in KI-Anwendungen wie interpretierbarem…

arXiv – cs.LG 02.03.2026 05:00

Forschung

Neues Pretraining für Actor-Critic: 86 % weniger Interaktionen bei Robotik

Ein neues Pretraining-Verfahren für Actor‑Critic‑Algorithmen verspricht, die Lernzeit von Robotern drastisch zu verkürzen. Die Autoren stel…

arXiv – cs.LG 02.03.2026 05:00

Forschung

CourtGuard: Modellagnostisches System für Zero-Shot-Policy‑Anpassung in LLM‑Sicherheit

Ein neues Framework namens CourtGuard wurde vorgestellt, das die Sicherheit von großen Sprachmodellen (LLMs) ohne Modell‑Retraining verbess…

arXiv – cs.AI 27.02.2026 05:00

Forschung

Zatom-1: Das erste multimodale Flow-Model für 3D-Moleküle und Materialien

Ein neues, universelles KI-Modell namens Zatom-1 wurde vorgestellt, das sowohl die Generierung als auch die Vorhersage von 3D-Strukturen in…

arXiv – cs.LG 27.02.2026 05:00

Forschung

Neues Post-Training-Verfahren verbessert Wohnungspläne dank Space Syntax

In der Architekturforschung haben generative Modelle für Wohnungspläne lange Zeit große Datensätze optimiert, ohne dabei zentrale architekt…

arXiv – cs.LG 27.02.2026 05:00

Forschung

Graph-Anomalien im Zero‑Shot: Ein generalistisches Modell

In der Welt der Graphdaten – von Cybersicherheit bis zu sozialen Netzwerken – ist die Erkennung von Anomalien entscheidend. Traditionelle G…

arXiv – cs.LG 24.02.2026 05:00

Forschung

MeGU: Maschinelles Unlernen mit gezielter Feature‑Entkoppelung

Der Schutz von Trainingsdaten hat das „Recht auf Vergessen“ zu einer zentralen Anforderung gemacht. Gleichzeitig wächst die Nachfrage nach…

arXiv – cs.LG 20.02.2026 05:00

Forschung

MEMTS: Domänenwissen in Zeitreihen‑Modelle ohne Retrieval einbetten

Die neueste Veröffentlichung von MEMTS zeigt, wie Zeitreihen‑Foundation‑Modelle (TSFMs) in realen Branchen‑Domänen ohne Retrieval‑Overhead…

arXiv – cs.LG 17.02.2026 05:00

Forschung

Neuer Ansatz stabilisiert Low-Rank-LLM-Training

Auf dem arXiv erschienen die Ergebnisse der Studie Stabilizing Native Low-Rank LLM Pretraining (ID 2602.12429v1). Sie zeigen, dass große Sp…

arXiv – cs.LG 16.02.2026 05:00

Forschung

Wie Pretraining die Leistung von Sprachmodellen beim Feintuning beeinflusst

Die Frage, wie sich die Fähigkeiten eines Sprachmodells von der reinen Vortrainingsphase in das gezielte Feintuning übertragen lassen, ist…

arXiv – cs.LG 13.02.2026 05:00

Forschung

Sparse Complementary Fusion: Neue Methode für stabile Modellfusion

Die Fusion von Sprachmodellen gewinnt zunehmend an Bedeutung, weil sie die Fähigkeiten mehrerer spezialisierter Modelle direkt im Gewichtes…

arXiv – cs.AI 13.02.2026 05:00

Forschung

Voxtral Realtime: Echtzeit‑Spracherkennung mit Offline‑Qualität

Mit Voxtral Realtime setzt ein neues Streaming‑Spracherkennungsmodell neue Maßstäbe: Es liefert Transkriptionen in Echtzeit mit einer Verzö…

arXiv – cs.AI 13.02.2026 05:00

Forschung

Progressive Unmasking beschleunigt Masked Diffusion Training um 2,5×

Masked Diffusion Models (MDMs) haben sich als vielversprechende Methode für generative Modelle in diskreten Räumen etabliert. Durch die Mög…

arXiv – cs.LG 12.02.2026 05:00

Forschung

Neues neuronales Skalierungsmodell vorhersagt Trainingserfolg bei großen Modellen

Eine neue Veröffentlichung auf arXiv (2602.10300v1) präsentiert ein neuronales Modell, das die Leistung von großen Sprachmodellen anhand ih…

arXiv – cs.LG 12.02.2026 05:00

Forschung

TabPFN revolutioniert Shapley-Werte: Schneller, genauer, ohne Retraining

Shapley-Werte sind ein zentraler Bestandteil erklärbarer KI, doch ihre Berechnung ist besonders bei abhängigen Merkmalen rechenintensiv. Tr…

arXiv – cs.AI 11.02.2026 05:00

Forschung

Transformers ermöglichen In-Context-Lernen für Motorsteuerung

In einer bahnbrechenden Veröffentlichung zeigen Forscher, dass große Sprachmodelle (LLMs) nicht nur Texte, sondern auch komplexe Signalvera…

arXiv – cs.LG 10.02.2026 05:00

Forschung

Cerebellar‑inspiriertes Residual‑Control: Schnelle Fehlerbehebung ohne Retraining

Roboter, die in der realen Welt eingesetzt werden, stoßen häufig auf unerwartete Fehler, die nach dem Training auftreten. Ein neues Verfahr…

arXiv – cs.LG 10.02.2026 05:00

Finde Modelle, Firmen und Themen

Neues Tool ProtAlign verbessert Protein-Design durch Multi-Objective-Optimierung

Bias‑Invariant Subnetworks: Fairness aus Standard‑Modellen extrahieren

Hybrid-Optionen steigern Deep RL bei langfristigen Entscheidungen

EEG-Modelle trainieren: Multi-Teacher Distillation nutzt Vision und Zeitreihen

Unlearnable Examples schlagen zurück: Pretraining macht sie nutzlos

Local Shapley: Lokale Datenbewertung durch Modell-Induzierte Lokalität

Directional Neural Collapse erklärt Few-Shot-Transfer in SSL

Rigidity‑Aware Geometrisches Pretraining für Protein‑Design und Ensembles

Router‑Kalibrierung rettet re‑Training‑freie MoE‑Kompression

CoPeP: Benchmark für kontinuierliches Vortraining von Protein‑Sprachmodellen

Neues Brain-OF-Modell vereint fMRI, EEG und MEG in einem Foundation Model

SleepLM: Sprachbasierte KI revolutioniert Schlafanalyse

Neue Methode reduziert additive Fehler bei subadditiven Mengenfunktionen

Neues Pretraining für Actor-Critic: 86 % weniger Interaktionen bei Robotik

CourtGuard: Modellagnostisches System für Zero-Shot-Policy‑Anpassung in LLM‑Sicherheit

Zatom-1: Das erste multimodale Flow-Model für 3D-Moleküle und Materialien

Neues Post-Training-Verfahren verbessert Wohnungspläne dank Space Syntax

Graph-Anomalien im Zero‑Shot: Ein generalistisches Modell

MeGU: Maschinelles Unlernen mit gezielter Feature‑Entkoppelung

MEMTS: Domänenwissen in Zeitreihen‑Modelle ohne Retrieval einbetten

Neuer Ansatz stabilisiert Low-Rank-LLM-Training

Wie Pretraining die Leistung von Sprachmodellen beim Feintuning beeinflusst

Sparse Complementary Fusion: Neue Methode für stabile Modellfusion

Voxtral Realtime: Echtzeit‑Spracherkennung mit Offline‑Qualität

Progressive Unmasking beschleunigt Masked Diffusion Training um 2,5×

Neues neuronales Skalierungsmodell vorhersagt Trainingserfolg bei großen Modellen

TabPFN revolutioniert Shapley-Werte: Schneller, genauer, ohne Retraining

Transformers ermöglichen In-Context-Lernen für Motorsteuerung

Cerebellar‑inspiriertes Residual‑Control: Schnelle Fehlerbehebung ohne Retraining

🍪 Cookie-Einstellungen

Neues Pretraining für Actor-Critic: 86 % weniger Interaktionen bei Robotik