Forschung arXiv – cs.AI

COVERT: Neue Synthese für KI-Tool-Use, die RL-Training verbessert

Die neu entwickelte Pipeline COVERT liefert KI-Systemen ein robustes Trainingsmaterial für Reinforcement Learning (RL). Durch einen zweistufigen Ansatz werden erst verlässliche Tool‑Use‑Trajektorien generiert und anschl…

≈2 Min. Lesezeit Originalquelle
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Die neu entwickelte Pipeline COVERT liefert KI-Systemen ein robustes Trainingsmaterial für Reinforcement Learning (RL).
  • Durch einen zweistufigen Ansatz werden erst verlässliche Tool‑Use‑Trajektorien generiert und anschließend gezielt komplexere Umgebungen geschaffen, die reale Abläufe bes…
  • Im ersten Schritt nutzt COVERT eine selbstentwickelnde Synthese, die mithilfe mehrstufiger Validierung sicherstellt, dass die Basis‑Trajektorien korrekt und zuverlässig…

Die neu entwickelte Pipeline COVERT liefert KI-Systemen ein robustes Trainingsmaterial für Reinforcement Learning (RL). Durch einen zweistufigen Ansatz werden erst verlässliche Tool‑Use‑Trajektorien generiert und anschließend gezielt komplexere Umgebungen geschaffen, die reale Abläufe besser abbilden.

Im ersten Schritt nutzt COVERT eine selbstentwickelnde Synthese, die mithilfe mehrstufiger Validierung sicherstellt, dass die Basis‑Trajektorien korrekt und zuverlässig sind. Diese Trajektorien bilden die Grundlage für das weitere Training.

Der zweite Schritt führt „oracle‑preserving“ Augmentierungen ein: Distraktortools, indirekte oder mehrdeutige Nutzeranfragen sowie verrauschte, mehrformate oder fehlerhafte Tool‑Ausgaben werden hinzugefügt, während die ursprünglichen Oracle‑Aufrufe und Endergebnisse als Referenz erhalten bleiben. Dadurch entsteht ein realistisches, aber kontrolliertes Umfeld für das RL‑Training.

Für die Belohnungsberechnung wird ein zweistufiges Verfahren eingesetzt: Standardfälle werden durch Referenzabgleich automatisch bewertet, während spezielle Verhaltensweisen wie Fehlererkennung von einem leichtgewichtigen Prüfer unterstützt werden. Dieses System ermöglicht eine präzise und effiziente Optimierung der Tool‑Calling‑Strategien.

In Experimenten mit dem Modell Qwen2.5‑Instruct‑14B erzielte COVERT‑RL eine Steigerung der Gesamtgenauigkeit auf BFCL v3 von 56,5 % auf 59,9 % und auf ACEBench von 53,0 % auf 59,3 %. Die Verbesserungen gingen mit minimalen Regressionswerten bei allgemeinen Benchmarks einher. Wenn die Pipeline zusätzlich auf ein bereits feinabgestimmtes Modell (SFT) gestapelt wurde, erreichte sie noch höhere Werte von 62,1 % bzw. 61,8 %.

Diese Ergebnisse zeigen, dass oracle‑preserving synthetische Umgebungen einen praktikablen und ergänzenden RL‑Verfeinerungs‑Schritt darstellen. Sie erhöhen die Robustheit von KI‑Systemen im Umgang mit Mehrdeutigkeiten und unzuverlässigem Tool‑Feedback, ohne die Grundleistung zu beeinträchtigen.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

COVERT
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Reinforcement Learning
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Tool-Use-Trajektorien
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen