COVERT: Neue Synthese für KI-Tool-Use, die RL-Training verbessert
Die neu entwickelte Pipeline COVERT liefert KI-Systemen ein robustes Trainingsmaterial für Reinforcement Learning (RL). Durch einen zweistufigen Ansatz werden erst verlässliche Tool‑Use‑Trajektorien generiert und anschl…