Hugging Face präsentiert TRL v1.0: Post-Training-Stack für SFT, Reward Modeling, DPO & GRPO
Hugging Face hat die erste stabile Version von TRL (Transformer Reinforcement Learning) veröffentlicht. Mit TRL v1.0 wird die Bibliothek von einem rein forschungsorientierten Repository zu einem vollwertigen, produktionsbereiten Framework überführt. Die neue Version bündelt den gesamten Post‑Traini…