技術 2026年4月1日(水) 約10分 TRL v1.0がメジャーリリース、LLMポストトレーニングの安定基盤へ HuggingFaceのLLMポストトレーニングライブラリTRLがv1.0に到達。Stable/Experimental二層モデルの導入、GRPO・DPO・SFTなど主要手法の安定化、非同期GRPOのロードマップが示された。 AI 機械学習 強化学習 LLM HuggingFace