技術 2026年3月11日(水) 約6分 16のオープンソースRLライブラリで見えたLLM非同期訓練の設計パターン HuggingFaceが16のオープンソースRL訓練ライブラリを7つの設計軸で比較分析。同期型では生成ボトルネックでGPU利用率が60%程度に留まるが、非同期分離設計で95%以上に改善できる。 AI 機械学習 強化学習 LLM
技術 2026年2月3日(火) 約2分 Agent Lightning: MicrosoftのAIエージェント強化学習フレームワーク Microsoftが公開した、ほぼコード変更なしであらゆるAIエージェントを強化学習で最適化できるフレームワーク。LangChain、AutoGen、Claude Agent SDKなど任意のフレームワークに対応。 AI エージェント 強化学習 Python Microsoft
技術 2026年2月2日(月) 約5分 Power Sampling:強化学習なしでLLMの推論能力を引き出す RLで学習させなくても、推論時のサンプリング戦略を変えるだけでLLMの推論性能が向上する。Haitham Bou Ammar氏の記事をもとに、Power Samplingの仕組みと実務的なインパクトを解説する。 LLM 推論 強化学習 サンプリング AI