#強化学習

9 件の記事

技術2026年7月7日(火)約6分

Transformerを1層だけRL訓練しても全パラメータ学習に匹敵するという論文、検証はQwen系7モデル

RLの利得は深さ40〜60%の中間層に集中し、最良の1層だけ訓練すると全パラメータ訓練を上回ることもある。Qwen3系で層番号と数値まで出ている論文（arXiv 2607.01232）を読んだ。

技術2026年4月30日(木)約8分

OpenAIがGPT-5.1以降で増えた特定の比喩表現について、人格カスタマイズ、報酬信号、SFTデータへの混入、Codexでの抑制まで調査結果を公開した。

技術2026年4月1日(水)約10分

HuggingFaceのLLMポストトレーニングライブラリTRLがv1.0に到達。Stable/Experimental二層モデルの導入、GRPO・DPO・SFTなど主要手法の安定化、非同期GRPOのロードマップが示された。

技術2026年3月27日(金)約10分

Meta AIのHyperAgentsは改善戦略そのものを最適化するメタ認知的自己修正を実現。コーディング以外の4ドメインで自己改善が動き、別ドメインで獲得した改善戦略の転移や永続メモリの自発的獲得が観察された。

技術2026年3月27日(金)約7分

Chromaが公開した20Bパラメータの自己編集型検索エージェント。コンテキストを動的にプルーニングしながらマルチホップ検索を行い、フロンティアモデルの1/10コスト・最大10倍速のレイテンシで同等以上の精度を示す。重みはApache 2.0で公開。

技術2026年3月21日(土)約3分

CursorがComposer 2の基盤モデルを未公表のままリリースし、API経由でKimi K2.5であることが判明。ライセンス問題に発展したが、Moonshot AIとの正式契約が確認された。

技術2026年3月11日(水)約6分

HuggingFaceが16のオープンソースRL訓練ライブラリを7つの設計軸で比較分析。同期型では生成ボトルネックでGPU利用率が60%程度に留まるが、非同期分離設計で95%以上に改善できる。

技術2026年2月3日(火)約2分

Microsoftが公開した、ほぼコード変更なしであらゆるAIエージェントを強化学習で最適化できるフレームワーク。LangChain、AutoGen、Claude Agent SDKなど任意のフレームワークに対応。

技術2026年2月2日(月)約5分

RLで学習させなくても、推論時のサンプリング戦略を変えるだけでLLMの推論性能が向上する。Haitham Bou Ammar氏の記事をもとに、Power Samplingの仕組みと実務的なインパクトを解説する。