Agent Lightning: MicrosoftのAIエージェント強化学習フレームワーク

MicrosoftがAIエージェントを強化学習（RL）で訓練するためのフレームワーク「Agent Lightning」をオープンソースで公開している。

何ができるのか

「ほぼコード変更ゼロで、あらゆるAIエージェントを最適化できる」というのがコンセプト。

主な特徴:

フレームワーク非依存: LangChain、OpenAI Agent SDK、AutoGen、CrewAI、Claude Agent SDKなど、どのエージェントフレームワークでも使える。フレームワークなしの素のPython + OpenAIでもOK
ゼロコードチェンジ: 既存のエージェントコードに軽量な agl.emit_xxx() ヘルパーを差し込むだけ
選択的最適化: マルチエージェントシステムの中から、特定のエージェントだけを選んで最適化できる
複数アルゴリズム: 強化学習、自動プロンプト最適化、Supervised Fine-tuningなどに対応

エージェントの実行中に発生するプロンプト・ツール呼び出し・報酬をトレーサーが収集し、構造化スパンとして LightningStore に蓄積する。ストアの反対側にあるアルゴリズムがスパンを読み取って学習し、改善されたプロンプトテンプレートやポリシーウェイトを反映する仕組み。

[Agent] → [Tracer] → [LightningStore] → [Algorithm] → [Updated Resources]

既存のエージェントコードはそのまま動かしつつ、トレーサーがデータを収集して裏でアルゴリズムが学習する構造。

pip install agentlightning

公式にサポートされているのは Linuxのみ。

本格的なRL訓練にはCUDA対応GPU（RTX 4090など）が必要。M1/M2/M3 MacやApple Siliconでは動かない。

以前紹介したPower Samplingは「RLなしでサンプリング戦略だけでLLMの推論能力を引き出せる」という主張だった。ベースモデルは既に推論能力を持っており、RLは確率分布を操作しているだけという仮説に基づいている。

Agent Lightningは逆のアプローチで、RLを積極的に使ってエージェントを最適化する。どちらが優れているかは用途次第だが、両方の視点を持っておくと選択肢が広がる。