技術
約2分で読めます
Agent Lightning: MicrosoftのAIエージェント強化学習フレームワーク
MicrosoftがAIエージェントを強化学習(RL)で訓練するためのフレームワーク「Agent Lightning」をオープンソースで公開している。
https://github.com/microsoft/agent-lightning
何ができるのか
「ほぼコード変更ゼロで、あらゆるAIエージェントを最適化できる」というのがコンセプト。
主な特徴:
- フレームワーク非依存: LangChain、OpenAI Agent SDK、AutoGen、CrewAI、Claude Agent SDKなど、どのエージェントフレームワークでも使える。フレームワークなしの素のPython + OpenAIでもOK
- ゼロコードチェンジ: 既存のエージェントコードに軽量な
agl.emit_xxx()ヘルパーを差し込むだけ - 選択的最適化: マルチエージェントシステムの中から、特定のエージェントだけを選んで最適化できる
- 複数アルゴリズム: 強化学習、自動プロンプト最適化、Supervised Fine-tuningなどに対応
アーキテクチャ
エージェントの実行中に発生するプロンプト・ツール呼び出し・報酬をトレーサーが収集し、構造化スパンとして LightningStore に蓄積する。ストアの反対側にあるアルゴリズムがスパンを読み取って学習し、改善されたプロンプトテンプレートやポリシーウェイトを反映する仕組み。
[Agent] → [Tracer] → [LightningStore] → [Algorithm] → [Updated Resources]
既存のエージェントコードはそのまま動かしつつ、トレーサーがデータを収集して裏でアルゴリズムが学習する構造。
インストール
pip install agentlightning
動作環境
公式にサポートされているのは Linuxのみ。
| 環境 | 状況 |
|---|---|
| Linux + CUDA GPU | フルサポート |
| macOS | 非サポート |
| Windows (WSL2含む) | 非サポート |
| CPU-only | 評価・推論のみ可能(Linuxのみ) |
本格的なRL訓練にはCUDA対応GPU(RTX 4090など)が必要。M1/M2/M3 MacやApple Siliconでは動かない。
Power Samplingとの対比
以前紹介したPower Samplingは「RLなしでサンプリング戦略だけでLLMの推論能力を引き出せる」という主張だった。ベースモデルは既に推論能力を持っており、RLは確率分布を操作しているだけという仮説に基づいている。
Agent Lightningは逆のアプローチで、RLを積極的に使ってエージェントを最適化する。どちらが優れているかは用途次第だが、両方の視点を持っておくと選択肢が広がる。