技術 約2分で読めます

Agent Lightning: MicrosoftのAIエージェント強化学習フレームワーク

MicrosoftがAIエージェントを強化学習(RL)で訓練するためのフレームワーク「Agent Lightning」をオープンソースで公開している。

https://github.com/microsoft/agent-lightning

何ができるのか

「ほぼコード変更ゼロで、あらゆるAIエージェントを最適化できる」というのがコンセプト。

主な特徴:

  • フレームワーク非依存: LangChain、OpenAI Agent SDK、AutoGen、CrewAI、Claude Agent SDKなど、どのエージェントフレームワークでも使える。フレームワークなしの素のPython + OpenAIでもOK
  • ゼロコードチェンジ: 既存のエージェントコードに軽量な agl.emit_xxx() ヘルパーを差し込むだけ
  • 選択的最適化: マルチエージェントシステムの中から、特定のエージェントだけを選んで最適化できる
  • 複数アルゴリズム: 強化学習、自動プロンプト最適化、Supervised Fine-tuningなどに対応

アーキテクチャ

エージェントの実行中に発生するプロンプト・ツール呼び出し・報酬をトレーサーが収集し、構造化スパンとして LightningStore に蓄積する。ストアの反対側にあるアルゴリズムがスパンを読み取って学習し、改善されたプロンプトテンプレートやポリシーウェイトを反映する仕組み。

[Agent] → [Tracer] → [LightningStore] → [Algorithm] → [Updated Resources]

既存のエージェントコードはそのまま動かしつつ、トレーサーがデータを収集して裏でアルゴリズムが学習する構造。

インストール

pip install agentlightning

動作環境

公式にサポートされているのは Linuxのみ

環境状況
Linux + CUDA GPUフルサポート
macOS非サポート
Windows (WSL2含む)非サポート
CPU-only評価・推論のみ可能(Linuxのみ)

本格的なRL訓練にはCUDA対応GPU(RTX 4090など)が必要。M1/M2/M3 MacやApple Siliconでは動かない。

Power Samplingとの対比

以前紹介したPower Samplingは「RLなしでサンプリング戦略だけでLLMの推論能力を引き出せる」という主張だった。ベースモデルは既に推論能力を持っており、RLは確率分布を操作しているだけという仮説に基づいている。

Agent Lightningは逆のアプローチで、RLを積極的に使ってエージェントを最適化する。どちらが優れているかは用途次第だが、両方の視点を持っておくと選択肢が広がる。

関連リンク