Kimi K2.5: 1兆パラメータMoEのネイティブマルチモーダルエージェントモデル
Moonshot AIが2026年1月27日にリリースしたKimi K2.5が面白い。1兆パラメータのMoEモデルで、ネイティブマルチモーダル対応、Agent Swarmによる並列エージェント実行まで備えている。MITライセンスのオープンソースで、HuggingFaceからウェイトを取得できる。
技術的に気になったポイントをまとめた。
アーキテクチャ
Transformer MoEベースで、主要スペックは以下の通り。
| 項目 | 値 |
|---|---|
| 総パラメータ数 | 1T(1兆) |
| アクティブパラメータ数 | 32B |
| レイヤー数 | 61(うちdense 1層) |
| エキスパート数 | 384 + 共有1 |
| Top-K | 8 |
| Attention Hidden Dim | 7168 |
| MoE Hidden Dim(per expert) | 2048 |
| Attention Head数 | 64 |
| 語彙サイズ | 160K |
| Attention | Multi-head Latent Attention(MLA) |
| 活性化関数 | SwiGLU |
| コンテキスト長 | 256K |
注目すべきはTop-8ルーティング。Mixtralなど多くのMoEモデルがTop-2を採用する中、K2.5は8エキスパートを同時にアクティベートする。スループットよりも表現の豊かさを優先した設計で、これがクリエイティブな生成タスクやニュアンスの検出に効いているとされる。
MoonViT
ビジョンエンコーダーとして独自のMoonViT(400Mパラメータ)を搭載。後付けのコネクタでビジョンタワーをLLMに接続するVLMとは異なり、15兆トークンの学習データが最初からビジョンとテキストの混合で構成されている。
画像の特徴量は空間・時間方向のプーリングで圧縮され、LLMの埋め込み空間に射影される。画像・動画・PDFをネイティブに処理でき、UIデザイン画像からのフロントエンドコード生成や、動画からのワークフロー抽出といったタスクに強い。
Agent Swarm(PARL)
K2.5の目玉機能がAgent Swarm。Parallel-Agent Reinforcement Learning(PARL)というフレームワークで訓練されている。
仕組みとしては、オーケストレーターエージェントがタスクを並列化可能なサブタスクに分解し、最大100のサブエージェントを動的に生成して最大1,500ステップを協調実行する。事前に役割を定義したり、ワークフローを手作りする必要がない。
Serial Collapse問題
並列オーケストレーターの訓練で厄介なのが「Serial Collapse」。並列実行の能力があるにもかかわらず、オーケストレーターが単一エージェントの逐次実行に退化してしまう現象。PARLではstaged reward shapingとannealing coefficient(λaux: 0.1→0.0)で対処している。
評価指標: Critical Steps
Agent Swarmの性能評価には、総ステップ数ではなくCritical Steps(レイテンシ指向)を使用する。
CriticalSteps = Σ(Smain(t) + max_i Ssub,i(t))
並列実行されるサブタスクのうち最も時間がかかるものだけをカウントするため、並列化の効果を正確に測れる。
性能
- エンドツーエンドのランタイムを80%削減
- 単一エージェント実行と比較して3〜4.5倍の高速化
ベンチマーク
主要ベンチマークのスコア。
| ベンチマーク | スコア |
|---|---|
| HLE Full(テキスト、ツールあり) | 51.8% |
| HLE Full(画像、ツールあり) | 39.8% |
| BrowseComp(自律Web操作) | 60.2% |
| MMMU-Pro | 78.5% |
| AIME 2025 | 96.1% |
| SWE-Bench Verified | 76.8% |
| LiveCodeBench v6 | 85.0% |
BrowseCompではGPT-5(54.9%)を上回る60.2%で世界記録を更新。HLE Full(ツールあり)でもGPT-5.2やClaude 4.5 Opusを超えている。
量子化とローカル実行
MoEコンポーネントにQuantization-Aware Training(QAT)によるネイティブINT4量子化が適用されている。後付けの量子化ではなく、訓練段階から4bit精度を織り込んでいるのがポイント。
INT4量子化後のモデルサイズは約595GB。Mac Studio M3 Ultra(512GB RAM)2台をMLXのmx.distributedで接続して動作させた報告がある。LM StudioやOllamaでもサポートが始まっている。
API
OpenAI/Anthropic互換のAPIが提供されている。
| 項目 | 値 |
|---|---|
| 入力 | $0.60/Mトークン |
| 出力 | $3.00/Mトークン |
| ライセンス | MIT |
kimi.comではInstant/Thinkingモードが無料で利用可能。Fireworks AI、OpenRouter、Together AIなどのサードパーティプラットフォームでも利用できる。