Qwen3-Coder-Next: 3Bアクティブパラメータでローカル動作するコーディングエージェント
AlibabaのQwenチームが2026年2月にリリースしたQwen3-Coder-Nextが面白い。80Bパラメータのモデルなのに、実際にアクティベートされるのはたった3B。SWE-Bench Verifiedで70%超えを達成しながら、RTX 4090単体やMacBook Proでもローカル動作する。
ローカルで動くコーディングエージェントを探していたので、技術的な特徴をまとめた。
アーキテクチャ
Mixture of Experts(MoE)ベースで、主要スペックは以下の通り。
| 項目 | 値 |
|---|---|
| 総パラメータ数 | 80B |
| アクティブパラメータ数 | 3B |
| 非埋め込みパラメータ | 79B |
| レイヤー数 | 48(ハイブリッドレイアウト) |
| エキスパート数 | 512 |
| アクティブエキスパート | 10 |
| 共有エキスパート | 1 |
| 隠れ層次元 | 2048 |
| アテンションヘッド | Q:16, KV:2 |
| コンテキスト長 | 256K |
| ライセンス | Apache 2.0 |
注目すべきはアクティブパラメータと総パラメータの比率。Kimi K2.5が1T中32Bをアクティベートするのに対し、Qwen3-Coder-Nextは80B中わずか3B。パラメータ効率が桁違いに高い。
Gated DeltaNet
長文コンテキスト処理のボトルネックは、通常のアテンションの計算量が入力長の二乗に比例すること。Qwen3-Coder-NextではGated DeltaNet(線形アテンション、O(n)計算量)と従来のアテンションをハイブリッドで組み合わせている。
これにより256Kトークンの長いコンテキストでも、二次関数的な速度低下が起きにくい。エージェントタスクでは会話履歴やツール呼び出し結果が蓄積されていくため、この設計は理にかなっている。
ベンチマーク
SWE-Bench Verified
| モデル | スコア | アクティブパラメータ |
|---|---|---|
| Claude Opus 4.5 | 80.9% | 非公開 |
| GPT-5.2 | 80.0% | 非公開 |
| Claude Sonnet 4.5 | 77.2% | 非公開 |
| Kimi K2.5 | 76.8% | 32B |
| Qwen3-Coder-Next | 70.6% | 3B |
70%超えという数字自体はトップモデルに及ばないが、3Bのアクティブパラメータで達成している点が重要。10〜20倍のパラメータを持つモデルと同等レベルの性能を、はるかに少ない計算リソースで実現している。
実務タスク評価
16x Engineerの評価結果。
| タスク | スコア |
|---|---|
| Markdown整形(中難度) | 9.25/10 |
| フォルダー監視修正(通常) | 8.75/10 |
| Next.js TODO機能(簡単) | 8.0/10 |
| ベンチマーク可視化(難) | 7.0/10 |
| TypeScript型絞り込み(特殊) | 1.0/10 |
| 総合平均 | 6.8/10 |
中難易度の標準的なコーディングタスクでは強い。一方、TypeScriptの型絞り込みのような特殊なパターンは苦手。オープンソースではDeepSeek V3を上回り、Kimi K2に次ぐポジション。
ローカル実行
ハードウェア要件
量子化を使えば、意外と現実的なハードウェアで動作する。
- RTX 4090(24GB VRAM): Q4量子化で動作可能
- MacBook Pro(十分なRAM): GGUF形式で動作可能
- 推奨: 64GB以上のシステムRAM
対応フォーマット
| フォーマット | 用途 |
|---|---|
| Safetensors(BF16) | フルモデル |
| FP8 | 量子化版(メモリ削減) |
| GGUF | llama.cpp/Ollama用 |
Ollamaでの実行
ollama run qwen3-coder-next
llama.cppでの実行
./llama-server -m Qwen3-Coder-Next.gguf -c 32768 -ngl 99
メモリ不足の場合はコンテキスト長を32,768に削減することが推奨されている。
エージェント統合
対応プラットフォーム
Claude Code、Qwen Code、Cline、Continue、Cursor等の主要なコーディングアシスタントに対応。OpenAI互換APIとして動作するため、既存のツールチェーンにそのまま組み込める。
vLLMでのサーバー起動
pip install 'vllm>=0.15.0'
vllm serve Qwen/Qwen3-Coder-Next \
--port 8000 \
--tensor-parallel-size 2 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder
SGLangでのサーバー起動
pip install 'sglang[all]>=v0.5.8'
python -m sglang.launch_server \
--model Qwen/Qwen3-Coder-Next \
--port 30000 \
--tp-size 2 \
--tool-call-parser qwen3_coder
ツール呼び出し
OpenAI互換のFunction Callingに対応。
from openai import OpenAI
client = OpenAI(base_url='http://localhost:8000/v1', api_key="EMPTY")
tools = [{
"type": "function",
"function": {
"name": "read_file",
"description": "ファイルの内容を読み取る",
"parameters": {
"type": "object",
"required": ["path"],
"properties": {
"path": {"type": "string", "description": "ファイルパス"}
}
}
}
}]
response = client.chat.completions.create(
model="Qwen3-Coder-Next",
messages=[{"role": "user", "content": "main.pyの内容を確認して"}],
tools=tools,
max_tokens=65536
)
推奨サンプリングパラメータ
- Temperature: 1.0
- Top P: 0.95
- Top K: 40
注意点
- 思考モードなし:
<think></think>ブロックは生成されない。推論過程を見たい場合は別のモデルを検討 - 特殊パターンが苦手: TypeScriptの型絞り込みなど、あまり見かけないコードパターンでは精度が落ちる
- UI生成は微妙: ビジュアライゼーションタスクでフォーマットの問題が報告されている
所感
Claude 4系やGPT-5系の有料モデルとは差があるものの、ローカルで動作するコーディングエージェントとしては現状最強クラス。3Bのアクティブパラメータで70%超えのSWE-Benchスコアは効率面で画期的。
APIコストを気にせず使い倒せるのは大きい。プライベートなコードベースを外部に送りたくない場合や、オフライン環境で開発したい場合に選択肢になる。
とはいえ、個人的には今Claude Opus 4.5、GPT-5.2、Gemini 2.5 Proの有料最上位を使っているので、利用頻度は低くなりそう。Claude Sonnet 5も控えているし、ローカルLLMにもSonnet 4.5くらいの性能は欲しいところ。軽めのタスクを投げて比較検証してみるかもしれない。