Xiaomi MiMo-V2.5とV2.5-Pro同時公開、1Mオムニモーダルと1000ツール呼び出しエージェントをAPI先行で提供
目次
Xiaomiが4月22日、MiMoシリーズの新世代として「MiMo-V2.5-Pro」と「MiMo-V2.5」の2モデルを同時にpublic beta公開した。
従来のMiMoはV2-Flash(オープンウェイト309B MoE)とV2-Pro(API専用)が軸だったが、V2.5世代ではProを一気にフロンティア級に引き上げつつ、通常版にネイティブオムニモーダルと1Mコンテキストを載せてきた。
1日ズレでQwen3.6-Max-PreviewとKimi K2.6が同時リリースされたばかりで、中華系1T級フラッグシップが4月第4週だけで3社ぶつかっている格好になる。
2モデルのポジショニング
MiMo-V2.5系列は、同じ世代の中でPro版と通常版で狙うレイヤーが明確に分かれている。
flowchart LR
M[MiMo-V2.5シリーズ] --> M1[MiMo-V2.5-Pro<br/>フラッグシップ<br/>長期エージェント特化]
M --> M2[MiMo-V2.5<br/>ネイティブオムニモーダル<br/>1Mコンテキスト]
M1 -.コスト約2倍.-> P[API従量課金<br/>2x乗数]
M2 -.コスト約半分.-> Q[API従量課金<br/>1x乗数]
Proは「Claude Opus 4.6やGPT-5.4とほぼ同格の性能を、より少ないトークンで出すエージェントモデル」という立ち位置。
通常版のMiMo-V2.5は「Pro級の汎用エージェント性能を保ちつつ、画像・動画・音声まで1モデルで扱う」側に振っている。
V2-Proから見ると、Proの上位互換(性能向上・トークン効率改善)+通常版としてのオムニモーダル派生、という2枚看板の世代交代と言っていい。
Xiaomi公式のポジション説明は Pro が「当社史上最強」、通常版が「ほぼ半分のコストでProレベルのエージェント性能」。
料金はトークンクレジット制で、Pro = 2x、通常版 = 1x の固定乗数。
コンテキスト長による階段式料金は採用しておらず、1Mまで埋めても乗数は変わらないと明記されている。
基本スペック
現時点で公開されている公式情報・サードパーティ情報を整理するとこうなる。
Xiaomiは今回、パラメータ数やアーキテクチャの細部は明示していない部分が多く、OpenRouter/MarkTechPost経由でようやく数字が拾える項目もある。
| 項目 | MiMo-V2.5-Pro | MiMo-V2.5 |
|---|---|---|
| 総パラメータ | 1T(報道ベース) | 非公開 |
| アクティブパラメータ | 42B/トークン(報道ベース) | 非公開 |
| アーキテクチャ | Sparse MoE(詳細非公開) | Sparse MoE+ネイティブオムニモーダル |
| モダリティ | テキスト中心 | テキスト+画像+動画+音声(ネイティブ) |
| コンテキスト長 | 非公開(実用的には超長尺対応) | 1,000,000(1M)トークン |
| ライセンス | クローズド、API専用 | クローズド、API専用 |
| 料金乗数 | 2x | 1x |
| 公開 | 2026-04-22 public beta | 2026-04-22 public beta |
Proの1T/42Bアクティブという数字は、同日のKimi K2.6(1T / 32Bアクティブ)や智谱GLM-5.1(744B / 40Bアクティブ)とほぼ同じレンジに収まっている。
「1T MoE・30〜40Bアクティブ」というのが、2026年春時点で中華系フラッグシップの標準形になりつつある。
なお通常版のMiMo-V2.5が言う「ネイティブオムニモーダル」は、テキストに後付けでビジョンエンコーダを足した構成ではなく、画像・動画・音声を最初から一緒に学習している、というXiaomi側の主張。
後段のVideo-MME 87.7やCharXiv RQ 81.0のスコアはその前提で読む必要がある。
ベンチマーク
公開されている主要数値を並べる。
| ベンチマーク | MiMo-V2.5-Pro | MiMo-V2.5 | 参考: Claude Opus 4.6 | 参考: GPT-5.4 |
|---|---|---|---|---|
| SWE-bench Pro | 57.2 | — | 同水準 | 同水準 |
| Claw-Eval | 63.8 | 62.3 | 同水準 | 同水準 |
| τ3-Bench | 72.9 | — | 同水準 | 同水準 |
| Video-MME | — | 87.7 | — | — |
| CharXiv RQ | — | 81.0 | — | — |
| MMMU-Pro | — | 77.9 | — | — |
SWE-bench Pro 57.2という数字は、4月21日公開のQwen3.6-Max-Preview(57.30)やKimi K2.6(58.6)とほぼ同じ帯。
この1週間で、中華系の1T級MoEがSWE-bench Pro 57〜59点付近に一斉に集まってきた形になる。
面白いのは通常版MiMo-V2.5のClaw-Eval 62.3で、Proの63.8に対して-1.5pt差。
テキスト単一のProと、ネイティブでオムニモーダルを載せた通常版で、エージェント性能がここまで近いのは珍しい。
画像・動画・音声の理解を乗せるとテキスト性能が目減りする設計も多いなか、ベースの学習レシピが違うと見るべき。
ClawEvalで同等スコアを40〜60%少ないトークンで出す
ベンチマーク数値そのものより、もう一段重要なのがトークン効率の話。
Xiaomiの公式説明では、Proは「ClawEvalで64% Pass³をおよそ70Kトークン/トラジェクトリで達成」としている。
ここで出てくる数字はいずれもエージェント評価特有の指標。
Pass³ は同じタスクを3回解かせて3回全部成功した率で、1回当てれば成功のPass¹より一段厳しい。
トラジェクトリ は1タスクを解き切るまでの「思考+ツール呼び出し+観測」一式で、ここでは1タスクあたり合計70Kトークン弱に収めた、という話。
Claude Opus 4.6 / Gemini 3.1 Pro / GPT-5.4などの同等スコアのモデルと比較して、1トラジェクトリあたり40〜60%少ないトークンで同じ結果に到達する、というのがProの主張。
エージェントの実運用では「1タスクあたり何トークン使うか」がそのままAPI請求額になる。
SWE-benchやClawEvalを同じスコアで解けても、ベースライン比で半分のトークンで済むなら、実質的な単価はおよそ半分になる。
料金表上のトークン単価ではなく、タスクあたりの総コスト で差を出しにきているのがProの営業上の最大の武器。
1000回以上のツール呼び出しを含む長期タスク
Proのもうひとつの売りが「1,000回を超えるツール呼び出しを含むプロフェッショナルタスクを自律完了できる」という長期タスク対応。
1タスクが数時間〜数日にわたる想定で、人間の専門家が手数日ぶん費やすような作業を1ランで走らせるユースケースを想定している。
ここは先月公開された智谱GLM-5.1(8時間・6000ツール呼び出しまで性能劣化しない)と狙いが非常に近い。
GLM-5.1が「長時間走らせても性能が落ちない」側を強調していたのに対して、MiMo-V2.5-Proは「長期タスク × トークン効率」で、同じ長期エージェント路線をさらに商用寄りに詰めた印象。
両者のスペック主張を並べると:
- GLM-5.1:744B / 40Bアクティブ、SWE-bench Pro 58.4、6000+ツール呼び出しで劣化なし
- MiMo-V2.5-Pro:1T / 42Bアクティブ、SWE-bench Pro 57.2、1000+ツール呼び出しの自律完遂、トークン消費40〜60%減
SWE-bench Proスコアはほぼ同じで、Pro側は効率と汎用ベンチマーク(τ3-Bench、Claw-Eval)でカタログ値を稼いでいる。
通常版MiMo-V2.5のオムニモーダル
通常版は「Proの半額でPro相当のエージェント性能、加えてネイティブにオムニモーダル」という構成。
画像・動画・音声を1モデルで扱うオムニモーダル系で、1Mコンテキストを素で持っているモデルはまだ多くない。
| 比較モデル | モダリティ | コンテキスト長 | ライセンス |
|---|---|---|---|
| MiMo-V2.5 | テキスト+画像+動画+音声 | 1,000,000 | クローズド、API専用 |
| Qwen3-Omni(30B / 3.3Bアクティブ) | テキスト+画像+動画+音声 | 262,144 | オープンウェイト |
| Gemma 4 26B A4B | テキスト+画像+音声(E4Bで音声) | 262,144 | Apache 2.0 |
Qwen3-Omniは同じオムニモーダル路線のオープンウェイト枠で、コンテキストは256K。
MiMo-V2.5は1Mまで伸ばしつつオムニモーダルを載せているのが効いていて、「動画+大量ログ+長期エージェント」を1コンテキストに収められる。
逆にQwen3-Omniはローカルで動かせる点が圧倒的で、用途でくっきり棲み分かる。
CharXiv RQ 81.0、MMMU-Pro 77.9、Video-MME 87.7あたりの数字は、画像推論・論文表組解読・動画理解のいずれも通常版として十分高い。
Video-MME 87.7はGemini 3系/Qwen3-Omniと同格〜それ以上のレンジ。
現時点ではローカル実行できない
結論から書くと、MiMo-V2.5-Pro と MiMo-V2.5 は、2026-04-23時点ではローカル実行できない。
両モデルとも public beta として XiaomiのAI Studio と API Platform で提供されており、ウェイトは公開されていない。
公式ページには「Coming Open Source — Stay tuned」とあるが、時期は明示されていない。
現状のXiaomiMiMoのHugging Faceを見ても、V2.5系のリポジトリはまだ存在しない。一方で、同じシリーズの一世代前にあたる以下のウェイトは既にMITライセンスで配布されている。
- MiMo-V2-Flash — 309B MoE / 15Bアクティブ、FP8推論対応、SGLang推奨、KTransformersでCPUオフロードによる民生機運用が可能
- MiMo-V2-Flash-Base — 同ベースモデル
- MiMo-VL-7B-SFT-2508 / MiMo-VL-7B-RL-2508 — 8Bクラスの画像テキストモデル
- MiMo-Audio-7B-Base / -Instruct — 8Bクラスの音声入出力モデル
- MiMo-Embodied-7B — 8Bクラスのエージェント向け画像テキストモデル
要するに「ローカルでMiMo系を回したい」なら、V2.5ではなくV2-Flashを選ぶのが現実解。
手元で動かす場合の目安
V2.5がオープンソース化されたと仮定しても、1T/42Bアクティブ級のモデルを自宅で素直に動かすのは厳しい。
Kimi K2.6と同じく、VRAM要件を考えると以下の選択肢になる。
| 構成 | 想定ハードウェア | 現実性 |
|---|---|---|
| 素のFP16 | 2TB+ VRAM相当 | 個人では無理 |
| FP8 | 1TB+ VRAM相当 | 個人では厳しい |
| INT4 / GGUF | 500GB+ VRAM相当 | データセンター級 |
| KTransformersでCPU/GPUオフロード | 大量のDDR+単発GPU | 民生機でも遅いなりに可能 |
| クラウドAPI | なし | 現時点ではこれ一択 |
個人ユースでまともに使いたいなら、現実的には「V2.5-Proは当面クラウドAPI、ローカルはV2-FlashかQwen3.6-35B系」という棲み分けになる。
Qwen3.6-35B-A3BをM1 Max 64GBで動かす検証や、Qwen3.6-27B Dense vs 35B-A3B MoEのMLX/Ollama比較のレンジが、M1/M2 Max級の手元機でフラッグシップ系のエージェントモデルを動かすときの現実的な天井と見ておけばよい。
API提供
両モデルとも、XiaomiのAI Studio(WebのUI)と API Platform(OpenAI互換エンドポイント)で提供されている。
OpenRouter経由でもMiMo-V2.5-Proがルーティング可能になっており、xiaomi/mimo-v2.5-pro のモデルIDで叩ける。
Claude / GPT との位置関係
Pro版はXiaomi公式で「Claude Opus 4.6とGPT-5.4に主要ベンチマークで並んだ」と明言している。
現時点でAnthropic側はClaude Opus 4.7でx-high self-verifyを導入する動きがあり、Opus 4.6より上の世代が出てきているので、数字の差はこれからまた動く可能性が高い。
ただMiMo-V2.5-Proが狙っている絵は「フロンティア級にキャッチアップし続ける」というより、「同じ性能帯をより少ないトークンで提供する」側にあって、性能トップを取りに行くモデルではない。
GPT-5.4やClaude Opus 4.7にどこまで張り合うかより、「SWE-bench Pro 57点台のエージェントを、API請求で半額近く安く回したい顧客」を丁寧に拾うポジション、と見るのが素直。