Xiaomi MiMo-V2.5とV2.5-Pro同時公開、1Mオムニモーダルと1000ツール呼び出しエージェントをAPI先行で提供

Xiaomiが4月22日、MiMoシリーズの新世代として「MiMo-V2.5-Pro」と「MiMo-V2.5」の2モデルを同時にpublic beta公開した。
従来のMiMoはV2-Flash（オープンウェイト309B MoE）とV2-Pro（API専用）が軸だったが、V2.5世代ではProを一気にフロンティア級に引き上げつつ、通常版にネイティブオムニモーダルと1Mコンテキストを載せてきた。

1日ズレでQwen3.6-Max-PreviewとKimi K2.6が同時リリースされたばかりで、中華系1T級フラッグシップが4月第4週だけで3社ぶつかっている格好になる。

2モデルのポジショニング

MiMo-V2.5系列は、同じ世代の中でPro版と通常版で狙うレイヤーが明確に分かれている。

flowchart LR
  M[MiMo-V2.5シリーズ] --> M1[MiMo-V2.5-Pro<br/>フラッグシップ<br/>長期エージェント特化]
  M --> M2[MiMo-V2.5<br/>ネイティブオムニモーダル<br/>1Mコンテキスト]
  M1 -.コスト約2倍.-> P[API従量課金<br/>2x乗数]
  M2 -.コスト約半分.-> Q[API従量課金<br/>1x乗数]

Proは「Claude Opus 4.6やGPT-5.4とほぼ同格の性能を、より少ないトークンで出すエージェントモデル」という立ち位置。
通常版のMiMo-V2.5は「Pro級の汎用エージェント性能を保ちつつ、画像・動画・音声まで1モデルで扱う」側に振っている。
V2-Proから見ると、Proの上位互換（性能向上・トークン効率改善）＋通常版としてのオムニモーダル派生、という2枚看板の世代交代と言っていい。

Xiaomi公式のポジション説明は Pro が「当社史上最強」、通常版が「ほぼ半分のコストでProレベルのエージェント性能」。
料金はトークンクレジット制で、Pro = 2x、通常版 = 1x の固定乗数。
コンテキスト長による階段式料金は採用しておらず、1Mまで埋めても乗数は変わらないと明記されている。

基本スペック

現時点で公開されている公式情報・サードパーティ情報を整理するとこうなる。
Xiaomiは今回、パラメータ数やアーキテクチャの細部は明示していない部分が多く、OpenRouter/MarkTechPost経由でようやく数字が拾える項目もある。

項目	MiMo-V2.5-Pro	MiMo-V2.5
総パラメータ	1T（報道ベース）	非公開
アクティブパラメータ	42B/トークン（報道ベース）	非公開
アーキテクチャ	Sparse MoE（詳細非公開）	Sparse MoE＋ネイティブオムニモーダル
モダリティ	テキスト中心	テキスト＋画像＋動画＋音声（ネイティブ）
コンテキスト長	非公開（実用的には超長尺対応）	1,000,000（1M）トークン
ライセンス	クローズド、API専用	クローズド、API専用
料金乗数	2x	1x
公開	2026-04-22 public beta	2026-04-22 public beta

Proの1T／42Bアクティブという数字は、同日のKimi K2.6（1T / 32Bアクティブ）や智谱GLM-5.1（744B / 40Bアクティブ）とほぼ同じレンジに収まっている。
「1T MoE・30〜40Bアクティブ」というのが、2026年春時点で中華系フラッグシップの標準形になりつつある。

なお通常版のMiMo-V2.5が言う「ネイティブオムニモーダル」は、テキストに後付けでビジョンエンコーダを足した構成ではなく、画像・動画・音声を最初から一緒に学習している、というXiaomi側の主張。
後段のVideo-MME 87.7やCharXiv RQ 81.0のスコアはその前提で読む必要がある。

ベンチマーク

公開されている主要数値を並べる。

ベンチマーク	MiMo-V2.5-Pro	MiMo-V2.5	参考: Claude Opus 4.6	参考: GPT-5.4
SWE-bench Pro	57.2	—	同水準	同水準
Claw-Eval	63.8	62.3	同水準	同水準
τ3-Bench	72.9	—	同水準	同水準
Video-MME	—	87.7	—	—
CharXiv RQ	—	81.0	—	—
MMMU-Pro	—	77.9	—	—

SWE-bench Pro 57.2という数字は、4月21日公開のQwen3.6-Max-Preview（57.30）やKimi K2.6（58.6）とほぼ同じ帯。
この1週間で、中華系の1T級MoEがSWE-bench Pro 57〜59点付近に一斉に集まってきた形になる。

面白いのは通常版MiMo-V2.5のClaw-Eval 62.3で、Proの63.8に対して-1.5pt差。
テキスト単一のProと、ネイティブでオムニモーダルを載せた通常版で、エージェント性能がここまで近いのは珍しい。
画像・動画・音声の理解を乗せるとテキスト性能が目減りする設計も多いなか、ベースの学習レシピが違うと見るべき。

ClawEvalで同等スコアを40〜60%少ないトークンで出す

ベンチマーク数値そのものより、もう一段重要なのがトークン効率の話。
Xiaomiの公式説明では、Proは「ClawEvalで64% Pass³をおよそ70Kトークン/トラジェクトリで達成」としている。

ここで出てくる数字はいずれもエージェント評価特有の指標。
Pass³ は同じタスクを3回解かせて3回全部成功した率で、1回当てれば成功のPass¹より一段厳しい。
トラジェクトリ は1タスクを解き切るまでの「思考＋ツール呼び出し＋観測」一式で、ここでは1タスクあたり合計70Kトークン弱に収めた、という話。

Claude Opus 4.6 / Gemini 3.1 Pro / GPT-5.4などの同等スコアのモデルと比較して、1トラジェクトリあたり40〜60%少ないトークンで同じ結果に到達する、というのがProの主張。

エージェントの実運用では「1タスクあたり何トークン使うか」がそのままAPI請求額になる。
SWE-benchやClawEvalを同じスコアで解けても、ベースライン比で半分のトークンで済むなら、実質的な単価はおよそ半分になる。
料金表上のトークン単価ではなく、タスクあたりの総コスト で差を出しにきているのがProの営業上の最大の武器。

1000回以上のツール呼び出しを含む長期タスク

Proのもうひとつの売りが「1,000回を超えるツール呼び出しを含むプロフェッショナルタスクを自律完了できる」という長期タスク対応。
1タスクが数時間〜数日にわたる想定で、人間の専門家が手数日ぶん費やすような作業を1ランで走らせるユースケースを想定している。

ここは先月公開された智谱GLM-5.1（8時間・6000ツール呼び出しまで性能劣化しない）と狙いが非常に近い。
GLM-5.1が「長時間走らせても性能が落ちない」側を強調していたのに対して、MiMo-V2.5-Proは「長期タスク × トークン効率」で、同じ長期エージェント路線をさらに商用寄りに詰めた印象。

両者のスペック主張を並べると：

GLM-5.1：744B / 40Bアクティブ、SWE-bench Pro 58.4、6000+ツール呼び出しで劣化なし
MiMo-V2.5-Pro：1T / 42Bアクティブ、SWE-bench Pro 57.2、1000+ツール呼び出しの自律完遂、トークン消費40〜60%減

SWE-bench Proスコアはほぼ同じで、Pro側は効率と汎用ベンチマーク（τ3-Bench、Claw-Eval）でカタログ値を稼いでいる。

通常版MiMo-V2.5のオムニモーダル

通常版は「Proの半額でPro相当のエージェント性能、加えてネイティブにオムニモーダル」という構成。
画像・動画・音声を1モデルで扱うオムニモーダル系で、1Mコンテキストを素で持っているモデルはまだ多くない。

比較モデル	モダリティ	コンテキスト長	ライセンス
MiMo-V2.5	テキスト＋画像＋動画＋音声	1,000,000	クローズド、API専用
Qwen3-Omni（30B / 3.3Bアクティブ）	テキスト＋画像＋動画＋音声	262,144	オープンウェイト
Gemma 4 26B A4B	テキスト＋画像＋音声（E4Bで音声）	262,144	Apache 2.0

Qwen3-Omniは同じオムニモーダル路線のオープンウェイト枠で、コンテキストは256K。
MiMo-V2.5は1Mまで伸ばしつつオムニモーダルを載せているのが効いていて、「動画＋大量ログ＋長期エージェント」を1コンテキストに収められる。
逆にQwen3-Omniはローカルで動かせる点が圧倒的で、用途でくっきり棲み分かる。

CharXiv RQ 81.0、MMMU-Pro 77.9、Video-MME 87.7あたりの数字は、画像推論・論文表組解読・動画理解のいずれも通常版として十分高い。
Video-MME 87.7はGemini 3系／Qwen3-Omniと同格〜それ以上のレンジ。

現時点ではローカル実行できない

結論から書くと、MiMo-V2.5-Pro と MiMo-V2.5 は、2026-04-23時点ではローカル実行できない。
両モデルとも public beta として XiaomiのAI Studio と API Platform で提供されており、ウェイトは公開されていない。
公式ページには「Coming Open Source — Stay tuned」とあるが、時期は明示されていない。

現状のXiaomiMiMoのHugging Faceを見ても、V2.5系のリポジトリはまだ存在しない。一方で、同じシリーズの一世代前にあたる以下のウェイトは既にMITライセンスで配布されている。

MiMo-V2-Flash — 309B MoE / 15Bアクティブ、FP8推論対応、SGLang推奨、KTransformersでCPUオフロードによる民生機運用が可能
MiMo-V2-Flash-Base — 同ベースモデル
MiMo-VL-7B-SFT-2508 / MiMo-VL-7B-RL-2508 — 8Bクラスの画像テキストモデル
MiMo-Audio-7B-Base / -Instruct — 8Bクラスの音声入出力モデル
MiMo-Embodied-7B — 8Bクラスのエージェント向け画像テキストモデル

要するに「ローカルでMiMo系を回したい」なら、V2.5ではなくV2-Flashを選ぶのが現実解。

手元で動かす場合の目安

V2.5がオープンソース化されたと仮定しても、1T／42Bアクティブ級のモデルを自宅で素直に動かすのは厳しい。
Kimi K2.6と同じく、VRAM要件を考えると以下の選択肢になる。

構成	想定ハードウェア	現実性
素のFP16	2TB+ VRAM相当	個人では無理
FP8	1TB+ VRAM相当	個人では厳しい
INT4 / GGUF	500GB+ VRAM相当	データセンター級
KTransformersでCPU/GPUオフロード	大量のDDR＋単発GPU	民生機でも遅いなりに可能
クラウドAPI	なし	現時点ではこれ一択

個人ユースでまともに使いたいなら、現実的には「V2.5-Proは当面クラウドAPI、ローカルはV2-FlashかQwen3.6-35B系」という棲み分けになる。
Qwen3.6-35B-A3BをM1 Max 64GBで動かす検証や、Qwen3.6-27B Dense vs 35B-A3B MoEのMLX/Ollama比較のレンジが、M1/M2 Max級の手元機でフラッグシップ系のエージェントモデルを動かすときの現実的な天井と見ておけばよい。

API提供

両モデルとも、XiaomiのAI Studio（WebのUI）と API Platform（OpenAI互換エンドポイント）で提供されている。
OpenRouter経由でもMiMo-V2.5-Proがルーティング可能になっており、xiaomi/mimo-v2.5-pro のモデルIDで叩ける。

Claude / GPT との位置関係

Pro版はXiaomi公式で「Claude Opus 4.6とGPT-5.4に主要ベンチマークで並んだ」と明言している。
現時点でAnthropic側はClaude Opus 4.7でx-high self-verifyを導入する動きがあり、Opus 4.6より上の世代が出てきているので、数字の差はこれからまた動く可能性が高い。

ただMiMo-V2.5-Proが狙っている絵は「フロンティア級にキャッチアップし続ける」というより、「同じ性能帯をより少ないトークンで提供する」側にあって、性能トップを取りに行くモデルではない。
GPT-5.4やClaude Opus 4.7にどこまで張り合うかより、「SWE-bench Pro 57点台のエージェントを、API請求で半額近く安く回したい顧客」を丁寧に拾うポジション、と見るのが素直。