技術 約9分で読めます

Xiaomi MiMo-V2.5とV2.5-Pro同時公開、1Mオムニモーダルと1000ツール呼び出しエージェントをAPI先行で提供

いけさん目次

Xiaomiが4月22日、MiMoシリーズの新世代として「MiMo-V2.5-Pro」と「MiMo-V2.5」の2モデルを同時にpublic beta公開した。
従来のMiMoはV2-Flash(オープンウェイト309B MoE)とV2-Pro(API専用)が軸だったが、V2.5世代ではProを一気にフロンティア級に引き上げつつ、通常版にネイティブオムニモーダルと1Mコンテキストを載せてきた。

1日ズレでQwen3.6-Max-PreviewとKimi K2.6が同時リリースされたばかりで、中華系1T級フラッグシップが4月第4週だけで3社ぶつかっている格好になる。

2モデルのポジショニング

MiMo-V2.5系列は、同じ世代の中でPro版と通常版で狙うレイヤーが明確に分かれている。

flowchart LR
  M[MiMo-V2.5シリーズ] --> M1[MiMo-V2.5-Pro<br/>フラッグシップ<br/>長期エージェント特化]
  M --> M2[MiMo-V2.5<br/>ネイティブオムニモーダル<br/>1Mコンテキスト]
  M1 -.コスト約2倍.-> P[API従量課金<br/>2x乗数]
  M2 -.コスト約半分.-> Q[API従量課金<br/>1x乗数]

Proは「Claude Opus 4.6やGPT-5.4とほぼ同格の性能を、より少ないトークンで出すエージェントモデル」という立ち位置。
通常版のMiMo-V2.5は「Pro級の汎用エージェント性能を保ちつつ、画像・動画・音声まで1モデルで扱う」側に振っている。
V2-Proから見ると、Proの上位互換(性能向上・トークン効率改善)+通常版としてのオムニモーダル派生、という2枚看板の世代交代と言っていい。

Xiaomi公式のポジション説明は Pro が「当社史上最強」、通常版が「ほぼ半分のコストでProレベルのエージェント性能」。
料金はトークンクレジット制で、Pro = 2x、通常版 = 1x の固定乗数。
コンテキスト長による階段式料金は採用しておらず、1Mまで埋めても乗数は変わらないと明記されている。

基本スペック

現時点で公開されている公式情報・サードパーティ情報を整理するとこうなる。
Xiaomiは今回、パラメータ数やアーキテクチャの細部は明示していない部分が多く、OpenRouter/MarkTechPost経由でようやく数字が拾える項目もある。

項目MiMo-V2.5-ProMiMo-V2.5
総パラメータ1T(報道ベース)非公開
アクティブパラメータ42B/トークン(報道ベース)非公開
アーキテクチャSparse MoE(詳細非公開)Sparse MoE+ネイティブオムニモーダル
モダリティテキスト中心テキスト+画像+動画+音声(ネイティブ)
コンテキスト長非公開(実用的には超長尺対応)1,000,000(1M)トークン
ライセンスクローズド、API専用クローズド、API専用
料金乗数2x1x
公開2026-04-22 public beta2026-04-22 public beta

Proの1T/42Bアクティブという数字は、同日のKimi K2.6(1T / 32Bアクティブ)智谱GLM-5.1(744B / 40Bアクティブ)とほぼ同じレンジに収まっている。
「1T MoE・30〜40Bアクティブ」というのが、2026年春時点で中華系フラッグシップの標準形になりつつある。

なお通常版のMiMo-V2.5が言う「ネイティブオムニモーダル」は、テキストに後付けでビジョンエンコーダを足した構成ではなく、画像・動画・音声を最初から一緒に学習している、というXiaomi側の主張。
後段のVideo-MME 87.7やCharXiv RQ 81.0のスコアはその前提で読む必要がある。

ベンチマーク

公開されている主要数値を並べる。

ベンチマークMiMo-V2.5-ProMiMo-V2.5参考: Claude Opus 4.6参考: GPT-5.4
SWE-bench Pro57.2同水準同水準
Claw-Eval63.862.3同水準同水準
τ3-Bench72.9同水準同水準
Video-MME87.7
CharXiv RQ81.0
MMMU-Pro77.9

SWE-bench Pro 57.2という数字は、4月21日公開のQwen3.6-Max-Preview(57.30)Kimi K2.6(58.6)とほぼ同じ帯。
この1週間で、中華系の1T級MoEがSWE-bench Pro 57〜59点付近に一斉に集まってきた形になる。

面白いのは通常版MiMo-V2.5のClaw-Eval 62.3で、Proの63.8に対して-1.5pt差。
テキスト単一のProと、ネイティブでオムニモーダルを載せた通常版で、エージェント性能がここまで近いのは珍しい。
画像・動画・音声の理解を乗せるとテキスト性能が目減りする設計も多いなか、ベースの学習レシピが違うと見るべき。

ClawEvalで同等スコアを40〜60%少ないトークンで出す

ベンチマーク数値そのものより、もう一段重要なのがトークン効率の話。
Xiaomiの公式説明では、Proは「ClawEvalで64% Pass³をおよそ70Kトークン/トラジェクトリで達成」としている。

ここで出てくる数字はいずれもエージェント評価特有の指標。
Pass³ は同じタスクを3回解かせて3回全部成功した率で、1回当てれば成功のPass¹より一段厳しい。
トラジェクトリ は1タスクを解き切るまでの「思考+ツール呼び出し+観測」一式で、ここでは1タスクあたり合計70Kトークン弱に収めた、という話。

Claude Opus 4.6 / Gemini 3.1 Pro / GPT-5.4などの同等スコアのモデルと比較して、1トラジェクトリあたり40〜60%少ないトークンで同じ結果に到達する、というのがProの主張。

エージェントの実運用では「1タスクあたり何トークン使うか」がそのままAPI請求額になる。
SWE-benchやClawEvalを同じスコアで解けても、ベースライン比で半分のトークンで済むなら、実質的な単価はおよそ半分になる。
料金表上のトークン単価ではなく、タスクあたりの総コスト で差を出しにきているのがProの営業上の最大の武器。

1000回以上のツール呼び出しを含む長期タスク

Proのもうひとつの売りが「1,000回を超えるツール呼び出しを含むプロフェッショナルタスクを自律完了できる」という長期タスク対応。
1タスクが数時間〜数日にわたる想定で、人間の専門家が手数日ぶん費やすような作業を1ランで走らせるユースケースを想定している。

ここは先月公開された智谱GLM-5.1(8時間・6000ツール呼び出しまで性能劣化しない)と狙いが非常に近い。
GLM-5.1が「長時間走らせても性能が落ちない」側を強調していたのに対して、MiMo-V2.5-Proは「長期タスク × トークン効率」で、同じ長期エージェント路線をさらに商用寄りに詰めた印象。

両者のスペック主張を並べると:

  • GLM-5.1:744B / 40Bアクティブ、SWE-bench Pro 58.4、6000+ツール呼び出しで劣化なし
  • MiMo-V2.5-Pro:1T / 42Bアクティブ、SWE-bench Pro 57.2、1000+ツール呼び出しの自律完遂、トークン消費40〜60%減

SWE-bench Proスコアはほぼ同じで、Pro側は効率と汎用ベンチマーク(τ3-Bench、Claw-Eval)でカタログ値を稼いでいる。

通常版MiMo-V2.5のオムニモーダル

通常版は「Proの半額でPro相当のエージェント性能、加えてネイティブにオムニモーダル」という構成。
画像・動画・音声を1モデルで扱うオムニモーダル系で、1Mコンテキストを素で持っているモデルはまだ多くない。

比較モデルモダリティコンテキスト長ライセンス
MiMo-V2.5テキスト+画像+動画+音声1,000,000クローズド、API専用
Qwen3-Omni(30B / 3.3Bアクティブ)テキスト+画像+動画+音声262,144オープンウェイト
Gemma 4 26B A4Bテキスト+画像+音声(E4Bで音声)262,144Apache 2.0

Qwen3-Omniは同じオムニモーダル路線のオープンウェイト枠で、コンテキストは256K。
MiMo-V2.5は1Mまで伸ばしつつオムニモーダルを載せているのが効いていて、「動画+大量ログ+長期エージェント」を1コンテキストに収められる。
逆にQwen3-Omniはローカルで動かせる点が圧倒的で、用途でくっきり棲み分かる。

CharXiv RQ 81.0、MMMU-Pro 77.9、Video-MME 87.7あたりの数字は、画像推論・論文表組解読・動画理解のいずれも通常版として十分高い。
Video-MME 87.7はGemini 3系/Qwen3-Omniと同格〜それ以上のレンジ。

現時点ではローカル実行できない

結論から書くと、MiMo-V2.5-Pro と MiMo-V2.5 は、2026-04-23時点ではローカル実行できない。
両モデルとも public beta として XiaomiのAI Studio と API Platform で提供されており、ウェイトは公開されていない。
公式ページには「Coming Open Source — Stay tuned」とあるが、時期は明示されていない。

現状のXiaomiMiMoのHugging Faceを見ても、V2.5系のリポジトリはまだ存在しない。一方で、同じシリーズの一世代前にあたる以下のウェイトは既にMITライセンスで配布されている。

  • MiMo-V2-Flash — 309B MoE / 15Bアクティブ、FP8推論対応、SGLang推奨、KTransformersでCPUオフロードによる民生機運用が可能
  • MiMo-V2-Flash-Base — 同ベースモデル
  • MiMo-VL-7B-SFT-2508 / MiMo-VL-7B-RL-2508 — 8Bクラスの画像テキストモデル
  • MiMo-Audio-7B-Base / -Instruct — 8Bクラスの音声入出力モデル
  • MiMo-Embodied-7B — 8Bクラスのエージェント向け画像テキストモデル

要するに「ローカルでMiMo系を回したい」なら、V2.5ではなくV2-Flashを選ぶのが現実解。

手元で動かす場合の目安

V2.5がオープンソース化されたと仮定しても、1T/42Bアクティブ級のモデルを自宅で素直に動かすのは厳しい。
Kimi K2.6と同じく、VRAM要件を考えると以下の選択肢になる。

構成想定ハードウェア現実性
素のFP162TB+ VRAM相当個人では無理
FP81TB+ VRAM相当個人では厳しい
INT4 / GGUF500GB+ VRAM相当データセンター級
KTransformersでCPU/GPUオフロード大量のDDR+単発GPU民生機でも遅いなりに可能
クラウドAPIなし現時点ではこれ一択

個人ユースでまともに使いたいなら、現実的には「V2.5-Proは当面クラウドAPI、ローカルはV2-FlashかQwen3.6-35B系」という棲み分けになる。
Qwen3.6-35B-A3BをM1 Max 64GBで動かす検証や、Qwen3.6-27B Dense vs 35B-A3B MoEのMLX/Ollama比較のレンジが、M1/M2 Max級の手元機でフラッグシップ系のエージェントモデルを動かすときの現実的な天井と見ておけばよい。

API提供

両モデルとも、XiaomiのAI Studio(WebのUI)と API Platform(OpenAI互換エンドポイント)で提供されている。
OpenRouter経由でもMiMo-V2.5-Proがルーティング可能になっており、xiaomi/mimo-v2.5-pro のモデルIDで叩ける。

Claude / GPT との位置関係

Pro版はXiaomi公式で「Claude Opus 4.6とGPT-5.4に主要ベンチマークで並んだ」と明言している。
現時点でAnthropic側はClaude Opus 4.7でx-high self-verifyを導入する動きがあり、Opus 4.6より上の世代が出てきているので、数字の差はこれからまた動く可能性が高い。

ただMiMo-V2.5-Proが狙っている絵は「フロンティア級にキャッチアップし続ける」というより、「同じ性能帯をより少ないトークンで提供する」側にあって、性能トップを取りに行くモデルではない。
GPT-5.4やClaude Opus 4.7にどこまで張り合うかより、「SWE-bench Pro 57点台のエージェントを、API請求で半額近く安く回したい顧客」を丁寧に拾うポジション、と見るのが素直。