Xiaomi MiMo-V2.5はMacやROCmで動かせるのか

Xiaomi MiMo-V2.5系列がAPI先行で公開された時点では、ウェイトは未公開だった。
その後、Hugging FaceにXiaomiMiMo/MiMo-V2.5とXiaomiMiMo/MiMo-V2.5-Proが公開された。

気になるのは、うちでよくやっている「Macで動くか」「ROCmで動かせるか」だ。
2026年4月30日時点では、普通のMacやEVO-X2級ROCm環境で気軽に試す段階ではない。
ただしllama.cpp側にMiMo V2.5対応PRが出ていて、テキスト単体ならそのうちGGUFで遊べる可能性は出てきた。

公開されたモデルの中身

今回のHugging Faceコレクションには4つある。

モデル	総パラメータ	アクティブ	コンテキスト	位置づけ
MiMo-V2.5-Pro	1.02T	42B	1M	テキスト、エージェント、コーディング寄り
MiMo-V2.5-Pro-Base	1.02T	42B	256K	Proのベース
MiMo-V2.5	310B	15B	1M	テキスト、画像、動画、音声のオムニモーダル
MiMo-V2.5-Base	310B	15B	256K	通常版のベース

ライセンスはMIT。
ここはかなり強い。商用利用や再配布の制約が緩いので、動かせるランタイムさえ揃えばローカル勢にも意味がある。

ただ、サイズが問題だ。
Hugging Face APIで見ると、MiMo-V2.5は約310.8Bパラメータ、Proは約1.023Tパラメータ。
どちらもFP8重みを含む構成で、4bit量子化が出たとしても通常版でだいたい150GB級、Proで500GB級を覚悟するレンジになる。

公式の実行例はSGLangとvLLM

モデルカードのデプロイ欄はSGLangとvLLMが前提になっている。
通常版MiMo-V2.5の公式例はSGLangで --tp-size 8、--dp-size 2、FP8量子化、FlashAttention 3系の指定が並ぶ。
vLLM側のレシピも「stable vLLMはまだMiMo V2.5未対応なので専用Dockerイメージを使う」と書いていて、前提ハードウェアは4x H200のTP4だ。

つまり、公式が想定しているのは個人PCではなくデータセンターGPU。
SGLang自体はAMD GPU対応も掲げているが、MiMo-V2.5の公式コマンドはCUDA/Hopper寄りで、ROCm版の同等レシピはまだ見当たらない。

この時点で、うちのEVO-X2やM1 Maxで「とりあえず公式手順を流す」は無理。

Macで動かすならMLXよりllama.cpp待ち

Macで最近うまくいったのはQwen3.6-35B-A3BをM1 Max 64GBでOllamaに流した検証と、MLXでQwen3.6-35B-A3BがOllamaの2倍速だった検証だ。
ただし、あれは35B-A3B、つまり総35Bでアクティブ3BのMoEだから手元で回る。

MiMo-V2.5は通常版でも310B、アクティブ15B。
Qwen3.6-35B-A3Bの約9倍の総パラメータで、アクティブ計算量も5倍。
同じ「MoEだから軽い」と言っても、土台の桁が違う。

MLXについては、現時点でMiMo-V2.5のMLX変換済みモデルやmlx-lm側の明示対応を確認できなかった。
MiMoはcustom_code付きで、ハイブリッド注意機構、FP8重み、MTP、オムニモーダル側のエンコーダなどが絡む。
Qwen系のようにUnslothがすぐMLX 4bitを出してくれるモデルとは事情が違う。

一方で、llama.cppにはMiMo V2.5対応PRが出ている。
PRの説明では、MiMo V2.5とProのテキスト推論対応を追加し、非Proの音声・画像コンポーネントは対象外。
FP8 safetensorsのGGUF変換、TP-aware sharding、fused attention_qkvの扱いも修正対象になっている。

ただし、このPRは4月29日時点で未マージ。
コメントを見ると通常版の変換・量子化は進んでいるが、Pro版は変換でまだ失敗している。
Macで触れる現実的な入口は、PRのマージとテキスト単体GGUF量子化の安定を待ってからになりそうだ。

ROCmは公式ルートよりllama.cppルートが現実的

ROCmについては、LLM-jp-4-32B-A3BをROCm + Strix Haloで回したときの感触が近い。
EVO-X2のRadeon 8060Sは、llama.cppのROCmバックエンドなら32B-A3Bクラスを60 tok/s前後で回せた。
ただしモデルはQ5_K_Mで24.4GB、コンテキスト65K、全部で25GB程度に収まっていた。

MiMo-V2.5は通常版でも、4bit量子化で150GB級になりうる。
EVO-X2の64GB統合メモリでは、ロード以前に容量が足りない。
Proはさらに無理で、個人向けROCm機の話から外れる。

AMD Instinctを複数枚持っているなら話は変わる。
SGLangはAMD GPU対応を持っているし、vLLMもROCmビルドがある。
ただしMiMo-V2.5向けのDay 0レシピはH200前提で、ROCmで同じ並列構成、FP8、注意カーネル、MoE通信がそのまま通るとはまだ言いにくい。

個人環境のROCmで見るなら、公式SGLang/vLLMより、llama.cppのGGUF対応が落ちてくるのを待つほうが筋がいい。
それでも対象はMiMo-V2.5通常版のテキスト推論で、Proやオムニモーダルまで期待すると厳しい。

RunPodで動かす場合

手元が無理ならクラウドGPU。
RunPodはGPU単価が比較的安く、vLLMテンプレートもある。

MiMo-V2.5のvLLMレシピは4x H200（TP4）、FP8前提。
RunPodのH200は141GB VRAM、1GPUあたり$3.59/hr。
4基借りると$14.36/hrで、2時間のお試しなら約$29、1日回しても$115ぐらい。

H200の4GPU Podが空いていない場合の代替候補。

構成	合計VRAM	時間単価	備考
4x H200	564GB	~$14/hr	公式レシピ通り
4x H100 NVL	376GB	~$10/hr	FP8で310GB、KVキャッシュ余裕なし
8x H100 SXM	640GB	~$22/hr	SGLangのtp-size 8対応、割高

4x H100 NVLは合計376GBで、FP8ウェイト310GBを載せるとKVキャッシュに66GBしか残らない。
1Mコンテキストは到底無理だが、短いプロンプトで動作確認する程度なら入るかもしれない。
ただしレシピの検証環境がH200なので、H100 NVLでFP8カーネルやMoEルーティングがそのまま通る保証はない。

Proは1Tパラメータ、FP8でも1TB級。
8x H200（合計1128GB）でもギリギリで、個人がRunPodで気軽に試す対象ではない。

注意点として、stable版vLLMはまだMiMo-V2.5をサポートしていない。
公式レシピでは専用Dockerイメージ vllm/vllm-openai:mimov25-cu129 を使う。
RunPodのPodはカスタムDockerイメージを指定できるので、このイメージを直接入れればいい。

310B FP8のウェイトはHugging Faceからのダウンロードに数十分かかる。
Pod起動後すぐ推論できるわけではないので、初回はダウンロード待ちの時間も課金に入る。

「一回触ってみたい」「API経由じゃなくて自分の環境で動かしたい」程度なら、4x H200を数時間借りるのが一番手っ取り早い。

Google Cloudで借りたほうが安いか

RunPodの4x H200が$14.36/hrと書いたが、Google Cloud（GCE）のGPUインスタンスと比べるとどうか。

GCEのA3系インスタンスは最小構成が8GPUで、4GPUの選択肢がない。
ただしオンデマンドの8x H100（a3-highgpu-8g）で約$10.42/hr、合計VRAM 640GBなのでRunPodの4x H200（$14.36/hr、564GB）より安くてVRAMも多い。

構成	合計VRAM	時間単価	備考
RunPod 4x H200	564GB	~$14/hr	カスタムDocker指定可、起動が早い
GCE 8x H100（a3-highgpu-8g）	640GB	~$10/hr	オンデマンド、USリージョン最安
GCE 8x H100 Spot	640GB	~$1.6/hr	Spot、いつ落ちるかわからない
GCE 8x H200（a3-ultragpu-8g）	1128GB	~$14/hr	オンデマンド
GCE 8x H200 Spot	1128GB	~$3.2/hr	Spot

Spotが圧倒的に安い。
8x H100 Spotなら$1.62/hr、2時間使っても$3.2。
RunPodの4x H200で2時間$29と比べると10分の1以下になる。

ただしSpotはいつプリエンプション（強制停止）されるかわからない。
推論中に落ちても困らない用途、たとえばベンチマークや短いプロンプトの試し打ちなら向いている。
長時間のエージェント実行やサービス公開には使えない。

もうひとつの壁は、A3インスタンスの入手性。
GCEのH100/H200インスタンスはクォータ申請が必要で、アカウントを作ってすぐ借りられるわけではない。
RunPodは登録してクレジット入れたら空きさえあれば即座にPodが立つ。
この「申請なしですぐ使える」差はけっこう大きい。

コスト最適化だけ見ればGCE Spotが圧勝だが、「今すぐ一回だけ触りたい」ならRunPodのほうが手っ取り早い。
数日にわたって何度も実験するならGCEのクォータを通しておく価値はある。

手元機で遊ぶ場合の代替モデル

クラウドを借りればMiMo-V2.5自体は触れる。
ただ「とりあえずローカルでオムニモーダルやMoEを試したい」程度なら、手元で動く別モデルのほうが現実的だ。

やりたいこと	いまの候補
M1 Max 64GBでローカルLLM	Qwen3.6-35B-A3B
Macで速度重視	Qwen3.6-35B-A3BのMLX 4bit
ROCm + Strix HaloでMoE	LLM-jp-4-32B-A3B
AMDミニPCで会話用	EVO-X2 + LM Studio

MiMo-V2.5自体を追うなら、見る場所はだいたいここに絞れる。

確認先	見るもの
Hugging Faceコレクション	公式モデル、更新日、ライセンス、ファイル構成
vLLM MiMo-V2.5 recipe	stable対応状況、必要GPU、専用Docker
llama.cpp PR #22493	GGUF変換、Mac/ROCmでの入口、Pro対応の進捗