HappyHorseはローカルで動かせるのか
目次
AlibabaからHappyHorseという動画生成モデルが出たらしい。
名前だけ見るとまた謎サイトっぽいが、今回は少し事情が違う。
TechNodeの記事では、Alibabaが2026年4月10日にHappyHorseをATH(Alibaba Token Hub)傘下のInnovation Unitのモデルだと認めた、と報じている。
Artificial Analysisの動画生成リーダーボードでも、HappyHorse-1.0はAlibaba-ATH名義でText-to-Videoの上位にいる。
気になるのは「すごいらしい」よりも、今触れるのか、ローカルで動かせるのか、動かすならどのGPUが必要なのか。
以前M1 Max 64GBでLTX-2とWan 2.2を回したときの感覚から言うと、動画生成は「メモリに載る」と「まともな速度で使える」の間がかなり遠い。
2026年4月27日時点ではAPI先行
まず確定に近いところ。
Odailyの4月20日記事では、HappyHorse-1.0が2026年4月27日からAlibaba Cloud Bailian(百炼 / Model Studio)経由で段階的にAPIテストを開始し、最初はエンタープライズ顧客向け、商用化は5月予定とされている。
ユーザーが見ていた modelstudio.console.alibabacloud.com/ap-southeast-1 は、まさに国際リージョンのModel Studio側の入口だと思う。
ただし、公開ドキュメント上で確認できる動画生成モデルはまだWan系が中心だ。
Alibaba Cloudの動画生成ドキュメントは、文生動画、図生動画、参考生動画、動画編集、デジタル人などを扱うと説明している。
別ページの動画生成・編集モデル一覧では、wan2.7-t2v、wan2.7-i2v、wan2.6-i2v-flash などが推奨モデルとして並ぶ。
つまり、今日の時点で自分が取れる態度はこうなる。
| 観点 | 状態 |
|---|---|
| Alibaba/ATH製か | ほぼ確定扱いでよい |
| Model Studio接続 | 4月27日から段階的APIテストという報道 |
| 個人アカウントで即利用 | 未確認。初期は企業向けの可能性が高い |
| 公開ウェイト | 見つからない |
| ローカル実行 | まだ判断不能。少なくとも今すぐは無理 |
「APIが出た」と「ローカルで動く」は別物
ここを混ぜると判断を間違える。
Artificial Analysisのページでは、HappyHorse-1.0のAPI Pricingは「Coming soon」扱いで、LTX-2やWan 2.2のようなOpen Weightsリンクは付いていない。
同じページでLTX-2やWan 2.2 A14BはOpen Weightsとして表示されているので、少なくともリーダーボード上の扱いは違う。
サードパーティAPIのRunware Docsにも alibaba:happyhorse@1.0 というモデルIDは出ているが、状態は coming-soon だ。
仕様としてはT2V/I2V、720p/1080p、3〜15秒、seed、watermark、first-frame conditioningが書かれている。
ただ、これは「APIで呼べる設計」の話であって、モデルファイルを落としてComfyUIに入れられる話ではない。
ローカルで動かすには最低でも次の材料が要る。
- モデルウェイト
- 推論コード
- VAEやテキストエンコーダなどの周辺ファイル
- ComfyUIノード、diffusers対応、または専用CLI
- ライセンスと利用条件
今はこのセットが見えていない。
だから「HappyHorseをローカルで動かせるか」の答えは、2026年4月27日時点では「公開ウェイトがないので無理」。
スペック推定はできるが、実行手順はまだ書けない。
もし15B級ならM1 Max 64GBでもつらい
HappyHorseについては、15B級、映像と音声の同時生成、H100で高速、という話が複数の周辺記事やコミュニティで流れている。
ただし、Alibaba Cloudの公式ドキュメントでモデルサイズやローカル推奨GPUを確認できていないので、ここは未確定として扱う。
仮に15B級の動画モデルだとすると、ローカル実行の見立てはかなり厳しい。
| 形式 | モデル本体の大雑把な重さ | 実行時の見方 |
|---|---|---|
| FP16/BF16 | 約30GB+ | 本体だけなら載るが、動画latent、VAE、テキストエンコーダ、KV/中間テンソルで足りなくなる |
| FP8 | 約15GB+ | NVIDIAでは現実的。ただしApple SiliconはFP8まわりで詰まりやすい |
| 4bit量子化 | 約8GB+ | メモリは楽になるが、動画品質と対応ノードが問題になる |
M1 Max 64GBはユニファイドメモリなので、単純なVRAM 64GBカードとは違う。
以前のLTX-2とWan 2.2の記事では、Wan 2.2 A14BのGGUF構成をM1 Max 64GBで動かせたが、832x480の約2秒で1時間22分かかった。
LTX-2もGGUFなら動く場面はあったが、公式パイプラインはMPSでNaNを出し、品質も実用に届かなかった。
HappyHorseが音声同時生成まで含むなら、Wan 2.2より軽いと決め打ちする理由はない。
公開ウェイトが出たとしても、Macで「動く」までは行けるかもしれないが、制作に使える速度になる期待は薄い。
RunPodで待つなら48GB以上を見る
ウェイトが出た後にRunPodで試すなら、最初から24GB枠に寄せすぎないほうがいい。
動画生成は画像生成より中間テンソルが重く、解像度、フレーム数、サンプラー構成で一気にメモリを食う。
RunPodのRTX 6000 Adaページでは、48GB VRAM、Secure Cloud $0.77/hr、Community Cloud $0.74/hrと出ている。
この価格帯なら、まずはRTX 6000 Ada 48GBかL40S 48GBを見るのが現実的だと思う。
| GPU | VRAM | HappyHorse待ちでの位置づけ |
|---|---|---|
| RTX 4090 | 24GB | 量子化版や低解像度なら可能性あり。初手には狭い |
| RTX 5090 | 32GB | 24GBよりましだが、1080p動画ではまだ不安 |
| RTX 6000 Ada / L40S | 48GB | 最初に借りるならこの帯。コストと余裕のバランスがよい |
| A100 80GB / H100 80GB | 80GB | 公式がH100基準なら最短。ただし検証用には高い |
自分なら、公開ウェイトとComfyUI/diffusers対応が出た直後はRTX 6000 Ada 48GBで始める。
理由は単純で、24GBでメモリ不足を踏んで環境構築をやり直す時間のほうが高いからだ。
48GBでまず720p/5秒を通し、ログ上のピークVRAMを見てから5090や4090に落とす。
H100をいきなり借りるのは、公式ベンチと同じ条件で速度確認したい場合だけでいい。
趣味の検証なら、最初の目的は「最高速」ではなく「ワークフローが壊れていないことの確認」になる。
Model StudioはまだWan 2.7が主力
Alibaba Cloudの公開ドキュメントだけを見ると、現在の動画生成の実務ラインはWan 2.7/2.6だ。
wan2.7-t2v は文生動画の高品質枠、wan2.7-i2v は図生動画の高品質枠、wan2.6-i2v-flash は安い図生動画枠として整理されている。
文生動画APIの例でも wan2.7-t2v-2026-04-25 が使われている。
なので、HappyHorseがModel Studioに入ってきたとしても、最初はWanの置き換えというより、別枠の上位または実験的モデルとして扱われる可能性がある。
特に音声同期や複数ショットの演出が強いなら、Wan 2.7の「音频同步、多镜头叙事」とぶつかる。
自分の用途で見ると、既存の判断軸は変わらない。
- ローカルで試すなら、今すぐ触れるWan 2.2やLTX-2
- Cloud APIで高品質を狙うなら、Model StudioのWan 2.7系
- HappyHorseは、API招待か公開ウェイトが来てから評価
2026年1月の動画生成AIの記事では、i2vの実用面は「元画像にないものは出しづらい」「前後絵指定は便利だが途中経路はAI任せ」と書いた。
HappyHorseがどれだけ強くても、この制御性の問題をどこまで解いているかを見ないと、リーダーボード順位だけでは判断できない。
コンソールにHappyHorseが見えたら
もしModel StudioのコンソールでHappyHorseが見える状態になったら、まず確認したいのはモデルIDがAPIで固定指定できるかどうかだ。
招待枠だけの表示なのか、自分のアカウントで叩けるのかで話が違う。
入力はT2Vだけなのか、I2VやAudio同期、複数参照画像に対応するのか。
出力は720p/1080p、秒数制限、fps、透かしの有無あたりを見る。
リージョンが ap-southeast-1 で推論されるか中国内地扱いかも、レイテンシとデータポリシーに直結する。
APIテストの段階なら、価格やSLAよりも「同じプロンプトで再現性があるか」「seedが効くか」「I2Vで参照画像をどれくらい保持するか」を先に見る。
動画生成モデルは一発の当たり動画より、10回回したときの外れ方のほうが制作では重要になる。
リリース告知は出たが繋がらない
この記事を公開した直後に動きがあった。
アリババAIエンジニアの藤川裕一氏がXで「HappyHorse、本日リリース。予定より前倒しで公開、Model Studioですぐに遊べる」と告知している。
ところが、X上では「見れない」「繋がらない」という声が多数出ている。
アクセス集中で落ちているか、段階ロールアウトがまだ全ユーザーに届いていないかのどちらかだろう。
本記事で書いた「4月27日から段階的APIテスト」という報道と時期は合っている。
ウェイトが公開されたわけではないので、ローカル実行の話は何も変わらない。