Tencent Hy3-previewとAnt Ling-2.6-flashが同週公開、中華系オープンMoEが295Bと104Bで別方向に走る
目次
2026年4月第4週、中華系のオープンMoE LLMが立て続けに2本公開された。
4月22日にAnt Groupの Ant Ling が軽量・高効率枠の Ling-2.6-flash(104B/7.4B active)を、翌23日にTencentの Hunyuan がフロンティア級の Hy3-preview(295B/21B active)を、それぞれオープンウェイトで出している。
中華系モデルはZhipu AIのGLM-5.1、Qwen3.6-Max-PreviewとKimi K2.6、Xiaomi MiMo-V2.5/V2.5-Proと、ここ数週間で連打が続いている。
今回の2本はその流れのなかで「重量級でベンチマーク上位を取りに行く枠」と「軽量級でトークン効率を取りに行く枠」の両方向から出てきた格好で、それぞれの設計思想も使いどころも別物になっている。
なお、本記事公開の数時間後(4月24日)に本命のDeepSeek側も DeepSeek-V4 Preview(V4-Pro 1.6T/49B、V4-Flash 284B/13B、どちらも1Mコンテキスト)をMITで公開している。
以下のDeepSeek-V3との比較はV4世代では別の数字に塗り替えられる見込みで、詳細は DeepSeek V4 Previewが1Mコンテキストで登場、V4-Pro 1.6T/V4-Flash 284BがMITで公開されV3.2比27% FLOPsを実現 にまとめた。
2026-04-25 追記(ローカル動作): Ling-2.6-flashの重みはまだ非公開だが、1世代前の Ling-flash-2.0(100B / 6.1B active、bailing_moeアーキ、MIT)はMLX MXFP4量子化版(54.7GB)が出ている。これをSwiftLMでM1 Max 64GBから動かした検証を SwiftLMで非Qwen系MoEのLing-flash-2.0 MXFP4をM1 Max 64GBで動かす にまとめた。2.6-flash公開後のローカル挙動の予測材料として、2.0の実測値が参考になるはず。
以下、それぞれのモデルを個別に整理する。
Tencent Hy3-preview(295B/21Bのフロンティア級オープンMoE)
TencentのHunyuanチーム(社名ロゴ上は @TencentHunyuan のままだが、モデル名とアカウント名義は「Tencent Hy」に寄せている)が2026年4月23日、新モデル「Hy3 preview」をオープンウェイトで公開した。
発表トーンとしては「Hunyuan再構築後の最初のオープンソースリリース」という位置付けで、数字上は Hunyuan 3.0 系列に相当する。
Twitter(X)での告知では、チームが自分たちを Tencent Hy /haɪ/ と読ませている通り「Hi」と引っ掛けた呼称で、モデル名は Hy3-preview。HuggingFaceのパスも tencent/Hy3-preview でそのままこの名前が使われている。
Hy3 previewはその流れのなかで「Tencent本家も3.0世代のフロンティアLLMをオープンで出してきた」というカードになる。
Hy3 preview の構成と規模
モデルカードと GitHub の情報を突き合わせると、構成は次のとおり。
- 総パラメータ: 295B
- アクティブパラメータ: 21B(Fine-grained MoE、192エキスパートでTop-8アクティベーション)
- MTP(Multi-Token Prediction)層: 3.8B(本体とは別枠)
- Transformer層: 80層(+MTP 1層)
- Attention: GQA、64ヘッド/KV 8ヘッド、ヘッド次元128
- 隠れ次元: 4096、FFN中間次元: 13312
- 語彙サイズ: 120,832
- コンテキスト長: 最大256K
- 精度: BF16 / F32
- ライセンス: 独自の「Tencent Hy Community License Agreement」
「295B総量・21Bアクティブ」というバランスは、DeepSeek-V3(671B/37B active)やZhipu GLM-5.1(744B/40B active)に比べると一段小さい位置取りで、そのぶん推論コストを抑えつつ“フロンティア級”を狙う、という設計に見える。
公開ベンチマークの立ち位置
READMEが対比で挙げているのはDeepSeek-V3 Base/GLM-4.5 Baseあたりで、数字上はかなり強気だ。
- GSM8K: Hy3 preview 95.37% / DeepSeek-V3系・GLM-4.5系は88〜90%台
- MATH: 76.28% / DeepSeek-V3系 59.37%
- CRUXEval-I: 71.19%(3モデル中トップ)
- LiveCodeBench-v6: 34.86%(競合は27〜30%)
- MMLU-Pro: 65.76%(競合と拮抗)
加えて、STEM系の難関ベンチ(FrontierScience-Olympiad、IMOAnswerBench)や、清華大学求真書院の数学PhD予備試験(Spring ‘26)、CHSBO 2025(中国高校生生物オリンピック)でも良好な結果を出した、とアナウンスされている。
「Baseモデル」との比較なので、これをそのまま最終的なInstruct品質に重ねるのは危ういが、少なくとも学術・競技系タスクでは明確にDeepSeek-V3系を上回るトレンドを出してきた、と読める。
エージェントと推論モード
Hy3 preview は「Reasoning & Agent Model」と銘打たれており、OpenAI互換APIで次のような切り替えができる。
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")
resp = client.chat.completions.create(
model="hy3-preview",
messages=[{"role": "user", "content": "..."}],
temperature=0.9,
top_p=1.0,
extra_body={"chat_template_kwargs": {"reasoning_effort": "high"}},
)
reasoning_effort: "high"→ 複雑な推論タスク向け(思考トレースあり)reasoning_effort: "no_think"→ 直接応答- 推奨サンプリング:
temperature=0.9,top_p=1.0
このあたりの「思考する/しないをAPI引数で切る」設計思想は、Qwen3.6-35B-A3BのHybrid ThinkingやGLM-5.1系と揃っており、エージェント用途を強く意識した作り。MTP層を1枚持たせて投機的デコーディング前提にしているところも、vLLMのspec decode経路を活かす方向にしっかり寄せている。
ローカルで動かすのはほぼ無理
295B・BF16のウェイトを素直に持つと、おおむね次のサイズ感になる。
| 精度 | おおよそのウェイトサイズ |
|---|---|
| BF16 | 約590GB |
| INT8 相当 | 約295GB |
| 4bit量子化 | 約150〜170GB |
公式READMEも「8 GPUs(H20-3e か、それ以上の大容量メモリGPU)」を推奨しており、家庭用構成が視野に入るレンジではない。
- 4090×複数枚(24GB/枚): VRAMが足りずベース想定外
- RTX 6000 Ada/Pro系(48〜96GB): 8枚積んでもBF16は厳しい。INT4なら理論的には載るが、帯域・PCIe・専用ファブリックなしの構成は実運用しづらい
- H100 80GB × 8枚: 公式が想定しているクラス。ここから上
- Apple Silicon(M3 Ultra 192GB/256GB): INT4量子化が整備されれば「単機でギリ回る」可能性はあるが、現時点で公式の4bit量子済みウェイトは提供されておらず、自前でAngelSlimに通す必要がある
- CPU+大容量RAM: できなくはないが、21Bアクティブでも1トークンあたりのデータ往復が重く、対話には実用的でない
つまり「Hy3 preview そのものを家で触る」という選択肢は、少なくとも当面は現実的でない。
vLLM / SGLang + H20-3e や H100 構成のクラウド、もしくは Tencent Cloud 側の推論エンドポイントを使う、というのが素直な触り方になる。
ローカル派が触るのはHunyuan系の小型モデル
Tencent Hunyuanは以前から、同じ系譜の小型モデル群をオープンウェイトで出している。ローカル運用や組み込みが視野ならこちら側を見るのが現実的。
- Hunyuan-A13B(Tencent-Hunyuan/Hunyuan-A13B)
総80B/アクティブ13BのFine-grained MoE。256Kコンテキスト。Fast/Slow Thinkingの切り替え、Agentベンチ(BFCL-v3、τ-Bench、C3-Bench)に強い。GPTQによる W4A16 量子化レシピも提供されており、Hy3 preview 系譜のエージェント指向を小さめのサイズで試せる。 - Hunyuan-7B Instruct(tencent/Hunyuan-7B-Instruct)
Denseの7B。24GB級のコンシューマGPUやApple Silicon単機で十分回るサイズ。 - Hunyuan Dense小型シリーズ(0.5B / 1.8B / 4B / 7B)
車載・スマートホーム・スマホ・PC向けに公式アナウンスされているDense系。A13B相当の学習レシピを継承しているので、微調整前提ならここから始めるのが軽い。
単純なサイズ比較のイメージ:
flowchart LR
A[Hunyuan 0.5B / 1.8B / 4B Dense] --> B[Hunyuan-7B Instruct]
B --> C[Hunyuan-A13B<br/>80B total / 13B active MoE]
C --> D[Hy3 preview<br/>295B total / 21B active MoE]
A -. ローカル向き .-> A
B -. ローカル向き .-> B
C -. ワークステーション級 .-> C
D -. マルチGPUサーバ/クラウド .-> D
Hy3 preview 側は「DeepSeek-V3/GLM-4.5と同じリング」、Hunyuan-A13B と 7B Denseは「DeepSeek-V2-Lite/Qwen3系の小型ローカルLLM」と同じリング、と切り分けて考えたほうが混乱しない。
中華系オープンモデル連打のなかでの位置付け
直近数週間のオープン/半オープンリリースを並べると、Hy3 preview の立ち位置がはっきりする。
| モデル | 総 / アクティブ | コンテキスト | 公開形態 |
|---|---|---|---|
| DeepSeek-V3系 | 671B / 37B | 128K | オープンウェイト |
| Zhipu GLM-5.1 | 744B / 40B | 200K超 | オープンウェイト/API |
| Qwen3.6-Max-Preview | 非公開(フラッグシップ) | 長尺 | API先行 |
| Kimi K2.6 | 大型(非公開) | 長尺 | API+一部オープン |
| Tencent Hy3 preview | 295B / 21B | 256K | オープンウェイト |
| Xiaomi MiMo-V2.5-Pro | 非公開 | 1M(オムニ側) | API専用 |
| Qwen3.6-35B-A3B | 35B / 3B | 128K超 | オープンウェイト(ローカル可) |
- オープンウェイトかつ最大クラスは依然としてGLM-5.1で、Hy3 previewはその一段下の「扱いやすい上限」を狙うポジション。
- サイズあたりのコスパという触れ込みは、GSM8K/MATHでDeepSeek-V3を上回りつつ総量を半分以下に抑えている点と整合している。
- API専用路線(Xiaomi MiMoやKimi K2.6のフラッグシップ側)に対しては、完全にオープンウェイトで出してきた点で差別化できている。
中華系LLMの全体的な温度感は中国AI蒸留戦争の記事にも書いたとおり「蒸留とエージェント最適化で上位モデルに追いつきにいく」モードが続いていて、Hy3 preview もそこに素直に乗っている。
Ant Ling-2.6-flash(104B/7.4Bで「トークン効率7倍」を打ち出す軽量MoE)
Ant Group傘下のAI部隊 Ant Ling が、2026年4月22日に新モデル Ling-2.6-flash を公開した。
X(@AntLingAGI)の投稿では「1兆パラメータのフラッグシップ」「Fast-Thinking」といったフレーズが踊っており、一部の翻訳では「Ling-2.6-1T」と誤訳されて出回っているが、実際にリリースされたモデルは総パラメータ 104B・アクティブ7.4B のスパースMoEで、呼称は Ling-2.6-flash。flagshipではなく「軽量・高効率」側の新作になる。
フラッグシップ1T級のほうは、2月に出したLing-2.5-1Tがそのままの位置付けで、今回は同系統の小型派生と見るのがわかりやすい。
Ant Group周りの動きとしては、2026年2月にLingBot-Worldをオープンソース公開してワールドモデルに寄せつつ、テキストLLM側も2.5-1T→2.6-flashと細かく出してきている。
前述のHy3-previewやQwen3.6-35B-A3B、Zhipu GLM-5.1と中華系の「Fine-grained MoE + エージェント特化」リリースが連打されているなかで、Ling-2.6-flashはその最小口径に位置する格好。
Ling-2.6-flashの構成
Ant Ling・Novita AI・OpenRouter側の公開情報を突き合わせると、構成はおおよそ次のとおり。
| 項目 | 値 |
|---|---|
| 総パラメータ | 104B |
| アクティブパラメータ | 7.4B |
| 構造 | Sparse MoE(256エキスパート) |
| Attention | hybrid 1:7 MLA + Lightning Linear |
| コンテキスト長 | 256K |
| 語彙サイズ | 約157K |
| 精度 | BF16 / FP8 / INT4(オープンソース予定) |
| 学習手法 | Agentic RL(エージェント用途前提) |
サイズ感は7.4Bアクティブなので、推論時はQwen3.6-35B-A3B(35B/3.3B active)とGLM-4.5-Airの中間あたり。
Fine-grained MoEを256エキスパートまで細分化し、attention側はMLA(Multi-head Latent Attention)とLightning Linear Attentionを1:7で混ぜるというハイブリッド設計で、256Kの長文コンテキストを安く回すことに全振りしている。
Hybrid linear attention: 標準的なTransformerはattentionの計算量がシーケンス長の2乗で伸びるので、長文でメモリと速度が一気に苦しくなる。線形attentionを主力にして、ところどころに従来型のattention(ここではMLA)を混ぜることで、長文でも計算量をおおむね線形に保ちつつ精度を落とさない、という狙いの構造。
Fast-Thinkingの実体
「Fast-Thinking」は今回Ant Lingが強めに推している売り文句で、中身としては「思考トレースを長々と出さずに答える」方向に最適化した、という話に近い。
リーズニングモデル(o1系やRing-1T系)は内部で思考を大量に出力してから答えるので、出力トークンが膨らみやすく、結果としてAPI利用料と応答時間が伸びる。Ling-2.6-flashはここを逆張りして、トークンあたりの知性(Intelligence per Token)を指標化している。
Ant Ling自身が挙げている例では、Artificial Analysis Intelligence Indexのフル評価をこなすのに消費した出力トークンがおおよそ次のようになる。
| モデル | 評価に要した出力トークン | 相対値 |
|---|---|---|
| Ling-2.6-flash | 約15M | 1.0x |
| Nemotron-3-Super | 約110M+ | 7.3x以上 |
スコア自体はIntelligence Index 26で、同等〜少し上の知性を7倍近いトークン効率で達成する、というのがAnt Ling側の主張。
クラウドLLMの料金は基本的に入出力トークンの従量課金なので、ここが効くと「同じタスクを同じ品質でこなすのに請求額が7分の1」という話になり、エージェントや高頻度な自動化用途ではきつい差になる。
ベンチマークはエージェントに全振り
READMEや各種まとめが挙げている代表的なスコアは、いわゆるエージェント・関数呼び出し系のベンチマークに集中している。
| ベンチマーク | Ling-2.6-flash | 比較対象(参考) |
|---|---|---|
| BFCL-V4(関数呼び出し) | 67.04 | Nemotron-3-Super 35.12 |
| PinchBench | 81.10 | Nemotron-3-Super 73.10 |
| IFBench | 58.10 | — |
| Multi-IF Turn-3 | 74.85 | — |
| LongBench-v2 | 54.80 | — |
| CCAlignBench(中国語) | 7.44 | 同サイズ帯トップ |
| Intelligence Index(AA) | 26 | Ling-flash-2.0から+10 |
Berkeley Function Calling Leaderboard V4でNemotron-3-Superに対して30ポイント以上の差をつけているのがわかりやすいポイントで、ツール呼び出し・マルチターンの指示追従・長文参照あたりに明確に振った評価構成になっている。
一方で、AIME 2025やMATH-500のような数学オリンピック系ベンチ、LiveCodeBenchのようなコード単発ベンチでは、Nemotron-3-SuperやQwen3.5-122B-A10Bが上位を取っている、ともAnt Ling側が認めている。
「考えるのが本業のモデル」ではなく、「現場のエージェントフローをとにかく安く速く回すモデル」と割り切って読んだほうがよさそう。
4-GPUで340tok/sのスループット
推論性能はNVIDIA H20×4構成(tensor parallelism=4)で次のような値が出ているとされる。
- ピーク: 約340 tokens/sec
- 出力安定時: 215 tokens/sec
- 65Kコンテキスト・65K出力時のデコードスループット: GLM-4.5-Airを1とした正規化値で約4.38倍
- 同条件のprefillスループット: 正規化で約4.68倍(Nemotron-3-Superは約2.12倍)
H20 4枚で300tok/s超、なおかつ256Kコンテキストを捌けるというのは、Fine-grained MoE + linear attentionの組み合わせとして素直に速い部類で、チャット用途よりもオンライン推論を大量に流すエージェント基盤のほうが旨味が大きいサイズ感になる。
価格と提供チャネル
提供面では、ホストAPIとオープンウェイトの両対応が予告されている。
- OpenRouter:
inclusionAI/ling-2.6-flashとして登録済み。無料枠(:freeサフィックス)と有料枠の両方が存在する - Novita AI: OpenRouter経由のBYOK、またはNovita直のエンドポイントでも利用可能
- Alipay Tbox(ling.tbox.cn): Ant Group公式のアクセスポイント
- LingDT: Ant Digital Technologies経由の商用ブランド
有料枠の価格は、1Mトークンあたり 入力 $0.10 / 出力 $0.30。
GPT-5 MiniやKimi K2.6あたりと真っ向からぶつけてきたラインで、前述のトークン効率をそのまま掛け算すると、同等タスクあたりの実質コストでは自社計測値ベースでかなり踏み込んでくることになる。
1週間限定の無料APIアクセスも同時に開始されていて、OpenRouterの:freeエンドポイントなら追加の鍵設定なしに試せる。
OpenAI互換エンドポイントで試す
OpenAI互換なので、APIキーとベースURLを差し替えるだけで既存のPythonコードに流し込める。
from openai import OpenAI
client = OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key="sk-or-...", # OpenRouterのAPIキー
)
resp = client.chat.completions.create(
model="inclusionai/ling-2.6-flash:free", # 無料枠で試す場合
messages=[
{"role": "system", "content": "You are a concise coding assistant."},
{"role": "user", "content": "Pythonでn番目のフィボナッチ数を計算する関数を書いて"},
],
stream=True,
)
for chunk in resp:
delta = chunk.choices[0].delta.content or ""
print(delta, end="", flush=True)
関数呼び出し(tools=[...])やストリーミング、structured outputsにも一通り対応しているので、既存のClaude Code系・LangChain系・OpenAI SDK系のクライアントからモデル名だけ差し替えれば動く。
オープンソース予定
重み公開は予告段階。Ant Ling側は次を挙げている。
- BF16フル精度ウェイト
- FP8量子化ウェイト
- INT4量子化ウェイト
- Linghe kernels(MoE向け推論カーネル)
公開時期はまだ明言されていないが、FP8 / INT4込みで出すことと、自前のMoEカーネルまで外に出すと言っているところが強気。
INT4が提供されれば、7.4Bアクティブ×256エキスパートという構成上、家庭用GPU1枚に全エキスパートを載せるのは現実的ではないにしても、24GBクラス+システムRAMオフロードでの動作検証はしやすくなるはず。
Lingシリーズのなかでの位置付け
現状のLingシリーズを整理すると、役割がかなりきれいに分かれている。
| モデル | 総パラメータ | アクティブ | 位置付け |
|---|---|---|---|
| Ling-1T | 1T | ≈50B | 2025年10月公開の初代フラッグシップnon-thinkingモデル |
| Ling-flash-2.0 | 100B | 6.1B | 2025年公開の軽量MoE、MITで重み公開済み(bailing_moeアーキ) |
| Ling-2.5-1T | 1T | 63B | 2026年2月公開の現行フラッグシップ、hybrid linear attention導入 |
| Ring-2.5-1T | 1T | — | 同時期の思考モデル側(thinkingモデル) |
| Ling-2.6-flash | 104B | 7.4B | 2026年4月公開の高効率エージェント向け小型MoE(今回) |
フラッグシップ側(Ling-2.5-1T / Ring-2.5-1T)は「世界をフルスケールで考えさせる」担当、今回のLing-2.6-flashは「本番のツール呼び出しを安くたくさん回す」担当、と役割を分けに来ている。
ユーザー側からすると、ワンショットの難問は2.5-1T系、エージェントフローの1ステップずつは2.6-flash、という使い分けができるラインナップになった。