Tencent Hy3-previewとAnt Ling-2.6-flashが同週公開、中華系オープンMoEが295Bと104Bで別方向に走る

2026年4月第4週、中華系のオープンMoE LLMが立て続けに2本公開された。
4月22日にAnt Groupの Ant Ling が軽量・高効率枠の Ling-2.6-flash（104B/7.4B active）を、翌23日にTencentの Hunyuan がフロンティア級の Hy3-preview（295B/21B active）を、それぞれオープンウェイトで出している。

中華系モデルはZhipu AIのGLM-5.1、Qwen3.6-Max-PreviewとKimi K2.6、Xiaomi MiMo-V2.5/V2.5-Proと、ここ数週間で連打が続いている。
今回の2本はその流れのなかで「重量級でベンチマーク上位を取りに行く枠」と「軽量級でトークン効率を取りに行く枠」の両方向から出てきた格好で、それぞれの設計思想も使いどころも別物になっている。

なお、本記事公開の数時間後（4月24日）に本命のDeepSeek側も DeepSeek-V4 Preview（V4-Pro 1.6T/49B、V4-Flash 284B/13B、どちらも1Mコンテキスト）をMITで公開している。
以下のDeepSeek-V3との比較はV4世代では別の数字に塗り替えられる見込みで、詳細は DeepSeek V4 Previewが1Mコンテキストで登場、V4-Pro 1.6T/V4-Flash 284BがMITで公開されV3.2比27% FLOPsを実現にまとめた。

2026-04-25 追記（ローカル動作）: Ling-2.6-flashの重みはまだ非公開だが、1世代前の Ling-flash-2.0（100B / 6.1B active、bailing_moeアーキ、MIT）はMLX MXFP4量子化版（54.7GB）が出ている。これをSwiftLMでM1 Max 64GBから動かした検証を SwiftLMで非Qwen系MoEのLing-flash-2.0 MXFP4をM1 Max 64GBで動かすにまとめた。2.6-flash公開後のローカル挙動の予測材料として、2.0の実測値が参考になるはず。

以下、それぞれのモデルを個別に整理する。

Tencent Hy3-preview（295B/21Bのフロンティア級オープンMoE）

TencentのHunyuanチーム（社名ロゴ上は @TencentHunyuan のままだが、モデル名とアカウント名義は「Tencent Hy」に寄せている）が2026年4月23日、新モデル「Hy3 preview」をオープンウェイトで公開した。
発表トーンとしては「Hunyuan再構築後の最初のオープンソースリリース」という位置付けで、数字上は Hunyuan 3.0 系列に相当する。
Twitter（X）での告知では、チームが自分たちを Tencent Hy /haɪ/ と読ませている通り「Hi」と引っ掛けた呼称で、モデル名は Hy3-preview。HuggingFaceのパスも tencent/Hy3-preview でそのままこの名前が使われている。

Hy3 previewはその流れのなかで「Tencent本家も3.0世代のフロンティアLLMをオープンで出してきた」というカードになる。

Hy3 preview の構成と規模

モデルカードと GitHub の情報を突き合わせると、構成は次のとおり。

総パラメータ: 295B
アクティブパラメータ: 21B（Fine-grained MoE、192エキスパートでTop-8アクティベーション）
MTP（Multi-Token Prediction）層: 3.8B（本体とは別枠）
Transformer層: 80層（＋MTP 1層）
Attention: GQA、64ヘッド／KV 8ヘッド、ヘッド次元128
隠れ次元: 4096、FFN中間次元: 13312
語彙サイズ: 120,832
コンテキスト長: 最大256K
精度: BF16 / F32
ライセンス: 独自の「Tencent Hy Community License Agreement」

「295B総量・21Bアクティブ」というバランスは、DeepSeek-V3（671B／37B active）やZhipu GLM-5.1（744B／40B active）に比べると一段小さい位置取りで、そのぶん推論コストを抑えつつ“フロンティア級”を狙う、という設計に見える。

公開ベンチマークの立ち位置

READMEが対比で挙げているのはDeepSeek-V3 Base／GLM-4.5 Baseあたりで、数字上はかなり強気だ。

GSM8K: Hy3 preview 95.37% ／ DeepSeek-V3系・GLM-4.5系は88〜90%台
MATH: 76.28% ／ DeepSeek-V3系 59.37%
CRUXEval-I: 71.19%（3モデル中トップ）
LiveCodeBench-v6: 34.86%（競合は27〜30%）
MMLU-Pro: 65.76%（競合と拮抗）

加えて、STEM系の難関ベンチ（FrontierScience-Olympiad、IMOAnswerBench）や、清華大学求真書院の数学PhD予備試験（Spring ‘26）、CHSBO 2025（中国高校生生物オリンピック）でも良好な結果を出した、とアナウンスされている。
「Baseモデル」との比較なので、これをそのまま最終的なInstruct品質に重ねるのは危ういが、少なくとも学術・競技系タスクでは明確にDeepSeek-V3系を上回るトレンドを出してきた、と読める。

エージェントと推論モード

Hy3 preview は「Reasoning & Agent Model」と銘打たれており、OpenAI互換APIで次のような切り替えができる。

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

resp = client.chat.completions.create(
    model="hy3-preview",
    messages=[{"role": "user", "content": "..."}],
    temperature=0.9,
    top_p=1.0,
    extra_body={"chat_template_kwargs": {"reasoning_effort": "high"}},
)

reasoning_effort: "high" → 複雑な推論タスク向け（思考トレースあり）
reasoning_effort: "no_think" → 直接応答
推奨サンプリング: temperature=0.9, top_p=1.0

このあたりの「思考する／しないをAPI引数で切る」設計思想は、Qwen3.6-35B-A3BのHybrid ThinkingやGLM-5.1系と揃っており、エージェント用途を強く意識した作り。MTP層を1枚持たせて投機的デコーディング前提にしているところも、vLLMのspec decode経路を活かす方向にしっかり寄せている。

ローカルで動かすのはほぼ無理

295B・BF16のウェイトを素直に持つと、おおむね次のサイズ感になる。

精度	おおよそのウェイトサイズ
BF16	約590GB
INT8 相当	約295GB
4bit量子化	約150〜170GB

公式READMEも「8 GPUs（H20-3e か、それ以上の大容量メモリGPU）」を推奨しており、家庭用構成が視野に入るレンジではない。

4090×複数枚（24GB/枚）: VRAMが足りずベース想定外
RTX 6000 Ada／Pro系（48〜96GB）: 8枚積んでもBF16は厳しい。INT4なら理論的には載るが、帯域・PCIe・専用ファブリックなしの構成は実運用しづらい
H100 80GB × 8枚: 公式が想定しているクラス。ここから上
Apple Silicon（M3 Ultra 192GB／256GB）: INT4量子化が整備されれば「単機でギリ回る」可能性はあるが、現時点で公式の4bit量子済みウェイトは提供されておらず、自前でAngelSlimに通す必要がある
CPU+大容量RAM: できなくはないが、21Bアクティブでも1トークンあたりのデータ往復が重く、対話には実用的でない

つまり「Hy3 preview そのものを家で触る」という選択肢は、少なくとも当面は現実的でない。
vLLM / SGLang + H20-3e や H100 構成のクラウド、もしくは Tencent Cloud 側の推論エンドポイントを使う、というのが素直な触り方になる。

ローカル派が触るのはHunyuan系の小型モデル

Tencent Hunyuanは以前から、同じ系譜の小型モデル群をオープンウェイトで出している。ローカル運用や組み込みが視野ならこちら側を見るのが現実的。

Hunyuan-A13B（Tencent-Hunyuan/Hunyuan-A13B）
総80B／アクティブ13BのFine-grained MoE。256Kコンテキスト。Fast／Slow Thinkingの切り替え、Agentベンチ（BFCL-v3、τ-Bench、C3-Bench）に強い。GPTQによる W4A16 量子化レシピも提供されており、Hy3 preview 系譜のエージェント指向を小さめのサイズで試せる。
Hunyuan-7B Instruct（tencent/Hunyuan-7B-Instruct）
Denseの7B。24GB級のコンシューマGPUやApple Silicon単機で十分回るサイズ。
Hunyuan Dense小型シリーズ（0.5B / 1.8B / 4B / 7B）
車載・スマートホーム・スマホ・PC向けに公式アナウンスされているDense系。A13B相当の学習レシピを継承しているので、微調整前提ならここから始めるのが軽い。

単純なサイズ比較のイメージ：

flowchart LR
  A[Hunyuan 0.5B / 1.8B / 4B Dense] --> B[Hunyuan-7B Instruct]
  B --> C[Hunyuan-A13B<br/>80B total / 13B active MoE]
  C --> D[Hy3 preview<br/>295B total / 21B active MoE]
  A -. ローカル向き .-> A
  B -. ローカル向き .-> B
  C -. ワークステーション級 .-> C
  D -. マルチGPUサーバ／クラウド .-> D

Hy3 preview 側は「DeepSeek-V3／GLM-4.5と同じリング」、Hunyuan-A13B と 7B Denseは「DeepSeek-V2-Lite／Qwen3系の小型ローカルLLM」と同じリング、と切り分けて考えたほうが混乱しない。

中華系オープンモデル連打のなかでの位置付け

直近数週間のオープン／半オープンリリースを並べると、Hy3 preview の立ち位置がはっきりする。

モデル	総 / アクティブ	コンテキスト	公開形態
DeepSeek-V3系	671B / 37B	128K	オープンウェイト
Zhipu GLM-5.1	744B / 40B	200K超	オープンウェイト／API
Qwen3.6-Max-Preview	非公開（フラッグシップ）	長尺	API先行
Kimi K2.6	大型（非公開）	長尺	API＋一部オープン
Tencent Hy3 preview	295B / 21B	256K	オープンウェイト
Xiaomi MiMo-V2.5-Pro	非公開	1M（オムニ側）	API専用
Qwen3.6-35B-A3B	35B / 3B	128K超	オープンウェイト（ローカル可）

オープンウェイトかつ最大クラスは依然としてGLM-5.1で、Hy3 previewはその一段下の「扱いやすい上限」を狙うポジション。
サイズあたりのコスパという触れ込みは、GSM8K／MATHでDeepSeek-V3を上回りつつ総量を半分以下に抑えている点と整合している。
API専用路線（Xiaomi MiMoやKimi K2.6のフラッグシップ側）に対しては、完全にオープンウェイトで出してきた点で差別化できている。

中華系LLMの全体的な温度感は中国AI蒸留戦争の記事にも書いたとおり「蒸留とエージェント最適化で上位モデルに追いつきにいく」モードが続いていて、Hy3 preview もそこに素直に乗っている。

Ant Ling-2.6-flash（104B/7.4Bで「トークン効率7倍」を打ち出す軽量MoE）

Ant Group傘下のAI部隊 Ant Ling が、2026年4月22日に新モデル Ling-2.6-flash を公開した。
X（@AntLingAGI）の投稿では「1兆パラメータのフラッグシップ」「Fast-Thinking」といったフレーズが踊っており、一部の翻訳では「Ling-2.6-1T」と誤訳されて出回っているが、実際にリリースされたモデルは総パラメータ 104B・アクティブ7.4B のスパースMoEで、呼称は Ling-2.6-flash。flagshipではなく「軽量・高効率」側の新作になる。
フラッグシップ1T級のほうは、2月に出したLing-2.5-1Tがそのままの位置付けで、今回は同系統の小型派生と見るのがわかりやすい。

Ant Group周りの動きとしては、2026年2月にLingBot-Worldをオープンソース公開してワールドモデルに寄せつつ、テキストLLM側も2.5-1T→2.6-flashと細かく出してきている。
前述のHy3-previewやQwen3.6-35B-A3B、Zhipu GLM-5.1と中華系の「Fine-grained MoE + エージェント特化」リリースが連打されているなかで、Ling-2.6-flashはその最小口径に位置する格好。

Ling-2.6-flashの構成

Ant Ling・Novita AI・OpenRouter側の公開情報を突き合わせると、構成はおおよそ次のとおり。

項目	値
総パラメータ	104B
アクティブパラメータ	7.4B
構造	Sparse MoE（256エキスパート）
Attention	hybrid 1:7 MLA + Lightning Linear
コンテキスト長	256K
語彙サイズ	約157K
精度	BF16 / FP8 / INT4（オープンソース予定）
学習手法	Agentic RL（エージェント用途前提）

サイズ感は7.4Bアクティブなので、推論時はQwen3.6-35B-A3B（35B/3.3B active）とGLM-4.5-Airの中間あたり。
Fine-grained MoEを256エキスパートまで細分化し、attention側はMLA（Multi-head Latent Attention）とLightning Linear Attentionを1:7で混ぜるというハイブリッド設計で、256Kの長文コンテキストを安く回すことに全振りしている。

Hybrid linear attention: 標準的なTransformerはattentionの計算量がシーケンス長の2乗で伸びるので、長文でメモリと速度が一気に苦しくなる。線形attentionを主力にして、ところどころに従来型のattention（ここではMLA）を混ぜることで、長文でも計算量をおおむね線形に保ちつつ精度を落とさない、という狙いの構造。

Fast-Thinkingの実体

「Fast-Thinking」は今回Ant Lingが強めに推している売り文句で、中身としては「思考トレースを長々と出さずに答える」方向に最適化した、という話に近い。
リーズニングモデル（o1系やRing-1T系）は内部で思考を大量に出力してから答えるので、出力トークンが膨らみやすく、結果としてAPI利用料と応答時間が伸びる。Ling-2.6-flashはここを逆張りして、トークンあたりの知性（Intelligence per Token）を指標化している。

Ant Ling自身が挙げている例では、Artificial Analysis Intelligence Indexのフル評価をこなすのに消費した出力トークンがおおよそ次のようになる。

モデル	評価に要した出力トークン	相対値
Ling-2.6-flash	約15M	1.0x
Nemotron-3-Super	約110M+	7.3x以上

スコア自体はIntelligence Index 26で、同等〜少し上の知性を7倍近いトークン効率で達成する、というのがAnt Ling側の主張。
クラウドLLMの料金は基本的に入出力トークンの従量課金なので、ここが効くと「同じタスクを同じ品質でこなすのに請求額が7分の1」という話になり、エージェントや高頻度な自動化用途ではきつい差になる。

ベンチマークはエージェントに全振り

READMEや各種まとめが挙げている代表的なスコアは、いわゆるエージェント・関数呼び出し系のベンチマークに集中している。

ベンチマーク	Ling-2.6-flash	比較対象（参考）
BFCL-V4（関数呼び出し）	67.04	Nemotron-3-Super 35.12
PinchBench	81.10	Nemotron-3-Super 73.10
IFBench	58.10	—
Multi-IF Turn-3	74.85	—
LongBench-v2	54.80	—
CCAlignBench（中国語）	7.44	同サイズ帯トップ
Intelligence Index（AA）	26	Ling-flash-2.0から+10

Berkeley Function Calling Leaderboard V4でNemotron-3-Superに対して30ポイント以上の差をつけているのがわかりやすいポイントで、ツール呼び出し・マルチターンの指示追従・長文参照あたりに明確に振った評価構成になっている。
一方で、AIME 2025やMATH-500のような数学オリンピック系ベンチ、LiveCodeBenchのようなコード単発ベンチでは、Nemotron-3-SuperやQwen3.5-122B-A10Bが上位を取っている、ともAnt Ling側が認めている。
「考えるのが本業のモデル」ではなく、「現場のエージェントフローをとにかく安く速く回すモデル」と割り切って読んだほうがよさそう。

4-GPUで340tok/sのスループット

推論性能はNVIDIA H20×4構成（tensor parallelism=4）で次のような値が出ているとされる。

ピーク: 約340 tokens/sec
出力安定時: 215 tokens/sec
65Kコンテキスト・65K出力時のデコードスループット: GLM-4.5-Airを1とした正規化値で約4.38倍
同条件のprefillスループット: 正規化で約4.68倍（Nemotron-3-Superは約2.12倍）

H20 4枚で300tok/s超、なおかつ256Kコンテキストを捌けるというのは、Fine-grained MoE + linear attentionの組み合わせとして素直に速い部類で、チャット用途よりもオンライン推論を大量に流すエージェント基盤のほうが旨味が大きいサイズ感になる。

価格と提供チャネル

提供面では、ホストAPIとオープンウェイトの両対応が予告されている。

OpenRouter: inclusionAI/ling-2.6-flash として登録済み。無料枠（:free サフィックス）と有料枠の両方が存在する
Novita AI: OpenRouter経由のBYOK、またはNovita直のエンドポイントでも利用可能
Alipay Tbox（ling.tbox.cn）: Ant Group公式のアクセスポイント
LingDT: Ant Digital Technologies経由の商用ブランド

有料枠の価格は、1Mトークンあたり 入力 $0.10 / 出力 $0.30。
GPT-5 MiniやKimi K2.6あたりと真っ向からぶつけてきたラインで、前述のトークン効率をそのまま掛け算すると、同等タスクあたりの実質コストでは自社計測値ベースでかなり踏み込んでくることになる。

1週間限定の無料APIアクセスも同時に開始されていて、OpenRouterの:freeエンドポイントなら追加の鍵設定なしに試せる。

OpenAI互換エンドポイントで試す

OpenAI互換なので、APIキーとベースURLを差し替えるだけで既存のPythonコードに流し込める。

from openai import OpenAI

client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key="sk-or-...",  # OpenRouterのAPIキー
)

resp = client.chat.completions.create(
    model="inclusionai/ling-2.6-flash:free",  # 無料枠で試す場合
    messages=[
        {"role": "system", "content": "You are a concise coding assistant."},
        {"role": "user", "content": "Pythonでn番目のフィボナッチ数を計算する関数を書いて"},
    ],
    stream=True,
)

for chunk in resp:
    delta = chunk.choices[0].delta.content or ""
    print(delta, end="", flush=True)

関数呼び出し（tools=[...]）やストリーミング、structured outputsにも一通り対応しているので、既存のClaude Code系・LangChain系・OpenAI SDK系のクライアントからモデル名だけ差し替えれば動く。

オープンソース予定

重み公開は予告段階。Ant Ling側は次を挙げている。

BF16フル精度ウェイト
FP8量子化ウェイト
INT4量子化ウェイト
Linghe kernels（MoE向け推論カーネル）

公開時期はまだ明言されていないが、FP8 / INT4込みで出すことと、自前のMoEカーネルまで外に出すと言っているところが強気。
INT4が提供されれば、7.4Bアクティブ×256エキスパートという構成上、家庭用GPU1枚に全エキスパートを載せるのは現実的ではないにしても、24GBクラス+システムRAMオフロードでの動作検証はしやすくなるはず。

Lingシリーズのなかでの位置付け

現状のLingシリーズを整理すると、役割がかなりきれいに分かれている。

モデル	総パラメータ	アクティブ	位置付け
Ling-1T	1T	≈50B	2025年10月公開の初代フラッグシップnon-thinkingモデル
Ling-flash-2.0	100B	6.1B	2025年公開の軽量MoE、MITで重み公開済み（bailing_moeアーキ）
Ling-2.5-1T	1T	63B	2026年2月公開の現行フラッグシップ、hybrid linear attention導入
Ring-2.5-1T	1T	—	同時期の思考モデル側（thinkingモデル）
Ling-2.6-flash	104B	7.4B	2026年4月公開の高効率エージェント向け小型MoE（今回）

フラッグシップ側（Ling-2.5-1T / Ring-2.5-1T）は「世界をフルスケールで考えさせる」担当、今回のLing-2.6-flashは「本番のツール呼び出しを安くたくさん回す」担当、と役割を分けに来ている。
ユーザー側からすると、ワンショットの難問は2.5-1T系、エージェントフローの1ステップずつは2.6-flash、という使い分けができるラインナップになった。