技術 約14分で読めます

Tencent Hy3-previewとAnt Ling-2.6-flashが同週公開、中華系オープンMoEが295Bと104Bで別方向に走る

いけさん目次

2026年4月第4週、中華系のオープンMoE LLMが立て続けに2本公開された。
4月22日にAnt Groupの Ant Ling が軽量・高効率枠の Ling-2.6-flash(104B/7.4B active)を、翌23日にTencentの Hunyuan がフロンティア級の Hy3-preview(295B/21B active)を、それぞれオープンウェイトで出している。

中華系モデルはZhipu AIのGLM-5.1Qwen3.6-Max-PreviewとKimi K2.6Xiaomi MiMo-V2.5/V2.5-Proと、ここ数週間で連打が続いている。
今回の2本はその流れのなかで「重量級でベンチマーク上位を取りに行く枠」と「軽量級でトークン効率を取りに行く枠」の両方向から出てきた格好で、それぞれの設計思想も使いどころも別物になっている。

なお、本記事公開の数時間後(4月24日)に本命のDeepSeek側も DeepSeek-V4 Preview(V4-Pro 1.6T/49B、V4-Flash 284B/13B、どちらも1Mコンテキスト)をMITで公開している。
以下のDeepSeek-V3との比較はV4世代では別の数字に塗り替えられる見込みで、詳細は DeepSeek V4 Previewが1Mコンテキストで登場、V4-Pro 1.6T/V4-Flash 284BがMITで公開されV3.2比27% FLOPsを実現 にまとめた。

2026-04-25 追記(ローカル動作): Ling-2.6-flashの重みはまだ非公開だが、1世代前の Ling-flash-2.0(100B / 6.1B active、bailing_moeアーキ、MIT)はMLX MXFP4量子化版(54.7GB)が出ている。これをSwiftLMでM1 Max 64GBから動かした検証を SwiftLMで非Qwen系MoEのLing-flash-2.0 MXFP4をM1 Max 64GBで動かす にまとめた。2.6-flash公開後のローカル挙動の予測材料として、2.0の実測値が参考になるはず。

以下、それぞれのモデルを個別に整理する。

Tencent Hy3-preview(295B/21Bのフロンティア級オープンMoE)

TencentのHunyuanチーム(社名ロゴ上は @TencentHunyuan のままだが、モデル名とアカウント名義は「Tencent Hy」に寄せている)が2026年4月23日、新モデル「Hy3 preview」をオープンウェイトで公開した。
発表トーンとしては「Hunyuan再構築後の最初のオープンソースリリース」という位置付けで、数字上は Hunyuan 3.0 系列に相当する。
Twitter(X)での告知では、チームが自分たちを Tencent Hy /haɪ/ と読ませている通り「Hi」と引っ掛けた呼称で、モデル名は Hy3-preview。HuggingFaceのパスも tencent/Hy3-preview でそのままこの名前が使われている。

Hy3 previewはその流れのなかで「Tencent本家も3.0世代のフロンティアLLMをオープンで出してきた」というカードになる。

Hy3 preview の構成と規模

モデルカードと GitHub の情報を突き合わせると、構成は次のとおり。

  • 総パラメータ: 295B
  • アクティブパラメータ: 21B(Fine-grained MoE、192エキスパートでTop-8アクティベーション)
  • MTP(Multi-Token Prediction)層: 3.8B(本体とは別枠)
  • Transformer層: 80層(+MTP 1層)
  • Attention: GQA、64ヘッド/KV 8ヘッド、ヘッド次元128
  • 隠れ次元: 4096、FFN中間次元: 13312
  • 語彙サイズ: 120,832
  • コンテキスト長: 最大256K
  • 精度: BF16 / F32
  • ライセンス: 独自の「Tencent Hy Community License Agreement」

「295B総量・21Bアクティブ」というバランスは、DeepSeek-V3(671B/37B active)やZhipu GLM-5.1(744B/40B active)に比べると一段小さい位置取りで、そのぶん推論コストを抑えつつ“フロンティア級”を狙う、という設計に見える。

公開ベンチマークの立ち位置

READMEが対比で挙げているのはDeepSeek-V3 Base/GLM-4.5 Baseあたりで、数字上はかなり強気だ。

  • GSM8K: Hy3 preview 95.37% / DeepSeek-V3系・GLM-4.5系は88〜90%台
  • MATH: 76.28% / DeepSeek-V3系 59.37%
  • CRUXEval-I: 71.19%(3モデル中トップ)
  • LiveCodeBench-v6: 34.86%(競合は27〜30%)
  • MMLU-Pro: 65.76%(競合と拮抗)

加えて、STEM系の難関ベンチ(FrontierScience-Olympiad、IMOAnswerBench)や、清華大学求真書院の数学PhD予備試験(Spring ‘26)、CHSBO 2025(中国高校生生物オリンピック)でも良好な結果を出した、とアナウンスされている。
「Baseモデル」との比較なので、これをそのまま最終的なInstruct品質に重ねるのは危ういが、少なくとも学術・競技系タスクでは明確にDeepSeek-V3系を上回るトレンドを出してきた、と読める。

エージェントと推論モード

Hy3 preview は「Reasoning & Agent Model」と銘打たれており、OpenAI互換APIで次のような切り替えができる。

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

resp = client.chat.completions.create(
    model="hy3-preview",
    messages=[{"role": "user", "content": "..."}],
    temperature=0.9,
    top_p=1.0,
    extra_body={"chat_template_kwargs": {"reasoning_effort": "high"}},
)
  • reasoning_effort: "high" → 複雑な推論タスク向け(思考トレースあり)
  • reasoning_effort: "no_think" → 直接応答
  • 推奨サンプリング: temperature=0.9, top_p=1.0

このあたりの「思考する/しないをAPI引数で切る」設計思想は、Qwen3.6-35B-A3BのHybrid ThinkingやGLM-5.1系と揃っており、エージェント用途を強く意識した作り。MTP層を1枚持たせて投機的デコーディング前提にしているところも、vLLMのspec decode経路を活かす方向にしっかり寄せている。

ローカルで動かすのはほぼ無理

295B・BF16のウェイトを素直に持つと、おおむね次のサイズ感になる。

精度おおよそのウェイトサイズ
BF16約590GB
INT8 相当約295GB
4bit量子化約150〜170GB

公式READMEも「8 GPUs(H20-3e か、それ以上の大容量メモリGPU)」を推奨しており、家庭用構成が視野に入るレンジではない。

  • 4090×複数枚(24GB/枚): VRAMが足りずベース想定外
  • RTX 6000 Ada/Pro系(48〜96GB): 8枚積んでもBF16は厳しい。INT4なら理論的には載るが、帯域・PCIe・専用ファブリックなしの構成は実運用しづらい
  • H100 80GB × 8枚: 公式が想定しているクラス。ここから上
  • Apple Silicon(M3 Ultra 192GB/256GB): INT4量子化が整備されれば「単機でギリ回る」可能性はあるが、現時点で公式の4bit量子済みウェイトは提供されておらず、自前でAngelSlimに通す必要がある
  • CPU+大容量RAM: できなくはないが、21Bアクティブでも1トークンあたりのデータ往復が重く、対話には実用的でない

つまり「Hy3 preview そのものを家で触る」という選択肢は、少なくとも当面は現実的でない。
vLLM / SGLang + H20-3e や H100 構成のクラウド、もしくは Tencent Cloud 側の推論エンドポイントを使う、というのが素直な触り方になる。

ローカル派が触るのはHunyuan系の小型モデル

Tencent Hunyuanは以前から、同じ系譜の小型モデル群をオープンウェイトで出している。ローカル運用や組み込みが視野ならこちら側を見るのが現実的。

  • Hunyuan-A13BTencent-Hunyuan/Hunyuan-A13B
    総80B/アクティブ13BのFine-grained MoE。256Kコンテキスト。Fast/Slow Thinkingの切り替え、Agentベンチ(BFCL-v3、τ-Bench、C3-Bench)に強い。GPTQによる W4A16 量子化レシピも提供されており、Hy3 preview 系譜のエージェント指向を小さめのサイズで試せる。
  • Hunyuan-7B Instructtencent/Hunyuan-7B-Instruct
    Denseの7B。24GB級のコンシューマGPUやApple Silicon単機で十分回るサイズ。
  • Hunyuan Dense小型シリーズ(0.5B / 1.8B / 4B / 7B)
    車載・スマートホーム・スマホ・PC向けに公式アナウンスされているDense系。A13B相当の学習レシピを継承しているので、微調整前提ならここから始めるのが軽い。

単純なサイズ比較のイメージ:

flowchart LR
  A[Hunyuan 0.5B / 1.8B / 4B Dense] --> B[Hunyuan-7B Instruct]
  B --> C[Hunyuan-A13B<br/>80B total / 13B active MoE]
  C --> D[Hy3 preview<br/>295B total / 21B active MoE]
  A -. ローカル向き .-> A
  B -. ローカル向き .-> B
  C -. ワークステーション級 .-> C
  D -. マルチGPUサーバ/クラウド .-> D

Hy3 preview 側は「DeepSeek-V3/GLM-4.5と同じリング」、Hunyuan-A13B と 7B Denseは「DeepSeek-V2-Lite/Qwen3系の小型ローカルLLM」と同じリング、と切り分けて考えたほうが混乱しない。

中華系オープンモデル連打のなかでの位置付け

直近数週間のオープン/半オープンリリースを並べると、Hy3 preview の立ち位置がはっきりする。

モデル総 / アクティブコンテキスト公開形態
DeepSeek-V3系671B / 37B128Kオープンウェイト
Zhipu GLM-5.1744B / 40B200K超オープンウェイト/API
Qwen3.6-Max-Preview非公開(フラッグシップ)長尺API先行
Kimi K2.6大型(非公開)長尺API+一部オープン
Tencent Hy3 preview295B / 21B256Kオープンウェイト
Xiaomi MiMo-V2.5-Pro非公開1M(オムニ側)API専用
Qwen3.6-35B-A3B35B / 3B128K超オープンウェイト(ローカル可)
  • オープンウェイトかつ最大クラスは依然としてGLM-5.1で、Hy3 previewはその一段下の「扱いやすい上限」を狙うポジション。
  • サイズあたりのコスパという触れ込みは、GSM8K/MATHでDeepSeek-V3を上回りつつ総量を半分以下に抑えている点と整合している。
  • API専用路線(Xiaomi MiMoやKimi K2.6のフラッグシップ側)に対しては、完全にオープンウェイトで出してきた点で差別化できている。

中華系LLMの全体的な温度感は中国AI蒸留戦争の記事にも書いたとおり「蒸留とエージェント最適化で上位モデルに追いつきにいく」モードが続いていて、Hy3 preview もそこに素直に乗っている。

Ant Ling-2.6-flash(104B/7.4Bで「トークン効率7倍」を打ち出す軽量MoE)

Ant Group傘下のAI部隊 Ant Ling が、2026年4月22日に新モデル Ling-2.6-flash を公開した。
X(@AntLingAGI)の投稿では「1兆パラメータのフラッグシップ」「Fast-Thinking」といったフレーズが踊っており、一部の翻訳では「Ling-2.6-1T」と誤訳されて出回っているが、実際にリリースされたモデルは総パラメータ 104B・アクティブ7.4B のスパースMoEで、呼称は Ling-2.6-flash。flagshipではなく「軽量・高効率」側の新作になる。
フラッグシップ1T級のほうは、2月に出したLing-2.5-1Tがそのままの位置付けで、今回は同系統の小型派生と見るのがわかりやすい。

Ant Group周りの動きとしては、2026年2月にLingBot-Worldをオープンソース公開してワールドモデルに寄せつつ、テキストLLM側も2.5-1T→2.6-flashと細かく出してきている。
前述のHy3-previewやQwen3.6-35B-A3BZhipu GLM-5.1と中華系の「Fine-grained MoE + エージェント特化」リリースが連打されているなかで、Ling-2.6-flashはその最小口径に位置する格好。

Ling-2.6-flashの構成

Ant Ling・Novita AI・OpenRouter側の公開情報を突き合わせると、構成はおおよそ次のとおり。

項目
総パラメータ104B
アクティブパラメータ7.4B
構造Sparse MoE(256エキスパート)
Attentionhybrid 1:7 MLA + Lightning Linear
コンテキスト長256K
語彙サイズ約157K
精度BF16 / FP8 / INT4(オープンソース予定)
学習手法Agentic RL(エージェント用途前提)

サイズ感は7.4Bアクティブなので、推論時はQwen3.6-35B-A3B(35B/3.3B active)とGLM-4.5-Airの中間あたり。
Fine-grained MoEを256エキスパートまで細分化し、attention側はMLA(Multi-head Latent Attention)とLightning Linear Attentionを1:7で混ぜるというハイブリッド設計で、256Kの長文コンテキストを安く回すことに全振りしている。

Hybrid linear attention: 標準的なTransformerはattentionの計算量がシーケンス長の2乗で伸びるので、長文でメモリと速度が一気に苦しくなる。線形attentionを主力にして、ところどころに従来型のattention(ここではMLA)を混ぜることで、長文でも計算量をおおむね線形に保ちつつ精度を落とさない、という狙いの構造。

Fast-Thinkingの実体

「Fast-Thinking」は今回Ant Lingが強めに推している売り文句で、中身としては「思考トレースを長々と出さずに答える」方向に最適化した、という話に近い。
リーズニングモデル(o1系やRing-1T系)は内部で思考を大量に出力してから答えるので、出力トークンが膨らみやすく、結果としてAPI利用料と応答時間が伸びる。Ling-2.6-flashはここを逆張りして、トークンあたりの知性(Intelligence per Token)を指標化している。

Ant Ling自身が挙げている例では、Artificial Analysis Intelligence Indexのフル評価をこなすのに消費した出力トークンがおおよそ次のようになる。

モデル評価に要した出力トークン相対値
Ling-2.6-flash約15M1.0x
Nemotron-3-Super約110M+7.3x以上

スコア自体はIntelligence Index 26で、同等〜少し上の知性を7倍近いトークン効率で達成する、というのがAnt Ling側の主張。
クラウドLLMの料金は基本的に入出力トークンの従量課金なので、ここが効くと「同じタスクを同じ品質でこなすのに請求額が7分の1」という話になり、エージェントや高頻度な自動化用途ではきつい差になる。

ベンチマークはエージェントに全振り

READMEや各種まとめが挙げている代表的なスコアは、いわゆるエージェント・関数呼び出し系のベンチマークに集中している。

ベンチマークLing-2.6-flash比較対象(参考)
BFCL-V4(関数呼び出し)67.04Nemotron-3-Super 35.12
PinchBench81.10Nemotron-3-Super 73.10
IFBench58.10
Multi-IF Turn-374.85
LongBench-v254.80
CCAlignBench(中国語)7.44同サイズ帯トップ
Intelligence Index(AA)26Ling-flash-2.0から+10

Berkeley Function Calling Leaderboard V4でNemotron-3-Superに対して30ポイント以上の差をつけているのがわかりやすいポイントで、ツール呼び出し・マルチターンの指示追従・長文参照あたりに明確に振った評価構成になっている。
一方で、AIME 2025やMATH-500のような数学オリンピック系ベンチ、LiveCodeBenchのようなコード単発ベンチでは、Nemotron-3-SuperやQwen3.5-122B-A10Bが上位を取っている、ともAnt Ling側が認めている。
「考えるのが本業のモデル」ではなく、「現場のエージェントフローをとにかく安く速く回すモデル」と割り切って読んだほうがよさそう。

4-GPUで340tok/sのスループット

推論性能はNVIDIA H20×4構成(tensor parallelism=4)で次のような値が出ているとされる。

  • ピーク: 約340 tokens/sec
  • 出力安定時: 215 tokens/sec
  • 65Kコンテキスト・65K出力時のデコードスループット: GLM-4.5-Airを1とした正規化値で約4.38倍
  • 同条件のprefillスループット: 正規化で約4.68倍(Nemotron-3-Superは約2.12倍)

H20 4枚で300tok/s超、なおかつ256Kコンテキストを捌けるというのは、Fine-grained MoE + linear attentionの組み合わせとして素直に速い部類で、チャット用途よりもオンライン推論を大量に流すエージェント基盤のほうが旨味が大きいサイズ感になる。

価格と提供チャネル

提供面では、ホストAPIとオープンウェイトの両対応が予告されている。

  • OpenRouter: inclusionAI/ling-2.6-flash として登録済み。無料枠(:free サフィックス)と有料枠の両方が存在する
  • Novita AI: OpenRouter経由のBYOK、またはNovita直のエンドポイントでも利用可能
  • Alipay Tboxling.tbox.cn): Ant Group公式のアクセスポイント
  • LingDT: Ant Digital Technologies経由の商用ブランド

有料枠の価格は、1Mトークンあたり 入力 $0.10 / 出力 $0.30
GPT-5 MiniやKimi K2.6あたりと真っ向からぶつけてきたラインで、前述のトークン効率をそのまま掛け算すると、同等タスクあたりの実質コストでは自社計測値ベースでかなり踏み込んでくることになる。

1週間限定の無料APIアクセスも同時に開始されていて、OpenRouterの:freeエンドポイントなら追加の鍵設定なしに試せる。

OpenAI互換エンドポイントで試す

OpenAI互換なので、APIキーとベースURLを差し替えるだけで既存のPythonコードに流し込める。

from openai import OpenAI

client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key="sk-or-...",  # OpenRouterのAPIキー
)

resp = client.chat.completions.create(
    model="inclusionai/ling-2.6-flash:free",  # 無料枠で試す場合
    messages=[
        {"role": "system", "content": "You are a concise coding assistant."},
        {"role": "user", "content": "Pythonでn番目のフィボナッチ数を計算する関数を書いて"},
    ],
    stream=True,
)

for chunk in resp:
    delta = chunk.choices[0].delta.content or ""
    print(delta, end="", flush=True)

関数呼び出し(tools=[...])やストリーミング、structured outputsにも一通り対応しているので、既存のClaude Code系・LangChain系・OpenAI SDK系のクライアントからモデル名だけ差し替えれば動く。

オープンソース予定

重み公開は予告段階。Ant Ling側は次を挙げている。

  • BF16フル精度ウェイト
  • FP8量子化ウェイト
  • INT4量子化ウェイト
  • Linghe kernels(MoE向け推論カーネル)

公開時期はまだ明言されていないが、FP8 / INT4込みで出すことと、自前のMoEカーネルまで外に出すと言っているところが強気。
INT4が提供されれば、7.4Bアクティブ×256エキスパートという構成上、家庭用GPU1枚に全エキスパートを載せるのは現実的ではないにしても、24GBクラス+システムRAMオフロードでの動作検証はしやすくなるはず。

Lingシリーズのなかでの位置付け

現状のLingシリーズを整理すると、役割がかなりきれいに分かれている。

モデル総パラメータアクティブ位置付け
Ling-1T1T≈50B2025年10月公開の初代フラッグシップnon-thinkingモデル
Ling-flash-2.0100B6.1B2025年公開の軽量MoE、MITで重み公開済み(bailing_moeアーキ)
Ling-2.5-1T1T63B2026年2月公開の現行フラッグシップ、hybrid linear attention導入
Ring-2.5-1T1T同時期の思考モデル側(thinkingモデル)
Ling-2.6-flash104B7.4B2026年4月公開の高効率エージェント向け小型MoE(今回)

フラッグシップ側(Ling-2.5-1T / Ring-2.5-1T)は「世界をフルスケールで考えさせる」担当、今回のLing-2.6-flashは「本番のツール呼び出しを安くたくさん回す」担当、と役割を分けに来ている。
ユーザー側からすると、ワンショットの難問は2.5-1T系、エージェントフローの1ステップずつは2.6-flash、という使い分けができるラインナップになった。