DeepSeek V4 Previewが1Mコンテキストで登場、V4-Pro 1.6T/V4-Flash 284BがMITで公開されV3.2比27% FLOPsを実現

DeepSeekが2026年4月24日、長く噂されていたV4系列のPreview版を公開した。
ラインナップは DeepSeek-V4-Pro（1.6T 総パラメータ／49B アクティブ）と DeepSeek-V4-Flash（284B／13B アクティブ）の2本立てで、どちらも1Mコンテキストに対応し、ウェイトは Hugging Face にMITで上がっている。
同時にAPIも更新済みで、chat.deepseek.com では Expert Mode（熟考）と Instant Mode（即答）の切り替えが即日利用可能。

この1〜2週間、Tencent Hy3-previewとAnt Ling-2.6-flash、Qwen3.6-Max-PreviewとKimi K2.6、Xiaomi MiMo-V2.5とV2.5-Pro、智谱AIのGLM-5.1 と、中華系のフロンティア級モデルが連打で出ていた。
そのベンチマーク比較の基準点としてどの記事でも「DeepSeek-V3系」が参照されていたなか、本命のDeepSeek本体がV4 Previewという形で土俵に上がってきた格好になる。

2モデルのポジショニング

V4-ProとV4-Flashは、同じアーキテクチャ系譜のまま「フロンティア級」と「高効率級」で層を分けた構成。

flowchart LR
  V4[DeepSeek V4 Preview] --> P[V4-Pro<br/>1.6T / 49B active<br/>最上位<br/>Think Max対応]
  V4 --> F[V4-Flash<br/>284B / 13B active<br/>高速・低コスト<br/>経済重視]
  P --> PC[chat.deepseek.com<br/>Expert Mode]
  F --> FC[chat.deepseek.com<br/>Instant Mode]
  P --> API[API即日更新]
  F --> API

V4-Proはクラウドの最上位モデルとして「世界トップクラスのクローズドソースモデルに匹敵する性能」、V4-Flashは「高速で効率的かつ経済的な選択肢」と位置付けられている。
Qwen3.6シリーズがMax-Previewをクローズド、35B-A3Bをオープンで提供していた構成と違い、DeepSeek側はフロンティア級を含めてPro／FlashともオープンウェイトをそのままMITで配り切っているのが特徴。

スペックと基盤構成

モデルカードから拾える諸元を並べる。

項目	V4-Pro	V4-Flash
総パラメータ	1.6T	284B
アクティブパラメータ/トークン	49B	13B
コンテキスト長	1M	1M
アーキテクチャ	Fine-grained MoE	Fine-grained MoE
精度	FP4 + FP8 Mixed	FP4 + FP8 Mixed
事前学習トークン	32T+	32T+
ライセンス	MIT	MIT
ポストトレーニング	2段階（専門家SFT+GRPO → on-policy蒸留統合）	同左

FP4とFP8のMixed精度というのが地味に効いていて、MoEのエキスパート側パラメータはFP4、それ以外はFP8で保持する設計になっている。
1.6T総パラメータといっても、FP4／FP8で持つため実配置サイズは素直にFP16で持ったときの半分以下に収まる。

総パラメータと活性化パラメータの比率は、同週に出たHy3 preview（295B／21B）やLing-2.6-flash（104B／7.4B）と並べるとわかりやすい。

モデル	総 / 活性化	コンテキスト	ライセンス
DeepSeek-V4-Pro	1.6T / 49B	1M	MIT
DeepSeek-V4-Flash	284B / 13B	1M	MIT
DeepSeek-V3系	671B / 37B	128K	MIT
Tencent Hy3 preview	295B / 21B	256K	独自（Hy Community）
Zhipu GLM-5.1	744B / 40B	200K	MIT
Ant Ling-2.6-flash	104B / 7.4B	—	MIT

V3系が「671B／37B active・128K」だったので、V4-Proは総パラメータを約2.4倍に増やしつつ、アクティブパラメータは49Bに抑えてコンテキストだけを一気に1Mまで拡大している。
「フラッグシップ＝総量は増やす、activeは据え置き気味、長コンテキストに振る」という方向性は、GLM-5.1が744B／40BでDSAを入れて200Kを取った流れと同じ傾向に見える。

目玉はCSA＋HCAのハイブリッドアテンション

V4シリーズで最大の変化は、アテンション機構の再設計。
モデルカードでは2種のアテンションを組み合わせた Hybrid Attention Architecture と書かれていて、内訳は次の2つになっている。

名称	略	位置付け
Compressed Sparse Attention	CSA	圧縮＋スパース化を組み合わせたメインアテンション
Heavily Compressed Attention	HCA	長コンテキスト時に強圧縮をかけるサブアテンション

Hy3 previewがGQAとMTPで押していたのに対して、V4はアテンションそのものを2種に分けてハイブリッド運用する設計に踏み込んでいる。
実効コストは1Mコンテキスト時で次のとおり。

指標	DeepSeek-V3.2比
1トークンあたり推論FLOPs	27%
KVキャッシュ	10%

1Mコンテキストを1Mコンテキストらしく回すには、素のAttentionでは素直に爆発するKVキャッシュと二乗で効いてくる計算量が避けて通れない。
そこを「アテンション階層の作り方そのもの」で解きに行っているのがV4の特徴で、1M対応と書いているモデルのなかでも、1Mを実際に使っても計算・メモリが破綻しにくいクラスに入ってくる。

mHCでresidualを手当て

もうひとつの新要素が Manifold-Constrained Hyper-Connections（mHC）。
通常のTransformerの残差接続（residual）を、多様体上の制約付きハイパー接続に置き換える形で層間の信号伝播を安定化させる狙いの設計。

残差接続を入れ替える方向性自体は、Moonshotの「Block AttnRes」が深さ方向のハイパー接続でKimi Linearに統合された流れと通じる。
mHCはそこに「多様体上の制約」を足して、1M級の深い・長い構造でも勾配と表現力を保つよう振ってある、という建付け。

Muonオプティマイザ

事前学習・ポストトレーニングともに Muon オプティマイザを採用していると明記されている。
AdamW系ではなくMuonを選ぶ動き自体は、KimiやQwen系のポストトレーニング設計にも継続的に登場している潮流で、1Tを超える規模で収束と学習安定性を両立させたいときの現実解になりつつある。

3つのReasoningモード

V4はProもFlashも、ユーザー側が Non-Think / Think High / Think Max の3モードから選べる。

モード	指針	想定用途
Non-Think	即応、直感的	日常タスク、単純な応答
Think High	明示的な論理分析。考慮時間長め	計画、複雑な推論
Think Max	推論能力の上限を引き出す最大熟考	研究用途、限界性能を見たいタスク

Think Maxモードは コンテキストウィンドウを384K以上確保しておくこと が推奨されている。
Thinking自体が長大なトークン列を吐くため、通常の128K相当では途中で切れる。

chat側のUIでは Expert Mode がThink High／Think Maxにほぼ対応していて、 Instant Mode がNon-Think寄り。APIではリクエスト側で thinking_mode を指定する形になる。

ベンチマーク

モデルカードから主要な数字だけ抜粋。

V4-Pro（最上位 V4-Pro-Max 構成）

ベンチ	V4-Pro	備考
MMLU-Pro	87.5	知識・推論の総合ベンチ
GPQA Diamond	90.1	大学院レベルの難問QA
SimpleQA-Verified	57.9	ファクト系
LiveCodeBench	93.5	比較モデル中トップ
Codeforces Rating	3206	競技プログラミング、比較モデル中トップ
SWE Verified	80.6	実リポジトリのSWEタスク
BrowseComp	83.4	ブラウザ操作系エージェント
Toolathlon	51.8	ツール操作系エージェント
MRCR 1M	83.5 MMR	長コンテキスト読解（1Mトークン）
CorpusQA 1M	62.0 ACC	1M QA

LiveCodeBench 93.5・Codeforces 3206はフロンティア級として見ても上位で、Claude Opus 4.6やGemini 3.1 Pro Highと同ランクで叩き合える水準。
SWE Verified 80.6はClaudeに僅差、Gemini 3.1 Pro Highと同点。
一方、SimpleQA-Verified 57.9・GPQA 90.1はGemini 3.1 Pro High（それぞれ 75.6・94.3）にまだ差をつけられている。知識密度より「思考と実行」で勝ちに行っている印象。

V4-Flash

V4-Flashは「小さい方」にしてはかなり強気の数字を出している。

ベンチ	V4-Flash	V4-Pro
MMLU-Pro（Non-Think）	83.0	82.9
SimpleQA-Verified（Max Mode）	34.1	57.9
LiveCodeBench（Max Mode）	91.6	93.5
MRCR 1M	78.7	83.5

Non-ThinkのMMLU-Proに至ってはV4-Proとほぼ同点で、LiveCodeBenchも僅差。
「知識量が効くタスク（SimpleQA）」と「1M長文読解」で差が付く一方、コーディングや短中程度の推論ではV4-Flashで十分戦える、という役割分担になっている。

13B activeでこのレンジを取りに行くのは、Ant Ling-2.6-flashが104B / 7.4B activeでエージェント特化の効率枠を取りに来た動きと競合する位置取り。Flash帯の密度競争が一段厳しくなった。

Chat Templateが独自エンコーダに

V4から Jinjaチャットテンプレートが廃止 され、Python製の独自エンコーダに置き換わっている。

from encoding_dsv4 import encode_messages, parse_message_from_completion_text

messages = [
    {"role": "user", "content": "hello"},
    {"role": "assistant", "content": "Hello! I am DeepSeek.", "reasoning_content": "thinking..."},
    {"role": "user", "content": "1+1=?"},
]

prompt = encode_messages(messages, thinking_mode="thinking")

import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V4-Pro")
tokens = tokenizer.encode(prompt)

reasoning_content を会話履歴にそのまま載せるため、Thinkモードで出力された思考過程をマルチターンで引き継ぐのが素直になる一方で、Transformers／vLLM／SGLangなどの受け側もこのエンコーダに合わせる必要がある。
既存パイプラインに挿すときは、Chat Template周りを一番最初に疑うポイントに置いたほうが安全。

サンプリングの推奨値は temperature = 1.0, top_p = 1.0 で、従来の「温度低めで安定させる」流儀と逆方向なのも押さえておきたい。

提供形態とライセンス

ウェイト: deepseek-ai/DeepSeek-V4-Pro / deepseek-ai/DeepSeek-V4-Flash（Hugging Face、MIT）
Base版: -Base サフィックス、FP8のみで提供
API: DeepSeek公式APIが即日更新、Expert Mode／Instant Modeを切り替え可能
Web UI: chat.deepseek.com
ModelScope: Flash版のミラーあり

MITでBase版まで含めて落とせるのはDeepSeek-OCRと同じ流儀で、この会社のオープン方針がV4世代でも維持されている、と読める。
現時点では「Preview」名義なので、挙動や数字は正式版で変わる可能性がある点だけ要注意。

V4-Proの1.6T／49B構成は、単体で見れば「また中華系がパラメータを積んだ」という話だが、実態としてはCSA+HCAで1Mコンテキスト時のFLOPsを27%に落としつつ、Codeforces 3206 / LiveCodeBench 93.5という数字を叩き出してきた、かなり実務寄りのフロンティアモデルになっている。
Flash側の13B activeで同じ1Mコンテキストに届いている点も含め、「Chinese open frontier」の基準線はV3ベンチマーク時代から明確に上がった。

自宅で回せるか

手元のGPU環境で触れるかどうか、ざっくり見積もってみる。

V4-Pro（1.6T / 49B active）

FP4+FP8 Mixed精度とはいえ総パラメータ1.6Tは、ウェイトをロードするだけで概算800GB〜1TB級のストレージ／メモリを要求してくる。
H100 80GBを10枚並べてようやく収まるスケールで、Mac Studio M3 Ultra 512GB単体でも積み切れない。
個人勢で触るのは現実的ではなく、素直にDeepSeek公式APIか chat.deepseek.com で試すのが最速。

V4-Flash（284B / 13B active）

こちらはFP4中心の配置で概ね140〜160GB前後。
第三者からQ4相当の量子化版がHugging Faceに上がれば、もう少し下げられる余地はある。

RTX 5090 32GB単体: VRAMに全く乗らない。CPUオフロード前提で、DDR5 192GB級メインメモリに非アクティブ専門家を追い出す構成を組む必要がある。実用速度で回るかは怪しい
Mac Studio M3 Ultra 512GB: ユニファイドメモリに乗せ切れる数少ない個人向け環境。13B activeのMoEなので、数tok/sは狙える見込み
H100 80GB × 2〜3枚: テンソル並列で配置可能だが、電気代・騒音・発熱で自宅向きではない

1MコンテキストをフルサイズのままKVキャッシュに展開すると、FLOPsが27%に落ちていてもメモリ側がじわじわ効いてくる。
個人環境で触るなら、まずは128K〜256Kで安定して回ることを確認してから、長コンテキストに伸ばしていくほうが安全。

うちの環境だとどうか

手元のマシンを前提に、もう一歩具体的に落とす。

V4-Pro: 論外。1.6TのウェイトはFP4+FP8でも実質800GB〜1TB級で、ユニファイドメモリ512GBでも積み切れない。chat.deepseek.com か公式APIで触る一択
V4-Flash: FP4中心で約140〜160GB。Mac Studio M3 Ultra 512GB級なら原寸で乗るが、手元のRTX系単体では無理。CPUオフロードで回す場合も、専門家ルーティングが頻繁に切り替わるMoEはPCIe帯域で詰まりやすく、実用速度は厳しい
量子化待ち: Unsloth / MLX / GGUF勢がQ4・Q3版を上げてくるのを待つのが、個人ハード勢にとっては現実的な第一歩
1M運用: KVキャッシュが効いてくるので、FP4ウェイトが乗ってもコンテキストは128K程度から慣らしたほうがメモリ破綻しない

段階的に触るなら、chat.deepseek.comで挙動確認 → APIでthinking_mode切り替え試験 → 量子化版が出たらローカル、の順が現実的。
いきなり原寸ウェイトを落としにかかる価値は、個人利用の範囲だと薄い。