技術 約10分で読めます

DeepSeek V4 Previewが1Mコンテキストで登場、V4-Pro 1.6T/V4-Flash 284BがMITで公開されV3.2比27% FLOPsを実現

いけさん目次

DeepSeekが2026年4月24日、長く噂されていたV4系列のPreview版を公開した。
ラインナップは DeepSeek-V4-Pro(1.6T 総パラメータ/49B アクティブ)と DeepSeek-V4-Flash(284B/13B アクティブ)の2本立てで、どちらも1Mコンテキストに対応し、ウェイトは Hugging Face にMITで上がっている。
同時にAPIも更新済みで、chat.deepseek.com では Expert Mode(熟考)と Instant Mode(即答)の切り替えが即日利用可能。

この1〜2週間、Tencent Hy3-previewとAnt Ling-2.6-flashQwen3.6-Max-PreviewとKimi K2.6Xiaomi MiMo-V2.5とV2.5-Pro智谱AIのGLM-5.1 と、中華系のフロンティア級モデルが連打で出ていた。
そのベンチマーク比較の基準点としてどの記事でも「DeepSeek-V3系」が参照されていたなか、本命のDeepSeek本体がV4 Previewという形で土俵に上がってきた格好になる。

2モデルのポジショニング

V4-ProとV4-Flashは、同じアーキテクチャ系譜のまま「フロンティア級」と「高効率級」で層を分けた構成。

flowchart LR
  V4[DeepSeek V4 Preview] --> P[V4-Pro<br/>1.6T / 49B active<br/>最上位<br/>Think Max対応]
  V4 --> F[V4-Flash<br/>284B / 13B active<br/>高速・低コスト<br/>経済重視]
  P --> PC[chat.deepseek.com<br/>Expert Mode]
  F --> FC[chat.deepseek.com<br/>Instant Mode]
  P --> API[API即日更新]
  F --> API

V4-Proはクラウドの最上位モデルとして「世界トップクラスのクローズドソースモデルに匹敵する性能」、V4-Flashは「高速で効率的かつ経済的な選択肢」と位置付けられている。
Qwen3.6シリーズがMax-Previewをクローズド、35B-A3Bをオープンで提供していた構成 と違い、DeepSeek側はフロンティア級を含めてPro/FlashともオープンウェイトをそのままMITで配り切っているのが特徴。

スペックと基盤構成

モデルカードから拾える諸元を並べる。

項目V4-ProV4-Flash
総パラメータ1.6T284B
アクティブパラメータ/トークン49B13B
コンテキスト長1M1M
アーキテクチャFine-grained MoEFine-grained MoE
精度FP4 + FP8 MixedFP4 + FP8 Mixed
事前学習トークン32T+32T+
ライセンスMITMIT
ポストトレーニング2段階(専門家SFT+GRPO → on-policy蒸留統合)同左

FP4とFP8のMixed精度というのが地味に効いていて、MoEのエキスパート側パラメータはFP4、それ以外はFP8で保持する設計になっている。
1.6T総パラメータといっても、FP4/FP8で持つため実配置サイズは素直にFP16で持ったときの半分以下に収まる。

総パラメータと活性化パラメータの比率は、同週に出たHy3 preview(295B/21B)やLing-2.6-flash(104B/7.4B)と並べるとわかりやすい。

モデル総 / 活性化コンテキストライセンス
DeepSeek-V4-Pro1.6T / 49B1MMIT
DeepSeek-V4-Flash284B / 13B1MMIT
DeepSeek-V3系671B / 37B128KMIT
Tencent Hy3 preview295B / 21B256K独自(Hy Community)
Zhipu GLM-5.1744B / 40B200KMIT
Ant Ling-2.6-flash104B / 7.4BMIT

V3系が「671B/37B active・128K」だったので、V4-Proは総パラメータを約2.4倍に増やしつつ、アクティブパラメータは49Bに抑えてコンテキストだけを一気に1Mまで拡大している。
「フラッグシップ=総量は増やす、activeは据え置き気味、長コンテキストに振る」という方向性は、GLM-5.1が744B/40BでDSAを入れて200Kを取った流れ と同じ傾向に見える。

目玉はCSA+HCAのハイブリッドアテンション

V4シリーズで最大の変化は、アテンション機構の再設計。
モデルカードでは2種のアテンションを組み合わせた Hybrid Attention Architecture と書かれていて、内訳は次の2つになっている。

名称位置付け
Compressed Sparse AttentionCSA圧縮+スパース化を組み合わせたメインアテンション
Heavily Compressed AttentionHCA長コンテキスト時に強圧縮をかけるサブアテンション

Hy3 previewがGQAとMTPで押していたのに対して、V4はアテンションそのものを2種に分けてハイブリッド運用する設計に踏み込んでいる。
実効コストは1Mコンテキスト時で次のとおり。

指標DeepSeek-V3.2比
1トークンあたり推論FLOPs27%
KVキャッシュ10%

1Mコンテキストを1Mコンテキストらしく回すには、素のAttentionでは素直に爆発するKVキャッシュと二乗で効いてくる計算量が避けて通れない。
そこを「アテンション階層の作り方そのもの」で解きに行っているのがV4の特徴で、1M対応と書いているモデルのなかでも、1Mを実際に使っても計算・メモリが破綻しにくいクラスに入ってくる。

mHCでresidualを手当て

もうひとつの新要素が Manifold-Constrained Hyper-Connections(mHC)。
通常のTransformerの残差接続(residual)を、多様体上の制約付きハイパー接続に置き換える形で層間の信号伝播を安定化させる狙いの設計。

残差接続を入れ替える方向性自体は、Moonshotの「Block AttnRes」が深さ方向のハイパー接続でKimi Linearに統合された流れ と通じる。
mHCはそこに「多様体上の制約」を足して、1M級の深い・長い構造でも勾配と表現力を保つよう振ってある、という建付け。

Muonオプティマイザ

事前学習・ポストトレーニングともに Muon オプティマイザを採用していると明記されている。
AdamW系ではなくMuonを選ぶ動き自体は、KimiやQwen系のポストトレーニング設計にも継続的に登場している潮流 で、1Tを超える規模で収束と学習安定性を両立させたいときの現実解になりつつある。

3つのReasoningモード

V4はProもFlashも、ユーザー側が Non-Think / Think High / Think Max の3モードから選べる。

モード指針想定用途
Non-Think即応、直感的日常タスク、単純な応答
Think High明示的な論理分析。考慮時間長め計画、複雑な推論
Think Max推論能力の上限を引き出す最大熟考研究用途、限界性能を見たいタスク

Think Maxモードは コンテキストウィンドウを384K以上確保しておくこと が推奨されている。
Thinking自体が長大なトークン列を吐くため、通常の128K相当では途中で切れる。

chat側のUIでは Expert Mode がThink High/Think Maxにほぼ対応していて、 Instant Mode がNon-Think寄り。APIではリクエスト側で thinking_mode を指定する形になる。

ベンチマーク

モデルカードから主要な数字だけ抜粋。

V4-Pro(最上位 V4-Pro-Max 構成)

ベンチV4-Pro備考
MMLU-Pro87.5知識・推論の総合ベンチ
GPQA Diamond90.1大学院レベルの難問QA
SimpleQA-Verified57.9ファクト系
LiveCodeBench93.5比較モデル中トップ
Codeforces Rating3206競技プログラミング、比較モデル中トップ
SWE Verified80.6実リポジトリのSWEタスク
BrowseComp83.4ブラウザ操作系エージェント
Toolathlon51.8ツール操作系エージェント
MRCR 1M83.5 MMR長コンテキスト読解(1Mトークン)
CorpusQA 1M62.0 ACC1M QA

LiveCodeBench 93.5・Codeforces 3206はフロンティア級として見ても上位で、Claude Opus 4.6やGemini 3.1 Pro Highと同ランクで叩き合える水準。
SWE Verified 80.6はClaudeに僅差、Gemini 3.1 Pro Highと同点。
一方、SimpleQA-Verified 57.9・GPQA 90.1はGemini 3.1 Pro High(それぞれ 75.6・94.3)にまだ差をつけられている。知識密度より「思考と実行」で勝ちに行っている印象。

V4-Flash

V4-Flashは「小さい方」にしてはかなり強気の数字を出している。

ベンチV4-FlashV4-Pro
MMLU-Pro(Non-Think)83.082.9
SimpleQA-Verified(Max Mode)34.157.9
LiveCodeBench(Max Mode)91.693.5
MRCR 1M78.783.5

Non-ThinkのMMLU-Proに至ってはV4-Proとほぼ同点で、LiveCodeBenchも僅差。
「知識量が効くタスク(SimpleQA)」と「1M長文読解」で差が付く一方、コーディングや短中程度の推論ではV4-Flashで十分戦える、という役割分担になっている。

13B activeでこのレンジを取りに行くのは、Ant Ling-2.6-flashが104B / 7.4B activeでエージェント特化の効率枠を取りに来た動き と競合する位置取り。Flash帯の密度競争が一段厳しくなった。

Chat Templateが独自エンコーダに

V4から Jinjaチャットテンプレートが廃止 され、Python製の独自エンコーダに置き換わっている。

from encoding_dsv4 import encode_messages, parse_message_from_completion_text

messages = [
    {"role": "user", "content": "hello"},
    {"role": "assistant", "content": "Hello! I am DeepSeek.", "reasoning_content": "thinking..."},
    {"role": "user", "content": "1+1=?"},
]

prompt = encode_messages(messages, thinking_mode="thinking")

import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V4-Pro")
tokens = tokenizer.encode(prompt)

reasoning_content を会話履歴にそのまま載せるため、Thinkモードで出力された思考過程をマルチターンで引き継ぐのが素直になる一方で、Transformers/vLLM/SGLangなどの受け側もこのエンコーダに合わせる必要がある。
既存パイプラインに挿すときは、Chat Template周りを一番最初に疑うポイントに置いたほうが安全。

サンプリングの推奨値は temperature = 1.0, top_p = 1.0 で、従来の「温度低めで安定させる」流儀と逆方向なのも押さえておきたい。

提供形態とライセンス

  • ウェイト: deepseek-ai/DeepSeek-V4-Pro / deepseek-ai/DeepSeek-V4-Flash(Hugging Face、MIT)
  • Base版: -Base サフィックス、FP8のみで提供
  • API: DeepSeek公式APIが即日更新、Expert Mode/Instant Modeを切り替え可能
  • Web UI: chat.deepseek.com
  • ModelScope: Flash版のミラーあり

MITでBase版まで含めて落とせるのはDeepSeek-OCRと同じ流儀 で、この会社のオープン方針がV4世代でも維持されている、と読める。
現時点では「Preview」名義なので、挙動や数字は正式版で変わる可能性がある点だけ要注意。


V4-Proの1.6T/49B構成は、単体で見れば「また中華系がパラメータを積んだ」という話だが、実態としてはCSA+HCAで1Mコンテキスト時のFLOPsを27%に落としつつ、Codeforces 3206 / LiveCodeBench 93.5という数字を叩き出してきた、かなり実務寄りのフロンティアモデルになっている。
Flash側の13B activeで同じ1Mコンテキストに届いている点も含め、「Chinese open frontier」の基準線はV3ベンチマーク時代から明確に上がった。

自宅で回せるか

手元のGPU環境で触れるかどうか、ざっくり見積もってみる。

V4-Pro(1.6T / 49B active)

FP4+FP8 Mixed精度とはいえ総パラメータ1.6Tは、ウェイトをロードするだけで概算800GB〜1TB級のストレージ/メモリを要求してくる。
H100 80GBを10枚並べてようやく収まるスケールで、Mac Studio M3 Ultra 512GB単体でも積み切れない。
個人勢で触るのは現実的ではなく、素直にDeepSeek公式APIか chat.deepseek.com で試すのが最速。

V4-Flash(284B / 13B active)

こちらはFP4中心の配置で概ね140〜160GB前後。
第三者からQ4相当の量子化版がHugging Faceに上がれば、もう少し下げられる余地はある。

  • RTX 5090 32GB単体: VRAMに全く乗らない。CPUオフロード前提で、DDR5 192GB級メインメモリに非アクティブ専門家を追い出す構成を組む必要がある。実用速度で回るかは怪しい
  • Mac Studio M3 Ultra 512GB: ユニファイドメモリに乗せ切れる数少ない個人向け環境。13B activeのMoEなので、数tok/sは狙える見込み
  • H100 80GB × 2〜3枚: テンソル並列で配置可能だが、電気代・騒音・発熱で自宅向きではない

1MコンテキストをフルサイズのままKVキャッシュに展開すると、FLOPsが27%に落ちていてもメモリ側がじわじわ効いてくる。
個人環境で触るなら、まずは128K〜256Kで安定して回ることを確認してから、長コンテキストに伸ばしていくほうが安全。

うちの環境だとどうか

手元のマシンを前提に、もう一歩具体的に落とす。

  • V4-Pro: 論外。1.6TのウェイトはFP4+FP8でも実質800GB〜1TB級で、ユニファイドメモリ512GBでも積み切れない。chat.deepseek.com か 公式APIで触る一択
  • V4-Flash: FP4中心で約140〜160GB。Mac Studio M3 Ultra 512GB級なら原寸で乗るが、手元のRTX系単体では無理。CPUオフロードで回す場合も、専門家ルーティングが頻繁に切り替わるMoEはPCIe帯域で詰まりやすく、実用速度は厳しい
  • 量子化待ち: Unsloth / MLX / GGUF勢がQ4・Q3版を上げてくるのを待つのが、個人ハード勢にとっては現実的な第一歩
  • 1M運用: KVキャッシュが効いてくるので、FP4ウェイトが乗ってもコンテキストは128K程度から慣らしたほうがメモリ破綻しない

段階的に触るなら、chat.deepseek.comで挙動確認 → APIでthinking_mode切り替え試験 → 量子化版が出たらローカル、の順が現実的。
いきなり原寸ウェイトを落としにかかる価値は、個人利用の範囲だと薄い。