Qwen3-Omni: 3BアクティブのMoEでテキスト・画像・音声・動画を統合処理するオムニモーダルモデル

2月頭のQwen3-Coder-Nextに続いて、Qwenチームからまたしても面白いモデルが出てきた。Qwen3-Omni-30B-A3B。テキスト・画像・音声・動画を入力に取り、テキストとリアルタイム音声で応答するオムニモーダルモデルで、Coder-Nextと同じくMoEアーキテクチャにより30B中3Bのみアクティベートする。

Qwen3世代はMoEで攻めるという方針が明確になってきた。Coder-Nextがコーディング特化なら、Omniはマルチモーダル統合。技術的な特徴を整理した。

Thinker-Talkerアーキテクチャ

Qwen3-Omniの最大の特徴は、推論を担当するThinkerと音声生成を担当するTalkerの二層構造。

Thinker（推論エンジン）

マルチモーダル入力を統合処理し、テキストを生成するMoEベースのLLM。

項目	値
総パラメータ数	30B
アクティブパラメータ数	3.3B
レイヤー数	48
エキスパート数	128
アクティブエキスパート	8
コンテキスト長	32K（YaRNで128Kまで拡張可）
語彙サイズ	151,643
位置埋め込み	RoPE + QK正規化

Coder-Nextが80B/3B（512エキスパート中10アクティブ）だったのに対し、Omniは30B/3.3B（128エキスパート中8アクティブ）。アクティブパラメータはほぼ同じだが、エキスパートの構成が異なる。Coder-Nextは512エキスパートの広い選択肢からコーディングタスクに最適な10を選ぶ設計、Omniは128エキスパートから8を選びつつモダリティの多様性に対応する設計。

Talker（音声生成）

Thinkerの出力を受けてリアルタイムに音声を生成するモジュール。こちらもMoEで3B総パラメータ中0.3Bがアクティブ。

Multi-Token Prediction（MTP）モジュール（約80M）で残差コードブックを予測
Code2Wav（約200M）で音声波形に変換
Thinkerと非同期で動作し、ストリーミング出力に対応
初回パケットレイテンシ: 234ms（音声）、547ms（動画）
対応音声: Ethan（男性・明るい）、Chelsie（女性・穏やか）、Aiden（男性・落ち着いた）

モダリティエンコーダー

コンポーネント	パラメータ	役割
Audio Encoder（AuT）	650M	音声認識・理解。2000万時間の教師ありデータで訓練
Vision Encoder（SigLIP2）	543M	画像・動画の理解。Qwen3-VLから継承
Code2Wav	200M	コーデックから音声波形を生成
MTP Module	80M	残差コードブック予測

全体で約35Bパラメータ（エンコーダー込み）。後付けアダプタではなく、事前学習の段階からテキスト→マルチモーダルの混合データで段階的に訓練されている。

TM-RoPE

位置エンコーディングにはTime-aligned Multimodal RoPE（TM-RoPE）を採用。時間・高さ・幅の3次元にわたってロータリー角度を割り当てる（24/20/20）。音声と動画のタイムスタンプを統一的に扱えるため、「動画のこの場面で何が言われているか」のようなクロスモーダルな推論に効く。

3つのバリエーション

バリアント	出力	特徴
Instruct	テキスト + リアルタイム音声	Thinker + Talker両方を使用。会話向け
Thinking	テキストのみ（CoT推論付き）	Thinkerのみ。推論精度重視
Captioner	テキストのみ	音声キャプション特化。低幻覚

Thinking版はChain-of-Thought推論で精度が上がる一方、知覚タスク（ASRや音楽認識）では「推論が幻覚を誘発する」という報告がある。用途に応じて使い分ける設計。

ベンチマーク

テキスト推論

ベンチマーク	Instruct	Thinking	GPT-4o
MMLU-Redux	86.6	88.8	-
GPQA	69.6	73.1	66.9
AIME25	65.0	73.7	26.7
ZebraLogic	76.0	-	52.6

AIME25でGPT-4oの73.7 vs 26.7は圧倒的。3Bアクティブのモデルがここまでの数学推論性能を出すのは驚き。

音声認識（WER、低いほど良い）

ベンチマーク	Qwen3-Omni	GPT-4o-Transcribe
Librispeech clean	1.22	1.39
Librispeech other	2.48	-
多言語平均（19言語）	5.33	-

音声入力は19言語に対応（日本語含む）。以前音声API調査編で比較したGemini Live APIやOpenAI Realtime APIとは異なり、STT→LLM→TTSのパイプラインではなくネイティブに音声を処理する。PersonaPlexの全二重音声対話とも方向性が近い。

視覚理解

ベンチマーク	Instruct	Thinking	GPT-4o
MMStar	68.5	74.9	-
MathVista	75.9	80.0	-
MATH-Vision	56.3	-	38.1
Video-MME	70.5	-	-

音声生成（ゼロショット）

ベンチマーク	Qwen3-Omni	Seed-TTS-RL
SEED test-en WER	1.39	1.94
SEED test-zh WER	1.07	1.00

オープンソースモデルとしては36ベンチマーク中32でSOTAを達成。

VRAM要件

BF16精度での目安。

バリアント	15秒動画	60秒動画	120秒動画
Instruct（Thinker+Talker）	79GB	108GB	145GB
Thinking（Thinkerのみ）	69GB	96GB	132GB

テキストと短い音声の処理だけなら60〜70GBあたりで収まるが、動画が長くなると一気に膨らむ。Talkerを無効化すると約10GB節約できる。

Qwen-Image-Edit-2511をローカルで動かす記事では20BモデルでもVRAM要件が厳しかったが、Omniは30B+エンコーダーでさらに重い。RTX 4090単体では厳しく、A100 80GBやH100が現実的な選択肢になる。M1 MaxでQwen Image Editを動かしたときは64GB RAMでギリギリだったので、Omniは量子化なしではApple Siliconでも難しい。

Qwen3世代のMoE戦略

ここ数週間でQwen3ファミリーの全体像が見えてきた。

モデル	用途	総パラメータ	アクティブ	エキスパート数
Qwen3-Coder-Next	コーディング	80B	3B	512
Qwen3-Omni	オムニモーダル	30B	3.3B	128
Qwen3-235B-A22B	汎用テキスト	235B	22B	-

注目すべきは、Coder-NextとOmniでアクティブパラメータがほぼ3Bに揃えられていること。推論時の計算コストを統一しつつ、エキスパートの構成と訓練データで特化分野を変える戦略が見える。

Kimi K2.5が1Tパラメータ中32Bアクティブという力技で攻めているのとは対照的で、Qwenは「小さなアクティブパラメータでどこまでやれるか」を追求している。実際、Omniの3.3BアクティブでGPT-4oを上回るベンチマークが複数あるのは、MoEルーティングの効率性を示している。

訓練プロセス

事前学習（3段階）

エンコーダーアライメント: LLMを凍結し、音声・画像エンコーダーをそれぞれ対テキストペアで学習
汎用学習: 約2兆トークン（テキスト0.57T、音声0.77T、画像0.82T、動画0.1T）
長コンテキスト: 最大トークン長を8,192から32,768に拡張

ポストトレーニング（Thinker）

SFT（Supervised Fine-Tuning）
Strong-to-Weak蒸留（Qwen3-32BやQwen3-235B-A22Bを教師モデルとして使用）
GSPO最適化（ルールベース報酬 + LLM-as-a-Judge）

教師モデルとしてQwen3-235B-A22Bが使われており、ファミリー内での知識蒸留パイプラインが確立されている。

所感

Qwen3-Coder-Nextの記事を書いた直後にOmniが出てきて、Qwen3世代のMoE路線が一気に明確になった。テキスト・コーディング・マルチモーダルと、同じMoEフレームワークの上に特化モデルを展開していくアプローチは合理的。

個人的に気になるのは音声統合の部分。以前の音声API調査ではSTT/LLM/TTSを別々に組み合わせる構成だったが、Omniのようなネイティブ統合型が出てくるとパイプラインの設計思想自体が変わる。遅延が小さく、モダリティ間の文脈を失わないのは大きい。

ただ、VRAM 69GB〜はローカルで気軽に試せる範囲ではない。Coder-NextはRTX 4090でも動いたが、Omniはクラウドか複数GPU前提になる。RunPodあたりでA100を借りて試すのが現実的か。量子化版が出てくればまた状況は変わりそう。