技術 約6分で読めます

Qwen3-Omni: 3BアクティブのMoEでテキスト・画像・音声・動画を統合処理するオムニモーダルモデル

2月頭のQwen3-Coder-Nextに続いて、Qwenチームからまたしても面白いモデルが出てきた。Qwen3-Omni-30B-A3B。テキスト・画像・音声・動画を入力に取り、テキストとリアルタイム音声で応答するオムニモーダルモデルで、Coder-Nextと同じくMoEアーキテクチャにより30B中3Bのみアクティベートする。

Qwen3世代はMoEで攻めるという方針が明確になってきた。Coder-Nextがコーディング特化なら、Omniはマルチモーダル統合。技術的な特徴を整理した。

Thinker-Talkerアーキテクチャ

Qwen3-Omniの最大の特徴は、推論を担当するThinkerと音声生成を担当するTalkerの二層構造。

Thinker(推論エンジン)

マルチモーダル入力を統合処理し、テキストを生成するMoEベースのLLM。

項目
総パラメータ数30B
アクティブパラメータ数3.3B
レイヤー数48
エキスパート数128
アクティブエキスパート8
コンテキスト長32K(YaRNで128Kまで拡張可)
語彙サイズ151,643
位置埋め込みRoPE + QK正規化

Coder-Nextが80B/3B(512エキスパート中10アクティブ)だったのに対し、Omniは30B/3.3B(128エキスパート中8アクティブ)。アクティブパラメータはほぼ同じだが、エキスパートの構成が異なる。Coder-Nextは512エキスパートの広い選択肢からコーディングタスクに最適な10を選ぶ設計、Omniは128エキスパートから8を選びつつモダリティの多様性に対応する設計。

Talker(音声生成)

Thinkerの出力を受けてリアルタイムに音声を生成するモジュール。こちらもMoEで3B総パラメータ中0.3Bがアクティブ。

  • Multi-Token Prediction(MTP)モジュール(約80M)で残差コードブックを予測
  • Code2Wav(約200M)で音声波形に変換
  • Thinkerと非同期で動作し、ストリーミング出力に対応
  • 初回パケットレイテンシ: 234ms(音声)、547ms(動画)
  • 対応音声: Ethan(男性・明るい)、Chelsie(女性・穏やか)、Aiden(男性・落ち着いた)

モダリティエンコーダー

コンポーネントパラメータ役割
Audio Encoder(AuT)650M音声認識・理解。2000万時間の教師ありデータで訓練
Vision Encoder(SigLIP2)543M画像・動画の理解。Qwen3-VLから継承
Code2Wav200Mコーデックから音声波形を生成
MTP Module80M残差コードブック予測

全体で約35Bパラメータ(エンコーダー込み)。後付けアダプタではなく、事前学習の段階からテキスト→マルチモーダルの混合データで段階的に訓練されている。

TM-RoPE

位置エンコーディングにはTime-aligned Multimodal RoPE(TM-RoPE)を採用。時間・高さ・幅の3次元にわたってロータリー角度を割り当てる(24/20/20)。音声と動画のタイムスタンプを統一的に扱えるため、「動画のこの場面で何が言われているか」のようなクロスモーダルな推論に効く。

3つのバリエーション

バリアント出力特徴
Instructテキスト + リアルタイム音声Thinker + Talker両方を使用。会話向け
Thinkingテキストのみ(CoT推論付き)Thinkerのみ。推論精度重視
Captionerテキストのみ音声キャプション特化。低幻覚

Thinking版はChain-of-Thought推論で精度が上がる一方、知覚タスク(ASRや音楽認識)では「推論が幻覚を誘発する」という報告がある。用途に応じて使い分ける設計。

ベンチマーク

テキスト推論

ベンチマークInstructThinkingGPT-4o
MMLU-Redux86.688.8-
GPQA69.673.166.9
AIME2565.073.726.7
ZebraLogic76.0-52.6

AIME25でGPT-4oの73.7 vs 26.7は圧倒的。3Bアクティブのモデルがここまでの数学推論性能を出すのは驚き。

音声認識(WER、低いほど良い)

ベンチマークQwen3-OmniGPT-4o-Transcribe
Librispeech clean1.221.39
Librispeech other2.48-
多言語平均(19言語)5.33-

音声入力は19言語に対応(日本語含む)。以前音声API調査編で比較したGemini Live APIやOpenAI Realtime APIとは異なり、STT→LLM→TTSのパイプラインではなくネイティブに音声を処理する。PersonaPlexの全二重音声対話とも方向性が近い。

視覚理解

ベンチマークInstructThinkingGPT-4o
MMStar68.574.9-
MathVista75.980.0-
MATH-Vision56.3-38.1
Video-MME70.5--

音声生成(ゼロショット)

ベンチマークQwen3-OmniSeed-TTS-RL
SEED test-en WER1.391.94
SEED test-zh WER1.071.00

オープンソースモデルとしては36ベンチマーク中32でSOTAを達成。

VRAM要件

BF16精度での目安。

バリアント15秒動画60秒動画120秒動画
Instruct(Thinker+Talker)79GB108GB145GB
Thinking(Thinkerのみ)69GB96GB132GB

テキストと短い音声の処理だけなら60〜70GBあたりで収まるが、動画が長くなると一気に膨らむ。Talkerを無効化すると約10GB節約できる。

Qwen-Image-Edit-2511をローカルで動かす記事では20BモデルでもVRAM要件が厳しかったが、Omniは30B+エンコーダーでさらに重い。RTX 4090単体では厳しく、A100 80GBやH100が現実的な選択肢になる。M1 MaxでQwen Image Editを動かしたときは64GB RAMでギリギリだったので、Omniは量子化なしではApple Siliconでも難しい。

Qwen3世代のMoE戦略

ここ数週間でQwen3ファミリーの全体像が見えてきた。

モデル用途総パラメータアクティブエキスパート数
Qwen3-Coder-Nextコーディング80B3B512
Qwen3-Omniオムニモーダル30B3.3B128
Qwen3-235B-A22B汎用テキスト235B22B-

注目すべきは、Coder-NextとOmniでアクティブパラメータがほぼ3Bに揃えられていること。推論時の計算コストを統一しつつ、エキスパートの構成と訓練データで特化分野を変える戦略が見える。

Kimi K2.5が1Tパラメータ中32Bアクティブという力技で攻めているのとは対照的で、Qwenは「小さなアクティブパラメータでどこまでやれるか」を追求している。実際、Omniの3.3BアクティブでGPT-4oを上回るベンチマークが複数あるのは、MoEルーティングの効率性を示している。

訓練プロセス

事前学習(3段階)

  1. エンコーダーアライメント: LLMを凍結し、音声・画像エンコーダーをそれぞれ対テキストペアで学習
  2. 汎用学習: 約2兆トークン(テキスト0.57T、音声0.77T、画像0.82T、動画0.1T)
  3. 長コンテキスト: 最大トークン長を8,192から32,768に拡張

ポストトレーニング(Thinker)

  1. SFT(Supervised Fine-Tuning)
  2. Strong-to-Weak蒸留(Qwen3-32BやQwen3-235B-A22Bを教師モデルとして使用)
  3. GSPO最適化(ルールベース報酬 + LLM-as-a-Judge)

教師モデルとしてQwen3-235B-A22Bが使われており、ファミリー内での知識蒸留パイプラインが確立されている。

所感

Qwen3-Coder-Nextの記事を書いた直後にOmniが出てきて、Qwen3世代のMoE路線が一気に明確になった。テキスト・コーディング・マルチモーダルと、同じMoEフレームワークの上に特化モデルを展開していくアプローチは合理的。

個人的に気になるのは音声統合の部分。以前の音声API調査ではSTT/LLM/TTSを別々に組み合わせる構成だったが、Omniのようなネイティブ統合型が出てくるとパイプラインの設計思想自体が変わる。遅延が小さく、モダリティ間の文脈を失わないのは大きい。

ただ、VRAM 69GB〜はローカルで気軽に試せる範囲ではない。Coder-NextはRTX 4090でも動いたが、Omniはクラウドか複数GPU前提になる。RunPodあたりでA100を借りて試すのが現実的か。量子化版が出てくればまた状況は変わりそう。

参考