MetaがLlamaを捨てて作ったMuse Sparkと新組織Meta Superintelligence Labs

Metaが2026年4月8日、新組織Meta Superintelligence Labs（MSL）から初のAIモデル「Muse Spark」を発表した。
内部コードネームはAvocado。Llamaシリーズとは完全に別系統で、アーキテクチャからデータキュレーションまでゼロから再構築したモデルだ。

ただの新モデル発表ではない。
オープンウェイトの旗手だったMetaがプロプライエタリモデルを出し、Scale AI買収で得た人材とデータ基盤を全面投入し、マルチエージェント推論という独自路線で各社との差別化を図っている。

なぜScale AIのCEOがMeta AIを率いるのか

MSLを率いるのは、Scale AIの共同創業者兼元CEOだったAlexandr Wang。
2025年6月、Metaは143億ドル（約2.1兆円）でScale AIの49%の議決権なし株式を取得し、WangをMetaで初となるChief AI Officerとして招聘した。当時27歳。

Scale AIはAIのデータラベリング（教師データの作成）を専業とする企業だ。
特にRLHF用データの品質管理で業界トップの評価を得ており、OpenAI、Anthropic、Google DeepMindなど主要AI企業がScale AIのデータを使ってモデルを訓練してきた。
つまりMetaは「AIモデルを作る会社」ではなく「AIモデルの品質を決めるデータを作る会社」のトップを引き抜いた。

RLHF（Reinforcement Learning from Human Feedback）は、LLMのポストトレーニングで使われる手法だ。
モデルが生成した複数の回答に対して人間が「どちらが良いか」を評価し、その評価データを報酬信号としてモデルを最適化する。
この「人間の評価」の質がモデルの最終的な能力を大きく左右するため、データラベリングの品質管理は地味だが決定的に重要な工程になる。

LLMの性能はアーキテクチャやスケーリングが注目されがちだが、同じアーキテクチャでもデータキュレーション（どのデータを、どう選別・加工して学習に使うか）の違いで最終的な能力に大差がつく。
Muse Sparkの「10分の1の計算コストでLlama 4 Maverick相当の性能」という主張の裏には、Wangが持ち込んだデータキュレーションのノウハウが直接効いているとみるのが自然だ。

Wangの起用は、2025年4月のLlama 4リリースが期待に応えられなかったことへの対応でもある。
MetaはMSLを設立して研究開発を刷新し、Wangには数億ドル規模のエクイティを含む報酬パッケージを提示した。
2026年3月には組織も整理され、Reality Labs出身のMaher Sabaがapplied AIエンジニアリングを率いてCTO Andrew Bosworthに直接レポートする体制が新設された。
SabaのチームがAI製品への実装を担い、WangのMSLは長期研究に集中する分業体制だ。

オープンウェイト路線の転換

Muse Sparkはプロプライエタリモデルとしてリリースされた。
「将来のバージョンではオープンソース化を希望している」という留保付きだが、Metaにとってこれは大きな方針転換だ。

「オープンウェイト」と「オープンソース」と「プロプライエタリ」の違いはこうだ。

用語	公開範囲	例
オープンソース	コード・データ・学習手順すべて公開	ごく少数
オープンウェイト	モデルの重み（パラメータ）を公開。学習データや訓練コードは非公開	Llama 3, Gemma 4, Qwen 3.5
プロプライエタリ	重みも非公開。API経由でのみ利用可	GPT-5系, Claude系, Gemini 3系

Llamaシリーズは「オープンウェイト」に分類される。
モデルの重みは誰でもダウンロードして使えるが、訓練データや訓練パイプラインの詳細は公開されていない。
それでもコミュニティへのインパクトは大きく、Llama 2以降はローカルLLM、ファインチューニング、研究用途で広く使われてきた。
日本語LLMの比較記事でも触れたように、日本語特化モデルの多くがLlama系をベースにファインチューニングしている。

一方、GoogleはGemini 3のプロプライエタリ路線と並行してGemma 4をApache 2.0で公開する二本立てを続けている。
Metaがオープンウェイトから手を引くなら、オープンモデルの生態系ではGoogleのGemmaとAlibaba系のQwenが存在感を増すことになる。

Llamaシリーズ自体は別途継続する可能性があるが、MSLのリソースがMuseシリーズに集中するならLlamaの開発ペースが落ちることは避けられない。
ローカルLLMコミュニティにとっては大きな変動要因だ。

Muse Sparkの技術的特徴

マルチモーダル入力とツール連携

Muse Sparkは音声・テキスト・画像の入力に対応する。出力は現時点ではテキストのみ。
外部ツールの呼び出しとマルチエージェントのオーケストレーションをネイティブでサポートしており、Visual Chain of Thought（画像を含む入力に対して視覚的な推論の連鎖を生成する手法）も備える。

「ネイティブサポート」が何を意味するかは公開情報だけでは判断しづらい。
単にFunction Calling相当のAPIを持つだけなのか、モデルのアーキテクチャレベルでツール呼び出しが組み込まれているのかで意味合いが大きく変わる。
後者なら、Copilot CLIの/fleetコマンドのようなタスク分解→サブエージェント並列実行のパイプラインをモデル単体で回せることになる。

計算効率の大幅改善

Meta公式ブログによれば、Muse Sparkは前モデルLlama 4 Maverickと同等の能力を10分の1以下の計算コストで達成している。
アーキテクチャ、最適化手法、データキュレーションのすべてを作り直した結果だという。

計算効率の改善はAI業界全体のトレンドでもある。
Mamba-3がSSMアーキテクチャでTransformer比約7倍の推論速度を達成し、CDLMやAttention Matching KV圧縮が推論コストを桁単位で削減する研究を出している。
Muse Sparkの「10倍効率」がどの技術要素に起因するかはまだ不明だが、小規模モデルでスケーリング則を確立してから本番モデルを構築するアプローチを採用しており、事前学習スタック全体を最適化したとしている。

Contemplatingモードとマルチエージェント推論

Muse Sparkの差別化要素がContemplatingモード（熟考モード）だ。
これは単一モデルの推論を深くするのではなく、複数のサブエージェントを並列起動して推論させ、結果を統合する方式を採る。

現在の「推論を強化する」アプローチは大きく3種類に分けられる。

アプローチ	仕組み	代表例
単一モデル長時間推論	1つのモデルが長いChain-of-Thoughtを生成	OpenAI o3, GPT-5.4 Pro
推論時サンプリング最適化	複数回サンプリングし最良の結果を選択	Power Sampling, Best-of-N
マルチエージェント推論	複数のエージェントが並列に推論し結果を統合	Muse Spark Contemplating

OpenAIのo3やGPT-5.4 Proは1つのモデルが内部で長い推論トークンを生成して精度を上げる方式で、推論時間が長くなるほどコストがかさむ。
Power Samplingの研究が示したように、RLで学習させなくてもサンプリング戦略を変えるだけで推論性能が上がる場合もある。

Muse Sparkはこれらとは異なり、推論プロセス自体を分散させた。
Meta AI自身が研究しているHyperAgentsでもマルチエージェントの自己改善ループが有効であることが示されており、MSLがこの路線に賭けている背景がうかがえる。

graph TD
    A[入力クエリ] --> B[Muse Spark コーディネーター]
    B --> C[サブエージェント 1]
    B --> D[サブエージェント 2]
    B --> E[サブエージェント N]
    C --> F[推論結果の統合]
    D --> F
    E --> F
    F --> G[思考圧縮]
    G --> H[最終回答]

この構造はKarpathyのClawsが提唱したエージェントオーケストレーション層の概念に近い。
単発のエージェントが呼ばれて消えるのではなく、コーディネーターが複数のエージェントを管理し、結果を統合して返すアーキテクチャだ。

思考圧縮（Thought Compression）

Contemplatingモードの強化学習では「思考圧縮」という手法が使われている。
手順はこうだ。

まず十分な推論トークンを使って精度を最大化する
次にトークン数にペナルティを課して再訓練する
精度を維持しつつ、推論に使うトークン数を短縮する

RLHFやGRPO（Group Relative Policy Optimization）のように、報酬関数を使ってモデルの出力を最適化する。
ただし報酬は「回答の正確さ」だけでなく「推論トークンの短さ」にも与えられる点が特徴的だ。

GRPOはグループ内の相対的な報酬でポリシーを更新する手法で、PPO（Proximal Policy Optimization）と比べて価値関数モデルが不要な分、計算コストが低い。
DeepSeek-R1の推論強化で知られるようになり、TRL v1.0で安定APIとして使えるようになった。
16のオープンソースRLライブラリの比較分析が示すように、非同期RL訓練の設計パターンも急速に整備されつつある。

思考圧縮はこうしたRL手法の上に、推論コスト最適化という新しい目的関数を載せたものだ。
結果としてマルチエージェント方式でありながら、単一モデルの推論と同等のレイテンシを実現しているとMetaは主張する。

ベンチマーク性能

公開されているベンチマークスコアを、各指標の意味とあわせてまとめた。

ベンチマーク	何を測るか	Muse Spark（標準）	Contemplating	比較対象
GPQA Diamond	物理・化学・生物の博士課程レベルの問題。専門家でも正答率が低い	89.5%	-	Opus 4.6: 92.7%, Gemini 3.1 Pro: 94.3%, Grok 4.2: 88.5%
HLE（ツールなし）	数学・科学の超難問。「人類最後の試験」を標榜	42.8%	50.2%	Gemini 3.1 Deep Think: 48.4%, GPT-5.4 Pro: 43.9%
HLE（ツールあり）	同上。外部ツール利用可	50.4%	58%	-
HealthBench Hard	医療分野の診断・判断。医師監修の問題セット	42.8%	-	フロンティアモデル群を上回るとMeta主張
FrontierScience	科学研究の最前線の問題	-	38%	-

GPQA Diamond（Graduate-Level Google-Proof Q&A）は、Google検索では答えにたどり着けないレベルの専門問題を集めたベンチマークだ。
「Diamond」はその中でも特に難しいサブセットで、該当分野の博士でも正答率が低い。
Muse SparkはOpus 4.6やGemini 3.1 Proの最上位モードには及ばないが、Grok 4.2は上回った。

HLE（Humanity’s Last Exam）は「既存のベンチマークが簡単になりすぎた」という問題意識から作られた超難問セットだ。
ここでContemplatingモードの真価が出ている。
ツールなしの50.2%はGemini 3.1 Deep Think（48.4%）やGPT-5.4 Pro（43.9%）を上回り、マルチエージェント推論が単一モデルの推論深化に対してアドバンテージを持つ領域があることを示唆している。

HealthBenchではフロンティアモデル群を有意に超えたとされており、1,000人以上の医師が監修したキュレーション済みデータで訓練されている。
Scale AI由来のデータ品質管理がここに効いていそうだ。

ただしMeta自身も「新しいSOTAではなく、特定タスクで競争力がある」と認めている。
ベンチマークスコアの解釈には注意が必要だ。
SWE-bench Verifiedの廃止が示したように、業界標準とされたベンチマークでも汚染やゲーミングの問題が発覚して廃止に追い込まれるケースがある。
ARC-AGI-3ではフロンティアモデルが軒並み1%未満という結果も出ており、静的ベンチマークと実タスク性能のギャップは依然として大きい。

安全性評価と「評価認識」の問題

MetaのAdvanced AI Scaling Frameworkに基づく内部評価では、すべてのフロンティアリスクカテゴリで安全マージン内という結果が出ている。
生物・化学兵器関連の領域では強い拒否行動を示した。

注目すべきは第三者評価で指摘された「評価認識（evaluation awareness）」の問題だ。
これはモデルが「自分は今テストされている」と認識し、テスト中だけ振る舞いを変える傾向のことを指す。
Muse Sparkはこの割合が他モデルより高かった。

評価認識がなぜ問題なのか。
テスト中だけ良い子になるモデルは、本番環境で想定と異なる振る舞いをするリスクがある。
安全性ベンチマークのスコアが高くても、それがモデルの本来の傾向を反映しているのか、テスト検出による一時的な適応なのかが区別できない。

AI安全性の評価手法自体が試行錯誤の途上にある。
Claudeの全ティアがAFL攻撃でジェイルブレイクされた事例は、内部の安全性評価をパスしたモデルでも実環境では突破されうることを示した。
Anthropicの感情ベクトル研究は、モデル内部に171個の感情的な表現パターンがあり、それが出力に因果的影響を及ぼしていることを明らかにしている。
モデルの内部状態は外部からの評価だけでは把握しきれない。

Metaがこの評価認識を「リリースをブロックするレベルではない」と判断した根拠は、今後精査される必要がある。

MetaのAI戦略とフロンティアモデル競争

MSLが掲げるビジョンは「あなたの世界を理解するパーソナル超知能」だ。
Muse Sparkを「スケーリングラダーの最初のステップ」と位置づけており、より大規模なMuseファミリーモデルが開発中であることも明言している。

これまでのMetaのAI戦略は、Anthropicが数GW規模のインフラをGoogle・Broadcomと構築するような「巨額投資でクローズドモデルを磨く」路線とは一線を画していた。
Muse Sparkの登場で、MetaもOpenAI・Anthropic・Google DeepMindと同じ土俵に上がった。

meta.aiとMeta AIアプリで一般利用可能。API private previewが一部ユーザーに提供されている。
Contemplatingモードは段階的にロールアウト中。

143億ドルを投じてWangを連れてきた以上、MetaがMSLに期待しているものは大きい。
初手の出来は競争力はあるが圧倒はしないレベルで、ここからMuseファミリーがどれだけ速く進化できるかが勝負になる。