日本語LLMが増えたので中身を整理してみた

2026年に入ってから、日本語に強いLLMが一気に増えた。
ただ「日本語特化」と言っても、中身を見ると全然違う。ゼロから学習したものもあれば、既存モデルに日本語を足しただけのものもある。
新年度のタイミングで一回整理しておく。

「日本語特化」の中身は3パターンある

日本語に強いと謳うLLMは、学習方式で大きく3つに分かれる。

方式	内容	例
スクラッチ学習	アーキテクチャだけ借りて、重みはゼロから学習	LLM-jp-4、PLaMo、cotomi
継続事前学習	既存モデルの重みに追加で日本語コーパスを学習	Nemotron Nano 9B JP、Swallow、Rakuten AI 3.0
Post-training	既存モデルにSFT/RLHFで日本語の振る舞いを調整	Namazu

同じ「日本語LLM」でも、LLM-jp-4のように11.7兆トークンをゼロから学習したものと、NamazuのようにDeepSeekの重みに事後学習を施したものでは、開発コストも性格も全く違う。
スクラッチが偉くてpost-trainingがダメという話ではなく、何を目的にしているかが違う。

一覧

2026年4月時点で手に入る主な日本語LLM。

モデル	開発元	方式	サイズ	ベンチマーク	ライセンス
LLM-jp-4	NII	スクラッチ	32B MoE（3.8B active）	MT-Bench JA 7.82	Apache 2.0
LFM2.5-JP	Liquid AI	スクラッチ	1.2B	JMMLU 50.7	LFM Open License
PLaMo 2.0	PFN	スクラッチ	31B	非公開	非公開
cotomi v3	NEC	スクラッチ	非公開	非公開	非公開
LLM-jp-3.1	LLM-jpコンソ	スクラッチ	MoE（8x13B）	非公開	要確認
Nemotron Nano 9B JP	NVIDIA	継続事前学習	9B	Nejumi 4で10B以下1位	NVIDIA Open Model
Swallow 30B-A3B	東工大/AIST	継続事前学習+RL	30B MoE（3B active）	—	要確認
Rakuten AI 3.0	楽天	継続事前学習	非公開	非公開	非公開
Namazu	Sakana AI	Post-training	多サイズ	—	モデル依存

スクラッチ学習のモデル

LLM-jp-4-32B-A3B（NII）

国立情報学研究所が11.7兆トークンをゼロから学習させた。
アーキテクチャはQwen3MoEベースだが、重みは全くの新規。GPTやClaudeで合成・フィルタリングされたデータも使っていない。

日本語はコーパス全体の3.5%しかないが、学習時に4.5倍オーバーサンプリングして15.9%まで引き上げている。
結果としてMT-Bench JA 7.82を達成し、GPT-4oの7.29を上回った。

手元のEVO-X2（Strix Halo）で62.9 t/sが出た。
Qwen3.5-35B-A3Bの44.7 t/sを41%上回る。Expert数が半分（128 vs 256）で層数も少ない（32 vs 40）ことが効いている。

thinkingモデルなので、創作系プロンプトでthinkingにトークンを使い切る問題がある。--reasoning-budgetの制御が必須。
セーフティフィルターも非常に強く、abliterated版は存在しない。

今後、32B Denseモデルと332B-A31B（3,320億パラメータ、310億アクティブ）のMoEが2026年度中に公開予定。

→ ベンチマーク記事

LFM2.5-1.2B-JP（Liquid AI）

1.2Bという超小型で、JMMLU 50.7、M-IFEval（JA）58.1を記録。Qwen3-1.7Bを全日本語ベンチマークで上回る。
Convolution+Attentionのハイブリッドアーキテクチャで、SSMを使わずにCPU/エッジデバイスでTransformer比約2倍の速度が出る。

エッジで日本語LLMを動かしたいならこのサイズ帯では最有力。

→ アーキテクチャ解説記事

PLaMo 2.0・cotomi v3・LLM-jp-3.1

PLaMo（PFN）、cotomi（NEC）、LLM-jp-3.1（LLM-jpコンソーシアム）はいずれも国産のスクラッチ学習モデル。
3つともさくらインターネットの「さくらのAIエンジン」でAPI利用できる。

PLaMoとcotomiは価格が個別問い合わせ。
LLM-jp-3.1は入力0.15円/1万トークン、出力0.75円/1万トークンで、月3,000リクエストまで無料枠の対象。

→ さくらAIエンジン記事

継続事前学習のモデル

Nemotron Nano 9B Japanese（NVIDIA）

NVIDIAが「ソブリンAI」として日本向けに出した9Bモデル。
Nejumi Leaderboard 4の10B以下カテゴリで1位を獲得している。

Transformer-Mambaハイブリッドアーキテクチャで、同サイズのオープンソースモデルと比較して最大6倍のスループット。
学習データにはWikipedia日本語版、青空文庫、SIP3コーパスに加え、NVIDIAのNemotronデータセットを使用。
SFTには日本の人口統計に基づく600万ペルソナのデータセットが使われている。

9BサイズなのでエッジGPU1枚で動く。企業のオンプレミス用途に向いている。
ツール呼び出しとコーディングが特に強い。

→ 詳細記事

Qwen3-Swallow 30B-A3B（東工大/AIST）

Qwen3に対して日本語の継続事前学習とRLを施したモデル。
NDLOCR-LiteのOCR校正テストで、語彙修正（「一方交通→一方通行」「受けー方→受け側」）がQwen3.5より自然だった。

GGUFでthinking制御がうまく動かない問題があり、ローカルで使うなら要注意。

→ OCR校正で比較した記事

Rakuten AI 3.0（楽天）

GENIAC（経産省の補助金事業）の成果として「国内最大規模の高性能AIモデル」と発表されたが、公開直後にconfig.jsonから"model_type": "deepseek_v3"が見つかり、DeepSeek-V3ベースだと判明した。
初期リリースではDeepSeekのMITライセンスファイルが削除されており、コミュニティの指摘を受けて後から追加している。

DeepSeek-V3はMITライセンスなので使うこと自体は問題ない。
ただし、ベースモデルを隠して補助金を受けた「国産モデル」として発表した経緯は知っておいたほうがいい。

Post-trainingのモデル

Namazu（Sakana AI）

DeepSeek-V3.1-TerminusやLlama 3.1 405Bなど、複数の既存モデルに事後学習を施すアプローチ。
日本の政治・歴史に関するバイアス是正が主な目的で、他のモデルとは狙いが違う。

モデルの重みは借り物だが、すでに高い基礎能力を持つモデルの日本語バイアスを直すというのは実用的な戦略でもある。

ちなみに「Namazu」は1997年の全文検索エンジンと名前が被っている。
→ 名前被り記事

API利用の選択肢

ローカルで動かすのが面倒なら、さくらインターネットの「さくらのAIエンジン」がある。
国内データセンターで完結し、OpenAI API互換。

モデル	入力（1万トークン）	出力（1万トークン）	無料枠
LLM-jp-3.1 8x13B	0.15円	0.75円	対象
PLaMo 2.0-31B	個別問い合わせ	個別問い合わせ	—
cotomi v3	個別問い合わせ	個別問い合わせ	—

データの海外持ち出しができない案件（自治体、金融等）で、OpenAI APIやClaude APIの代替になる。

→ さくらAIエンジン記事

用途別の選び方

用途	候補	理由
ローカルで日本語品質重視	LLM-jp-4	MT-Bench JA 7.82、62 t/s
エッジ/9Bサイズ	Nemotron Nano 9B JP	10B以下1位、ツール呼び出しに強い
とにかく小さく	LFM2.5-1.2B-JP	1.2BでCPU動作
APIで国内完結	さくらAIエンジン	LLM-jp-3.1は無料枠あり
日本語OCR校正	Swallow	語彙修正の自然さ