技術 約6分で読めます

日本語LLMが増えたので中身を整理してみた

いけさん目次

2026年に入ってから、日本語に強いLLMが一気に増えた。
ただ「日本語特化」と言っても、中身を見ると全然違う。ゼロから学習したものもあれば、既存モデルに日本語を足しただけのものもある。
新年度のタイミングで一回整理しておく。

「日本語特化」の中身は3パターンある

日本語に強いと謳うLLMは、学習方式で大きく3つに分かれる。

方式内容
スクラッチ学習アーキテクチャだけ借りて、重みはゼロから学習LLM-jp-4、PLaMo、cotomi
継続事前学習既存モデルの重みに追加で日本語コーパスを学習Nemotron Nano 9B JP、Swallow、Rakuten AI 3.0
Post-training既存モデルにSFT/RLHFで日本語の振る舞いを調整Namazu

同じ「日本語LLM」でも、LLM-jp-4のように11.7兆トークンをゼロから学習したものと、NamazuのようにDeepSeekの重みに事後学習を施したものでは、開発コストも性格も全く違う。
スクラッチが偉くてpost-trainingがダメという話ではなく、何を目的にしているかが違う。

一覧

2026年4月時点で手に入る主な日本語LLM。

モデル開発元方式サイズベンチマークライセンス
LLM-jp-4NIIスクラッチ32B MoE(3.8B active)MT-Bench JA 7.82Apache 2.0
LFM2.5-JPLiquid AIスクラッチ1.2BJMMLU 50.7LFM Open License
PLaMo 2.0PFNスクラッチ31B非公開非公開
cotomi v3NECスクラッチ非公開非公開非公開
LLM-jp-3.1LLM-jpコンソスクラッチMoE(8x13B)非公開要確認
Nemotron Nano 9B JPNVIDIA継続事前学習9BNejumi 4で10B以下1位NVIDIA Open Model
Swallow 30B-A3B東工大/AIST継続事前学習+RL30B MoE(3B active)要確認
Rakuten AI 3.0楽天継続事前学習非公開非公開非公開
NamazuSakana AIPost-training多サイズモデル依存

スクラッチ学習のモデル

LLM-jp-4-32B-A3B(NII)

国立情報学研究所が11.7兆トークンをゼロから学習させた。
アーキテクチャはQwen3MoEベースだが、重みは全くの新規。GPTやClaudeで合成・フィルタリングされたデータも使っていない。

日本語はコーパス全体の3.5%しかないが、学習時に4.5倍オーバーサンプリングして15.9%まで引き上げている。
結果としてMT-Bench JA 7.82を達成し、GPT-4oの7.29を上回った。

手元のEVO-X2(Strix Halo)で62.9 t/sが出た。
Qwen3.5-35B-A3Bの44.7 t/sを41%上回る。Expert数が半分(128 vs 256)で層数も少ない(32 vs 40)ことが効いている。

thinkingモデルなので、創作系プロンプトでthinkingにトークンを使い切る問題がある。--reasoning-budgetの制御が必須。
セーフティフィルターも非常に強く、abliterated版は存在しない。

今後、32B Denseモデルと332B-A31B(3,320億パラメータ、310億アクティブ)のMoEが2026年度中に公開予定。

ベンチマーク記事

LFM2.5-1.2B-JP(Liquid AI)

1.2Bという超小型で、JMMLU 50.7、M-IFEval(JA)58.1を記録。Qwen3-1.7Bを全日本語ベンチマークで上回る。
Convolution+Attentionのハイブリッドアーキテクチャで、SSMを使わずにCPU/エッジデバイスでTransformer比約2倍の速度が出る。

エッジで日本語LLMを動かしたいならこのサイズ帯では最有力。

アーキテクチャ解説記事

PLaMo 2.0・cotomi v3・LLM-jp-3.1

PLaMo(PFN)、cotomi(NEC)、LLM-jp-3.1(LLM-jpコンソーシアム)はいずれも国産のスクラッチ学習モデル。
3つともさくらインターネットの「さくらのAIエンジン」でAPI利用できる。

PLaMoとcotomiは価格が個別問い合わせ。
LLM-jp-3.1は入力0.15円/1万トークン、出力0.75円/1万トークンで、月3,000リクエストまで無料枠の対象。

さくらAIエンジン記事

継続事前学習のモデル

Nemotron Nano 9B Japanese(NVIDIA)

NVIDIAが「ソブリンAI」として日本向けに出した9Bモデル。
Nejumi Leaderboard 4の10B以下カテゴリで1位を獲得している。

Transformer-Mambaハイブリッドアーキテクチャで、同サイズのオープンソースモデルと比較して最大6倍のスループット。
学習データにはWikipedia日本語版、青空文庫、SIP3コーパスに加え、NVIDIAのNemotronデータセットを使用。
SFTには日本の人口統計に基づく600万ペルソナのデータセットが使われている。

9BサイズなのでエッジGPU1枚で動く。企業のオンプレミス用途に向いている。
ツール呼び出しとコーディングが特に強い。

詳細記事

Qwen3-Swallow 30B-A3B(東工大/AIST)

Qwen3に対して日本語の継続事前学習とRLを施したモデル。
NDLOCR-LiteのOCR校正テストで、語彙修正(「一方交通→一方通行」「受けー方→受け側」)がQwen3.5より自然だった。

GGUFでthinking制御がうまく動かない問題があり、ローカルで使うなら要注意。

OCR校正で比較した記事

Rakuten AI 3.0(楽天)

GENIAC(経産省の補助金事業)の成果として「国内最大規模の高性能AIモデル」と発表されたが、公開直後にconfig.jsonから"model_type": "deepseek_v3"が見つかり、DeepSeek-V3ベースだと判明した。
初期リリースではDeepSeekのMITライセンスファイルが削除されており、コミュニティの指摘を受けて後から追加している。

DeepSeek-V3はMITライセンスなので使うこと自体は問題ない。
ただし、ベースモデルを隠して補助金を受けた「国産モデル」として発表した経緯は知っておいたほうがいい。

Post-trainingのモデル

Namazu(Sakana AI)

DeepSeek-V3.1-TerminusやLlama 3.1 405Bなど、複数の既存モデルに事後学習を施すアプローチ。
日本の政治・歴史に関するバイアス是正が主な目的で、他のモデルとは狙いが違う。

モデルの重みは借り物だが、すでに高い基礎能力を持つモデルの日本語バイアスを直すというのは実用的な戦略でもある。

ちなみに「Namazu」は1997年の全文検索エンジンと名前が被っている。
名前被り記事

API利用の選択肢

ローカルで動かすのが面倒なら、さくらインターネットの「さくらのAIエンジン」がある。
国内データセンターで完結し、OpenAI API互換。

モデル入力(1万トークン)出力(1万トークン)無料枠
LLM-jp-3.1 8x13B0.15円0.75円対象
PLaMo 2.0-31B個別問い合わせ個別問い合わせ
cotomi v3個別問い合わせ個別問い合わせ

データの海外持ち出しができない案件(自治体、金融等)で、OpenAI APIやClaude APIの代替になる。

さくらAIエンジン記事

用途別の選び方

用途候補理由
ローカルで日本語品質重視LLM-jp-4MT-Bench JA 7.82、62 t/s
エッジ/9BサイズNemotron Nano 9B JP10B以下1位、ツール呼び出しに強い
とにかく小さくLFM2.5-1.2B-JP1.2BでCPU動作
APIで国内完結さくらAIエンジンLLM-jp-3.1は無料枠あり
日本語OCR校正Swallow語彙修正の自然さ