技術 約5分で読めます

Anima — Cosmos-Predict2ベースの2Bアニメ画像生成モデル、現状と課題

ModelScopeの公式アカウントが「Anima is Now Live on ModelScope!」と投稿していて気になったので調べた。ただし投稿の説明文は「roleplay specialist」「zero persona-drift in long-form dialogue」などLLMの説明としか読めない内容で、実際のモデルとまったく一致していなかった。実態はテキストから画像を生成する拡散モデル。

モデル概要

項目内容
開発CircleStone Labs × Comfy Org
パラメータ20億(2B)
ベースモデルNVIDIA Cosmos-Predict2-2B-Text2Image
テキストエンコーダQwen3 0.6B base
VAEQwen Image VAE
学習データ数百万枚のアニメ画像 + 約80万枚の非アニメアート(合成データなし)
知識カットオフ2025年9月(アニメデータ)
VRAM約7GB(量子化なし)
ライセンスCircleStone Labs Non-Commercial License(非商用のみ
ステータスプレビュー版(学習途中のチェックポイント)

アーキテクチャの特徴

SDXL派生ではなく、NVIDIAのCosmos-Predict2をベースにしている点が新しい。SDXL系のアニメモデル(NoobAI、Illustrious、Animagine)とは完全に別系統。

ただしテキストエンコーダがQwen3 0.6Bとかなり小さい。一般的な軽量モデルでも4B前後が標準なので、ここが大きな制約になっている。

推奨設定

設定
解像度約1MP(1024×1024、896×1152 など)
ステップ数30〜50
CFG4〜5
対応環境ComfyUI(ネイティブ)

プロンプト形式

Danbooruタグ、自然言語、またはその組み合わせに対応。

[品質タグ] [1girl/1boy等] [キャラクター] [作品名] [アーティスト] [一般タグ]

アーティスト指定は @artist_name のプレフィクスが必要。

ユーザー評価(リリース直後の状況)

Civitaiでは113いいね、Hugging Faceでは37件のディスカッションスレッドが立ち、初動の関心は高い。

良い点

  • 軽い: 量子化なしで7GB。消費者GPUでも動く
  • 自然言語プロンプト対応: Danbooruタグを知らなくても使える
  • 新アーキテクチャ: Cosmos-Predict2ベースのアニメモデルとしては初
  • LoRA学習が動作確認済み: rank 32、512px、VRAM 10GBで学習可能

問題点

  • 推論が遅い: Tesla V100でSDXLの10倍遅いという報告あり
  • 手が崩壊する: 特に @artist_name タグ使用時に顕著
  • テキストエンコーダが弱い: 0.6Bでは複雑なポーズや構図指示を理解できない。Danbooruタグにあるポーズしか出せないという指摘がある
  • デフォルトが地味: aestheticチューニングが未実施で、品質タグやアーティスト指定なしだと平坦な出力になる
  • 高解像度に弱い: プレビュー版の限界
  • ControlNet未対応: エコシステムがまだない
  • テキスト描画は苦手: 単語レベルなら出るが文章は無理

既存モデルとの比較

項目AnimaNoobAI-XLIllustrious-XLZ-Image
アーキテクチャCosmos-Predict2SDXL派生SDXL派生S3-DiT
パラメータ2BSDXL相当SDXL相当6B
成熟度プレビュー安定版安定版安定版
VRAM約7GB6〜8GB6〜8GB約20GB(BF16)
速度遅いSDXL標準SDXL標準高速(Turbo版あり)
ControlNet未対応豊富豊富対応
LoRAエコシステムほぼなし巨大巨大成長中
ライセンス非商用のみOpenOpenApache 2.0

ポイントは2つ。

  1. 速度とエコシステム: SDXL系のNoobAI/Illustriousは成熟しきっていて、LoRA・ControlNet・マージモデルの蓄積が桁違い。今からAnimaに移行する理由がない
  2. テキストエンコーダの限界: Z-ImageやFLUX.2 Kleinは軽量でも十分なサイズのテキストエンコーダを積んでいる。0.6Bは根本的に表現力が足りない

テキストエンコーダ問題の詳細

日本語の技術レビュー(dskjal.com)が詳しい。要点:

  • Animaは「Danbooruタグに存在するポーズしか出力できない」
  • 自然言語で「腕を上げて左を向いている」と書いても、タグとして存在しない構図は再現できない
  • FLUX.2 KleinやZ-Imageは同じく軽量でも、こういった自由な指示をある程度理解できる

自然言語プロンプト対応を謳っているが、テキストエンコーダの容量が足りず、実質的にはタグベースの生成に制約されている。

ModelScopeでの扱い

ModelScopeにモデルページが存在し、ファイルのダウンロードは可能。ただし推論API・デモ・デプロイ機能は一切提供されていない。ModelScopeのツイートに書かれていた「roleplay specialist」などの文言は画像生成モデルの説明として完全に的外れで、モデルの性質を確認せずにテンプレ的な宣伝文をつけた可能性が高い。

所感

新しいアーキテクチャでアニメ特化という方向性は面白い。Cosmos-Predict2ベースの画像生成モデルが今後増えるなら、その先駆けとしての意味はある。

ただし現状は「プレビュー版」の名の通り、実用面でSDXL系に勝てる要素がほとんどない。速度は10倍遅い、手は崩壊する、テキストエンコーダは弱い、エコシステムはゼロ、ライセンスは非商用のみ。ComfyUIネイティブ対応という点だけは良いが、ComfyUIならNoobAIもIllustriousも普通に動く。

最終版でどこまで改善されるか次第。特に推論速度とテキストエンコーダの制約が解消されないと、既存モデルからの移行動機が生まれない。

関連記事

参考リンク