キャラLoRAの「変なポーズ」は素材を足さず引いて直す

2026-06-06 追記: この絞った構成をかなちゃん側にも揃えて、けいちゃんとかなちゃんを1本のLoRAに合体させ2人を絡ませられるか検証した続編を書いた → Anima で2キャラを1つのLoRAに焼いて2人を「絡ませる」ことはできるか

前回けいちゃん LoRA v2は、Anima-Base v1.0 上で Gemini 起点の分布ズレ素材を焼き、「トリガー単体で出る実用 LoRA」になった。ただし宿題が残った。standing と指定しても脚が曲がる/開く/歩き姿勢になり、まっすぐ直立しない。

v2記事はその原因を「ポーズ/アングルはトリガーワードが学習素材の分布をそのまま体現する」と結論し、データ設計の処方箋（v3案）として 「全身44枚のポーズ付き立ち絵 → 直立ターンアラウンド数枚に置き換えて全体を軽くする」 を提案して終わっていた。

本記事はその答え合わせだ。先に半端な対処（v3）で失敗し、その後きちんと素材を引いた（v4）ら直った。キャラLoRAの崩れたポーズは、素材を足すのではなく引いて直す。

v3で `standing` タグだけ掃除したら失敗した

最初の対処（v3）は「キャプション衛生」だった。ポーズ付き全身画像から standing タグを外し、実際のポーズ（walking / squatting / contrapposto 等）に張り替え、standing は純直立画像にのみ残す。さらに直立ターンアラウンド（前後左右斜め）を10枚追加した（角度違いの直立8枚＋直立バストアップ2枚）。逆に、元から standing 指定だったのにポーズが分類できない1枚は外した。70＋10−1で79枚になった。

「standing が汚染されていたのが原因なら、タグを綺麗にすれば直る」という読みだったが、外れた。

ローカル検証（Anima-Base + Turbo 8-step、front/side/3-4/behind の直立度を Codex で ○△× 採点）の結果は次のとおり。

epoch	v3 `standing` スコア
ep30	○2 △2 ×4
ep60	○1 ×7（むしろ悪化）

深く焼くほど直立に寄るどころか、ep60 で7枚中7枚が歩き/曲げ/体重移動。standing タグを綺麗にしても直立しなかった。

しかも v3 はタグを掃除しただけではない。直立ターンアラウンドを10枚足してもいる。良い直立素材を足してなお直らなかった。タグ掃除も素材追加も「引かない」対処であり、どちらも空振りした。この時点で、後で効く処方が「足す側」には無さそうだと見えてくる。

原因は `standing` ではなくトリガーが吸ったデータ分布

v2記事の結論を思い出す。standing は薄い受け皿で、ポーズの主役はトリガーワード。keichan はポーズ付き全身すべてに常駐するので、ポーズ信号を一番濃く吸う。standing のタグをいくら綺麗にしても、トリガー keichan 自身が「ポーズ付きの全身」を運んでしまう。

決定的だったのがかなちゃん（直立する別キャラLoRA）との素材比較だ。両キャラの全身画像の構成を数えると次のようになった。

	かなちゃん（立つ）	けいちゃん v3（ポーズ立ち）
全身（`full body`）	14	52
└ うち `standing`	11	13
└ `walking`	0	17
└ 他のポーズ付き	~0	~10

かなちゃんは全身14枚のうち11枚が直立、歩き0。 対してけいちゃんは全身52枚に歩きが17枚。しかもその大半は元々「歩き/動きのキャラ立ち絵」で、standing タグすら付いていなかった。だから v3 の standing 掃除は氷山の一角しか触れていなかった。

「足を上げる/曲げる」の出どころは、この17枚の walking（mid-stride＝片脚が前/上）＋ leg up / curtsey / squat だった。全部トリガーに焼かれていた。standing タグの問題ではなく、トリガーが吸った全身ポーズの分布そのものが問題だった。

v4でポーズ付き全身を36枚引いた

処方は明快だ。ポーズ付き全身を切る。

カット 36枚：walking 17 + squatting / leg up / curtsey / contrapposto / legs apart + 未確認の全身
残す 43枚：バスト25（同一性の核）+ 直立背面1 + 検証済みクリーン直立の着衣全身7 + 直立ターンアラウンド10

79枚 → 43枚。設計思想は 「ポーズはベース（Anima）に任せ、LoRA は同一性だけ覚える」（v2の知見「ベースが出せるものは入れない」の徹底）。ベースは standing も walking も出せるのだから、トリガーにポーズを焼く必要はない。かなちゃんの絞ったプロファイルに寄せた格好だ。

結果は×ゼロ、`standing` で直立した

v4 を同条件で焼いて検証した。

epoch	v3	v4
ep30	○2 △2 ×4	○4 △4 ×0
ep60	○1 ×7	○6 △2 ×0
ep90	—	○6 △2 ×0
ep120	—	○6 △2 ×0
ep150	—	○6 △2 ×0

けいちゃん v4 standing スコア推移（v3 との対照）

v4 は全エポックで × ゼロ。 残る △2 は毎回 3/4 構図が cowboy shot で脚が見切れて判定不能なだけで、欠陥ではない。判定可能な構図（正面・側面・背面）は全て ○。Codex も ep60 時点で「standing で両脚をまっすぐ伸ばして自然に直立する LoRA になっている」と明言した。

v3 が ep60 で ×7 まで崩壊したのと完全に対照的だ。しかも v4 は最初から崩れる要素（ポーズ信号）が無いので、ep30→150 まで一度も崩れず、深く焼いても劣化しなかった。

同じ ep60・同じ構図セット（front/side/3-4/behind × 2 seed）で v3 と v4 を並べると一目瞭然だ。上段（v3）は脚が曲がる/歩き姿勢、下段（v4）はまっすぐ直立する。

v3 vs v4 ep60 ポーズ検証グリッド比較（上=v3 ポーズ立ち / 下=v4 直立）

v4 ep150 ポーズ検証グリッド（front/side/3-4/behind）

同一性（色・顔・青リボン・インテーク）は v2 同様 ep30 で早期ロックし ep150 まで安定。インテークは中程度のまま（ベースが苦手な要素の天井、v2と同じ）。最良 ep は ep120〜150。

v4 各epの顔（同一性収束 ep30→150・内蔵サンプル）

足すより引く

キャラLoRAの崩れたポーズは、データを足すのではなく引いて直す。 直立サンプルを足すだけ（v3でターンアラウンド10枚追加）では、17枚の歩きに対して焼け石に水だった。
一般タグ（standing）は受け皿、ポーズはトリガーが運ぶ。 タグ掃除では直らない。トリガーが吸う画像の分布を変える＝ポーズ付き全身を物理的に減らすしかない。
「ベースが出せるものは入れない、同一性だけ焼く」。 ポーズはベースに任せ、LoRA はキャラの特徴点（顔・髪・小物）に集中させる。結果として素材は軽くなる（79→43）。「数を揃えすぎ」はむしろ害になる。
動的ポーズが欲しければ推論で指定すればベースが出す。学習にポーズ付きを入れてデフォルトを汚すのは損。

線引きしておくと、「引いて直る」のはベースがそのポーズを出せる場合に限る。今回は standing も直立もベースが普通に出せたから、トリガーに焼いた余計なポーズを引くだけで済んだ（repeats や強度で殴る手もあるが、引くのがいちばん手っ取り早かった）。逆にベースが出せないポーズ（あおり）や苦手な造形（インテーク）は、引くのではなく誇張して足すしかない。引くか足すかはベースの守備範囲で決まる。

v2 で立てた「データ設計の指針（v3案）」は、この v4 で実証された。次は、この絞ったけいちゃんに、同じく絞ったかなちゃんを混ぜて1つのLoRAに2キャラ焼けるか、を試している（別記事）。

v3で standing タグだけ掃除したら失敗した

原因は standing ではなくトリガーが吸ったデータ分布

v4でポーズ付き全身を36枚引いた

結果は×ゼロ、standing で直立した

足すより引く

参考リンク

v3で `standing` タグだけ掃除したら失敗した

原因は `standing` ではなくトリガーが吸ったデータ分布

結果は×ゼロ、`standing` で直立した