キャラLoRAの「変なポーズ」は素材を足さず引いて直す
目次
2026-06-06 追記: この絞った構成をかなちゃん側にも揃えて、けいちゃんとかなちゃんを1本のLoRAに合体させ2人を絡ませられるか検証した続編を書いた → Anima で2キャラを1つのLoRAに焼いて2人を「絡ませる」ことはできるか
前回 けいちゃん LoRA v2は、Anima-Base v1.0 上で Gemini 起点の分布ズレ素材を焼き、「トリガー単体で出る実用 LoRA」になった。ただし宿題が残った。standing と指定しても脚が曲がる/開く/歩き姿勢になり、まっすぐ直立しない。
v2記事はその原因を「ポーズ/アングルはトリガーワードが学習素材の分布をそのまま体現する」と結論し、データ設計の処方箋(v3案)として 「全身44枚のポーズ付き立ち絵 → 直立ターンアラウンド数枚に置き換えて全体を軽くする」 を提案して終わっていた。
本記事はその答え合わせだ。先に半端な対処(v3)で失敗し、その後きちんと素材を引いた(v4)ら直った。キャラLoRAの崩れたポーズは、素材を足すのではなく引いて直す。
v3で standing タグだけ掃除したら失敗した
最初の対処(v3)は「キャプション衛生」だった。ポーズ付き全身画像から standing タグを外し、実際のポーズ(walking / squatting / contrapposto 等)に張り替え、standing は純直立画像にのみ残す。さらに直立ターンアラウンド(前後左右斜め)を10枚追加した(角度違いの直立8枚+直立バストアップ2枚)。逆に、元から standing 指定だったのにポーズが分類できない1枚は外した。70+10−1で79枚になった。
「standing が汚染されていたのが原因なら、タグを綺麗にすれば直る」という読みだったが、外れた。
ローカル検証(Anima-Base + Turbo 8-step、front/side/3-4/behind の直立度を Codex で ○△× 採点)の結果は次のとおり。
| epoch | v3 standing スコア |
|---|---|
| ep30 | ○2 △2 ×4 |
| ep60 | ○1 ×7(むしろ悪化) |
深く焼くほど直立に寄るどころか、ep60 で7枚中7枚が歩き/曲げ/体重移動。standing タグを綺麗にしても直立しなかった。
しかも v3 はタグを掃除しただけではない。直立ターンアラウンドを10枚足してもいる。良い直立素材を足してなお直らなかった。タグ掃除も素材追加も「引かない」対処であり、どちらも空振りした。この時点で、後で効く処方が「足す側」には無さそうだと見えてくる。
原因は standing ではなくトリガーが吸ったデータ分布
v2記事の結論を思い出す。standing は薄い受け皿で、ポーズの主役はトリガーワード。keichan はポーズ付き全身すべてに常駐するので、ポーズ信号を一番濃く吸う。standing のタグをいくら綺麗にしても、トリガー keichan 自身が「ポーズ付きの全身」を運んでしまう。
決定的だったのがかなちゃん(直立する別キャラLoRA)との素材比較だ。両キャラの全身画像の構成を数えると次のようになった。
| かなちゃん(立つ) | けいちゃん v3(ポーズ立ち) | |
|---|---|---|
全身(full body) | 14 | 52 |
└ うち standing | 11 | 13 |
└ walking | 0 | 17 |
| └ 他のポーズ付き | ~0 | ~10 |
かなちゃんは全身14枚のうち11枚が直立、歩き0。 対してけいちゃんは全身52枚に歩きが17枚。しかもその大半は元々「歩き/動きのキャラ立ち絵」で、standing タグすら付いていなかった。だから v3 の standing 掃除は氷山の一角しか触れていなかった。
「足を上げる/曲げる」の出どころは、この17枚の walking(mid-stride=片脚が前/上)+ leg up / curtsey / squat だった。全部トリガーに焼かれていた。standing タグの問題ではなく、トリガーが吸った全身ポーズの分布そのものが問題だった。
v4でポーズ付き全身を36枚引いた
処方は明快だ。ポーズ付き全身を切る。
- カット 36枚:
walking17 +squatting/leg up/curtsey/contrapposto/legs apart+ 未確認の全身 - 残す 43枚:バスト25(同一性の核)+ 直立背面1 + 検証済みクリーン直立の着衣全身7 + 直立ターンアラウンド10
79枚 → 43枚。設計思想は 「ポーズはベース(Anima)に任せ、LoRA は同一性だけ覚える」(v2の知見「ベースが出せるものは入れない」の徹底)。ベースは standing も walking も出せるのだから、トリガーにポーズを焼く必要はない。かなちゃんの絞ったプロファイルに寄せた格好だ。
結果は×ゼロ、standing で直立した
v4 を同条件で焼いて検証した。
| epoch | v3 | v4 |
|---|---|---|
| ep30 | ○2 △2 ×4 | ○4 △4 ×0 |
| ep60 | ○1 ×7 | ○6 △2 ×0 |
| ep90 | — | ○6 △2 ×0 |
| ep120 | — | ○6 △2 ×0 |
| ep150 | — | ○6 △2 ×0 |

v4 は全エポックで × ゼロ。 残る △2 は毎回 3/4 構図が cowboy shot で脚が見切れて判定不能なだけで、欠陥ではない。判定可能な構図(正面・側面・背面)は全て ○。Codex も ep60 時点で「standing で両脚をまっすぐ伸ばして自然に直立する LoRA になっている」と明言した。
v3 が ep60 で ×7 まで崩壊したのと完全に対照的だ。しかも v4 は最初から崩れる要素(ポーズ信号)が無いので、ep30→150 まで一度も崩れず、深く焼いても劣化しなかった。
同じ ep60・同じ構図セット(front/side/3-4/behind × 2 seed)で v3 と v4 を並べると一目瞭然だ。上段(v3)は脚が曲がる/歩き姿勢、下段(v4)はまっすぐ直立する。


同一性(色・顔・青リボン・インテーク)は v2 同様 ep30 で早期ロックし ep150 まで安定。インテークは中程度のまま(ベースが苦手な要素の天井、v2と同じ)。最良 ep は ep120〜150。

足すより引く
- キャラLoRAの崩れたポーズは、データを足すのではなく引いて直す。 直立サンプルを足すだけ(v3でターンアラウンド10枚追加)では、17枚の歩きに対して焼け石に水だった。
- 一般タグ(
standing)は受け皿、ポーズはトリガーが運ぶ。 タグ掃除では直らない。トリガーが吸う画像の分布を変える=ポーズ付き全身を物理的に減らすしかない。 - 「ベースが出せるものは入れない、同一性だけ焼く」。 ポーズはベースに任せ、LoRA はキャラの特徴点(顔・髪・小物)に集中させる。結果として素材は軽くなる(79→43)。「数を揃えすぎ」はむしろ害になる。
- 動的ポーズが欲しければ推論で指定すればベースが出す。学習にポーズ付きを入れてデフォルトを汚すのは損。
線引きしておくと、「引いて直る」のはベースがそのポーズを出せる場合に限る。今回は standing も直立もベースが普通に出せたから、トリガーに焼いた余計なポーズを引くだけで済んだ(repeats や強度で殴る手もあるが、引くのがいちばん手っ取り早かった)。逆にベースが出せないポーズ(あおり)や苦手な造形(インテーク)は、引くのではなく誇張して足すしかない。引くか足すかはベースの守備範囲で決まる。
v2 で立てた「データ設計の指針(v3案)」は、この v4 で実証された。次は、この絞ったけいちゃんに、同じく絞ったかなちゃんを混ぜて1つのLoRAに2キャラ焼けるか、を試している(別記事)。