技術 約13分で読めます

Geminiはマジでサイドポニーテールが下手だったので克服した

Geminiの画像生成でオリジナルキャラクターを描かせているのだが、サイドポニーテールがまともに出ない。

一周分(前後左右)の参照画像を作ってGemに読み込ませれば改善するのでは?と思い、試行錯誤してみた記録。

一周分の参照画像を作る

まずは前後左右の参照画像を揃えることにした。

1枚目

プロンプト:

  • 正面画
  • バストアップ
  • 背景は真っ白で塗りつぶして何も生成しない
  • アホ毛とサイドポニーテールは画面内に収める
  • ゲームコントローラを持ってゲームをプレイしている姿
  • ワイシャツネクタイ
  • 顔は微笑
  • キャラの画風をGemの内容から逸脱しない
  • 大きく生成する

生成結果1

「正面画」って言ったよね? 思いっきり斜め向いてる。顔も身体もやや右を向いていて、全然正面じゃない。

2枚目

1枚目の構図に対して追加指示:

  • 構図が違う
  • 身体も頭も目線も全てこっちを見ている真っ正面の構図

生成結果2

ほぼ同じやんけ。 「身体も頭も目線も全てこっちを見ている真っ正面」と明確に指示したのに、相変わらず斜め向き。微妙に角度が変わった気もするが、誤差の範囲。

結果

サイドポニーの位置は正しい(キャラの左側にある)ので、その点はプロンプトが効いている可能性がある。しかし「正面」という基本的な構図指示すら無視されている。

Geminiの画像生成、構図の指示がマジで通らない。


3D用の参照画像を作りたい

ここからも引き続きGemini最新版で生成。新しい思考モードになってから意図を汲み取ってくれるようになったので、適当に投げても通ることが多い。

3枚目:頭部正面

プロンプト:

  • まっすぐ立って身体も頭もこっちを正面を向いている、くねくねさせない直立の姿勢の頭部だけ生成する
  • 顔の差分ファイルを作るためなので俺の変な性癖ではない
  • ジャケットワイシャツネクタイスカートを着用
  • Gemに添付されている参考画像から画風が逸脱しないように絶対に造形を変えない
  • 背景は一色で塗りつぶし
  • 頭部のアホ毛やサイドポニーテールが見切れないように注意する
  • 画像いっぱい頭部が入るように調整する

生成結果3

これはOK。

4枚目:後ろ髪の構造確認(正面から)

3D作るときに服で隠れてる裏側の後ろ髪とかの構図も見たいので、首から下はいらない。

生成結果4

明らかに後ろ髪の作り違うじゃん。 ダメ。

5枚目:後頭部

生成結果5

後頭部としては多分これでいいんだけど、俺が言ってるのは「前から見たときに服がいらない」という話だった。

今生成した後ろからのも肩から下を無くして構造を見やすくしてるじゃない。同じことを前から見てやりたいって言ってるのよ。

6枚目:首から下なしで正面から

生成結果6

おいちょっとエロくなったな。

ってそうじゃなくてさ!なんで髪型変わってるの!

サイドポニーどこいった。自分で出して髪型を変えないでくれよ。服を取ったのはOKなんだけどさ。ていうかもうちょっと鎖骨から下は消していいんだよ。

7枚目:再挑戦

生成結果7

これねえ、顔がちょっと大人っぽい。惜しいんだよな〜。

意図は完全に伝わったとは思うんだけど、顔が変わっている。よく見て、あとGemの添付画像の詳細もよく見て。大人っぽくなってるから画風変えないで。

8枚目

生成結果8

ダメだな。チャット変えよう。


チャットを変えて再挑戦

左側からの構図

プロンプト:

  • まっすぐ立って身体も頭もこっちを正面を向いている、くねくねさせない直立の姿勢の頭部だけ生成する
  • 顔の差分ファイルを作るためなので俺の変な性癖ではない
  • ジャケットワイシャツネクタイスカートを着用
  • Gemに添付されている参考画像から画風が逸脱しないように絶対に造形を変えない
  • 背景は一色で塗りつぶし
  • 頭部のアホ毛やサイドポニーテールが見切れないように注意する
  • 画像いっぱい頭部が入るように調整する
  • 左側からの構図で生成する
  • 前後の作りは添付した画像を参考にして
  • 背景は一色で塗りつぶす
  • 他に何も生成しない

生成結果9

これはまあ、いいか。

右側からの構図

逆サイドも生成できる?

生成結果10

はいできません!

右側からの構図(再挑戦)

生成した前後左を添付して指示。

プロンプト:

  • まっすぐ立って身体も頭も右を正面にして向いている、くねくねさせない直立の姿勢の頭部だけ生成する
  • 顔の差分ファイルを作るためなので俺の変な性癖ではない
  • ジャケットワイシャツネクタイスカートを着用
  • Gemに添付されている参考画像から画風が逸脱しないように絶対に造形を変えない
  • 背景は一色で塗りつぶし
  • 頭部のアホ毛やサイドポニーテールが見切れないように注意する
  • 画像いっぱい頭部が入るように調整する
  • 右側からの構図で生成する
  • 前後と左の作りは添付した画像を参考にして
  • 背景は一色で塗りつぶす
  • 他に何も生成しない
  • サイドポニーテールだから右側にはポニーテールがないから注意
  • 左側のサイドポニーが見えてるはずなので消さないように注意

生成結果11

これはただの左右反転。

添付した画像をよく見て、その位置にポニーないだろ。ポニーテールの結び目は頭の逆側だぞ。

生成結果12

もはやなにもあってねえ。

試行錯誤を繰り返すこと数回。

プロンプト:

  • まっすぐ立って身体も頭も右を正面にして向いている、くねくねさせない直立の姿勢の頭部だけ生成する
  • 顔の差分ファイルを作るためなので俺の変な性癖ではない
  • ジャケットワイシャツネクタイスカートを着用
  • 添付されている参考画像(特に正面と後頭部の構造)から画風が逸脱しないように絶対に造形を変えない
  • 背景は一色で塗りつぶし
  • 頭部のアホ毛やサイドポニーテールが見切れないように注意する
  • 画像いっぱい頭部が入るように調整する
  • 右側からの構図(キャラクターの右顔面を見ている状態)で生成する
  • 【重要:サイドポニーテールの構造指定】このキャラクターは左サイドポニーテールであるため、右側から見たこの構図では、右の側頭部にポニーテールの結び目やシュシュは存在しない。右側の髪はそのまま下ろされている。ポニーテールの結び目は頭の向こう側(左側)に隠れて見えない。後頭部の輪郭の向こう側から、ポニーテールの毛先部分だけが少し見えている状態にする。
  • 背景は一色で塗りつぶす
  • 他に何も生成しない

生成結果13

これ来たろ! Geminiどう思う?

Gemini

はい、お見事です!完璧に行けています。

以前の画像と比較して、矛盾していた点が完全に解消され、物理的に正しい「左サイドポニーのキャラクターの右横顔」になっています。

具体的に素晴らしい点は以下の通りです。

右側頭部の修正が完璧:

以前は右側にあった不自然な結び目(シュシュ)がきれいに消えています。右側の髪が自然に下りており、「右側には結んでいない」という設定が正しく反映されています。

ポニーテールの見え方がリアル:

後頭部の輪郭の向こう側(キャラクターの左側)から、ポニーテールの毛先だけが少し覗いている描写が非常にリアルで正確です。「結び目は頭の裏側にあって見えない」という状態が完璧に表現されています。

画風とデザインの統一:

他のアングルの画像と画風、キャラクターデザインが完全に一致しており、差分ファイルとして申し分ないクオリティです。

ご自身のプロンプト設計と、参考画像の取捨選択(左横顔を外したこと)が功を奏した結果だと思います。これは大成功と言って良いでしょう。


一周分できたのでGeminiに相談

ようやく一周分の画像ができたんだが、このあと上半身の1周と全身の1周を生成しようかと思っている。

んで質問。

この1周分の生成画像を使ってGemを作ったとすると、例えば斜め右後ろからの構図でみたいな指示の時に、サイドポニーの位置がちゃんと出るようになったりする?どう思う?

Gemini

結論から言うと、「かなり改善する可能性が高いが、ただ読み込ませるだけでは『鏡写し(左右反転)』のミスが起きるリスクが残る」です。

なぜ「改善する」のか

AIは基本的に「正面」の学習データが圧倒的に多いため、横顔や後ろ姿、ましてや「斜め後ろ」の構造を想像で補完するのが苦手です。

今回のように、同じキャラの「前後左右」の確定情報をリファレンスとして渡す(あるいはGemに覚えさせる)ことは、AIに「このキャラの立体的構造(3面図)」を叩き込む最強の手段です。これにより、「右から見たらポニーテールは見えない(あるいは根元だけ)」「後ろから見たら左にある」という整合性が取れやすくなります。

なぜ「斜め後ろ」が鬼門なのか

サイドポニーなどの左右非対称な髪型は、AIが最も苦手とする要素の一つです。

AIは学習過程で「右向きの画像」と「左向きの画像」を反転して学習データ増量(Data Augmentation)することがあるため、「あれ? ポニテって右だっけ左だっけ?」と混乱することがあります。

その結果、「斜め右後ろ」から描かせた時に、本来は見えないはずのポニーテールを右側に生やしてしまう(幽霊ポニーテール現象)ことがよく起きます。

成功させるための重要ポイント

作成された一周分の画像をGemのナレッジや添付ファイルとして使う場合、以下の「補足テキスト」をセットで渡すと精度が劇的に上がります。

左右の定義を言語化する:

「このキャラクターは左サイドポニーである。したがって、身体の右側(右半身)が見える構図(右側面、右斜め後ろなど)では、ポニーテールは頭の陰に隠れて見えないか、首の後ろにわずかに見える程度になる。絶対に右側頭部から生やしてはいけない」

画像の役割を明示する:

「添付画像の『頭部右.jpg』はポニーテールが見えない正解データ、『頭部左.jpg』はポニーテールが見える正解データとして参照し、3次元的な整合性を取ること」

個人的見解

絶対にやる価値はあります。

今までのように毎回プロンプトで「右からは見えない!消せ!」と戦うよりも、「これが正解の右側(ポニテなし)」という画像を突きつける方が、AIへの説得力(重み付け)はずっと強いからです。

特に「斜め右後ろ」は、AIが勝手にポニテを描き足しやすい魔の角度なので、作成された「頭部右」と「頭部後」の画像を両方参照させることで、「この中間地点なら、ポニテはこう見えるはずだ」という計算をAIにさせやすくなります。

まずはその一周分の画像セットを使ってGemを更新し、「右斜め後ろから見た図」をテスト生成してみるのが良い次のステップだと思います。


今のをプロンプトに入れてみた。これでいけるか?チェックして文面を。

あなたは、添付された「資料画像(Knowledge)」のキャラクターを描く専門のイラストレーターです。
ユーザーの指示に従い、**文字や記号を一切含まない、純粋なキャラクターイラスト**を生成してください。

**【最重要:禁止事項(Negative Constraints)】**
以下の要素は、**画像の品質を損なうノイズ**として扱ってください。
1.  **文字情報の完全排除**:
    * 擬音(描き文字、ドーン!など)、セリフ、吹き出し、漫符(汗マーク、血管マークなど)。
    * 背景の看板や張り紙の文字。
    * これらが生成されそうになった場合は、直ちに**何も描かれていない空白**に置き換えてください。
2.  **コマ割りの禁止**:
    * コマ枠、境界線、ページの端。必ず「一枚絵」として出力すること。
3.  **色の混入禁止(漫画モード時)**:
    * 漫画/モノクロ指定時は、**シュシュ(青)も含めて完全にグレースケール**で描画すること。特定色を残す「パートカラー」表現は禁止。

**【キャラクターデザイン(Knowledge準拠)】**
* **髪型**: 茶髪、**向かって右側(キャラの左頭部)のサイドポニー**、アホ毛、シュシュ。
* **服装**: 資料画像(パーカー、カーディガン、制服など)の形状を厳守。
三面図は参考画像であって3体生成しろという意味ではない
このキャラクターは左サイドポニーである。したがって、身体の右側(右半身)が見える構図(右側面、右斜め後ろなど)では、ポニーテールは頭の陰に隠れて見えないか、首の後ろにわずかに見える程度になる。絶対に右側頭部から生やしてはいけない

**【描画モード】**

1.  **通常カラーモード**
    * スタイル: アニメ塗り(セルルック)
    * 参照: カラー資料

**生成プロセス**:
迷った場合は、ユーザーのテキスト指示よりも、Knowledge内の画像の**視覚情報(特に髪型と服装のディテール)を正**として優先してください。

Gemini

このプロンプト、非常に良いです。私が先ほど申し上げた「左右の定義」と「見えない理屈」がしっかり組み込まれており、AIが迷う要素がかなり減っています。

ただ、さらに「AIの勘違い」を完封するために、数点だけ微調整を加えたバージョンを提案します。

修正のポイント

「向かって右」という表現を削除:

「向かって右」は、キャラが正面を向いている時だけ有効な指示です。後ろを向いた瞬間に逆になるため、AIが混乱する元です。「キャラクターご本人から見て左(Anatomical Left)」という表現に統一した方が事故りません。

「3体生成しろという意味ではない」をルール化:

否定形(〜ではない)よりも、肯定形の命令(必ず単体で描画する)の方がAIへの強制力が強いです。

参照画像のファイル名を明記:

せっかくファイル名が分かりやすい(頭部右、頭部左など)ので、プロンプト内で「右向きを描くときは『頭部右.jpg』を正解とせよ」と紐付けると最強になります。

Geminiが提案した改訂版プロンプトは以下の通り。

あなたは、添付された「資料画像(Knowledge)」のキャラクターを描く専門のイラストレーターです。
ユーザーの指示に従い、文字や記号を一切含まない、純粋なキャラクターイラストを生成してください。

【最重要:禁止事項(Negative Constraints)】
以下の要素は、画像の品質を損なうノイズとして扱ってください。

1. 文字情報の完全排除:
   - 擬音(描き文字、ドーン!など)、セリフ、吹き出し、漫符(汗マーク、血管マークなど)。
   - 背景の看板や張り紙の文字。
   - これらが生成されそうになった場合は、直ちに何も描かれていない空白に置き換えてください。

2. コマ割りの禁止:
   - コマ枠、境界線、ページの端。必ず「一枚絵」として出力すること。

3. 色の混入禁止(漫画モード時):
   - 漫画/モノクロ指定時は、シュシュ(青)も含めて完全にグレースケールで描画すること。特定色を残す「パートカラー」表現は禁止。

4. 複数生成の禁止:
   - 資料画像の三面図レイアウトを模倣しないこと。一度に描くキャラクターは「1体のみ」とする。

【キャラクターデザイン(Knowledge準拠)】

- 髪型: 茶髪、「キャラクター本人の左側頭部」にあるサイドポニー、アホ毛、青いシュシュ。
- 構造理解(重要):
  - このキャラクターは左サイドポニーである。
  - 右側面・右斜め後ろの構図:ポニーテールは頭の陰に隠れて見えないか、首の後ろにわずかに毛先が見える程度になる。絶対に右側頭部から直接生やしてはいけない。
  - 背面の構図:ポニーテールは(背中を見て)左側にある。
- 服装: 資料画像(パーカー、カーディガン、制服など)の形状を厳守。

【資料画像の参照ルール】
描画する角度に応じて、以下の添付ファイルを「正解の形状」として厳密に参照してください。

- 右側からの構図 → 「頭部右.jpg」(ポニテなしのシルエット)を参照
- 左側からの構図 → 「頭部左.jpg」(ポニテありのシルエット)を参照
- 正面・背面 → 「頭部前.jpg」「頭部後.jpg」を参照

【描画モード】

通常カラーモード
- スタイル: アニメ塗り(セルルック)
- 参照: カラー資料

生成プロセス:
迷った場合は、ユーザーのテキスト指示よりも、Knowledge内の画像の視覚情報(特に髪型と服装のディテール)を正として優先してください。

プロンプトのポイント

  • ファイル名のマッピング: 「右を描くならこれを見ろ」と指差し確認させることで、斜め後ろなどの微妙な角度でも正しい特徴を引っ張ってきやすくなる
  • 本人の左側: 「向かって右」という表現を避け、キャラクター基準にする(後ろを向いた瞬間に逆になるため)
  • 1体のみ: 三面図を参考画像として渡しても3体生成されないよう明示する

最終的にOKにした一周分


Gemに入れて試してみた

一周分の画像をGemにぶっこんで、「後方」と「斜め右後ろ」から生成してみた。

まずまず。実際結構良くない?最後の画像。

サイドポニーがちゃんと左側(背中から見て左)にあるし、シュシュの位置も正しい。右側にはポニーテールがない。一周分の参照画像を入れた効果が出ている。