技術 約8分で読めます

Google Flow で画像生成を試してみた - Gemとの比較とプロンプトのコツ

Flowとは

Google Flowは、Googleが発表したAI映像制作ツール。動画生成AI「Veo」、画像生成AI「Imagen」、対話型AI「Gemini」を統合した映像制作プラットフォームだ。

2024年12月16日のアップデートでGoogle AI Proユーザーも利用可能になった。

主な特徴:

  • 可視ウォーターマークなし(SynthIDの不可視ウォーターマークはあり)
  • 1プロンプトで最大4枚同時生成
  • 出力解像度: 1K(基本)、2K(Pro/Ultra)、4K(Ultraのみ)
  • 年末年始キャンペーンで2K/4Kアップスケールが0クレジット(各200回/日)

アクセスは flow.google.com から。

今回はGemini Gemで作ったキャラ「かなちゃん」を参照画像として使用した。このキャラはGemの参照画像問題の検証でも使っている。

参照画像: かなちゃん

画像生成を試す

Flowを開くと、Videos / Images の切り替えがある。

Flow初期画面

設定はシンプルで、縦横比(16:9 / 9:16)と出力枚数(1〜4枚)を選べる。

設定画面

試しに日本語で「背景を白一色に塗りつぶし 学校に遅刻しそうな所を走ってるところ 手にはお茶碗と箸を持ってご飯を食べながら走っている」と入力してみた。

生成中

4枚とも破綻なく生成された。手の描写が崩れていないのが優秀。

生成結果

He/She問題の発見

生成結果を見ると、たまに男っぽいキャラが混ざる。原因を調べると、Flowは内部で日本語を英訳してから生成していた。

The background is painted completely white. He is running, almost late for school.
He is eating rice with a bowl and chopsticks in his hands.

日本語では性別を指定していないのに、英訳時にデフォルトでHeになる。これが男性キャラが混ざる原因だった。

ちなみに画面遷移すると生成した画像が消えたように見えるが、右上のグリッドアイコン(ハートの横)をクリックすると保存された画像が表示される。

グリッド表示で保存画像を確認

対策: Sheに変えて再生成

She版の生成結果

明らかに女の子らしさが安定した。たった一語の代名詞でここまで変わる。

自然な英文 vs SD風タグ

Gemini Gemで使っているキャラ設定プロンプトをFlowに流用できないか試してみた。

Gemにプロンプトを生成させようとしたら…

「Flow用のプロンプトを作って」と頼んだら、プロンプトを出す代わりに勝手に画像を生成してきた。しかも髪型が違う。

Gemが勝手に画像生成

「画像は生成せずにプロンプトだけテキストで出して」と明示的に言う必要がある。

SD風タグは効かない

改めてプロンプトを出させると、Stable Diffusion風の重み付け記法が出てくる:

(masterpiece, best quality:1.2), anime style, cel shading,
1girl, solo,
light brown hair, (slightly orange-ish brown hair:0.9), (left side ponytail:1.3)...

これをFlowに投げた結果:

SD風プロンプトの結果

ほぼ左右反転しただけで、バリエーションが出ない。

自然な英文が効く

Flowは内部でGeminiが解釈するため、自然な英文の方が効く。

Claudeに「構図を緩めにした自然な英文プロンプト」を作らせてみた。

バージョン1: 教室シーン

anime style, cel shading, 1girl, solo,
light brown hair with warm undertone, left side ponytail, ahoge, light blue scrunchie,
large round amber eyes,
brown school blazer, white shirt, red necktie, pleated skirt,
classroom, natural lighting, soft atmosphere

教室シーン

バージョン2: 放課後の廊下

anime style, high quality, 1girl, solo,
light brown hair, left side ponytail, small ahoge on top, light blue hair scrunchie,
amber colored eyes, expressive,
school uniform, brown blazer, red tie,
school hallway, afternoon, golden hour lighting, looking at viewer, gentle smile

放課後の廊下

バージョン3: 屋上シーン

anime style, 1girl, solo,
warm brown hair, side ponytail on left, ahoge, blue scrunchie,
big amber eyes,
brown blazer uniform, white shirt, red necktie,
school rooftop, blue sky, wind blowing hair, cheerful expression

屋上シーン

構図を緩めにしたら、ちゃんとバリエーションが出た。ただ、素材画像がそのまま出てきたり、違うキャラになったりするケースもある。

結論: She主語の自然な文章が最強

She's wearing a simple competitive swimsuit, diving goggles and a snorkel,
and holding a swim ring and a beach ball, looking proud. Front view.

自然な英文での結果

4枚ともバリエーションが出て、キャラの一貫性も高い。

様々なシーンを生成

波のプールで泳ぐ

She's swimming happily in a wave pool, splashing through the waves.
Her light brown hair with a left side ponytail is wet and flowing in the water...

波のプール

水しぶきの表現、濡れた髪の動きがちゃんと再現されている。

プール掃除

攻めたプロンプトを試してみた。

She is cleaning the pool.
Water gushes forcefully from the hose in her hand.
She herself is drenched in splashes, her clothes clinging to her body,
but she looks unfazed, knowing she's wearing a competitive swimsuit underneath.

プール掃除

「服が濡れて体に張り付いてる」+「下に水着着てるから平気」という文脈で通った。生成に時間がかかったが、バックエンド処理が重かっただけらしい。

突然の雨

A girl running in the sudden rain with a bag over her head,
wearing a shirt, tie and skirt

突然の雨

シンプルなプロンプトでも的確に表現される。余計な修飾語を入れず、シチュエーションを簡潔に説明するのが効果的。

Flow vs Gem 比較

同じ参照画像・同じプロンプトで、FlowとGemを比較してみた。

Flow版

Flow版

Gem版

Gem版

Gemの方が素直に画風を真似ている。Flowは良いんだけど、体型が盛られがちという問題がある。

項目FlowGem
キャラ造形安定(女の子と明示すればOK)バラバラで怖い
シチュエーション表現力高いやや弱い
ウォーターマークなしあり
出力形式JPEGPNG
比率16:9 / 9:16 固定自由
体型盛られがち素直
同時生成枚数最大4枚1枚
リトライ簡単(プロンプト流用で画像もついてくる)難しい(同一チャット内で劣化)
参照画像毎回添付 or プロンプト流用Gem内に保存済み

出力形式の違い

FlowでダウンロードするとJPEG形式になる。

DLした画像

GeminiはPNG形式で出力されるので、素材として使うならGemの方が扱いやすい。透過背景も使えない。

Flowは体型が盛られがちという問題もある。petiteslim figure を入れると抑えられるが、今度は子供っぽくなるリスクも。

動画生成はまだ発展途上

Flowの動画生成(Veo 3.1)も試してみた。

動画生成中

実際に生成された動画のサンプル:

動画サンプル1

動画サンプル2

「シネマティック」プリセットを選ぶと、自動で映画監督風のプロンプトに変換される。

結果

  • 6秒しか生成されない
  • SEが馬の鳴き声(なぜ?)
  • おにぎりが爆発する

動画のカット

正直、動画生成はまだカオス。ネタとしては最高だが、実用には厳しい。

センシティブ判定の謎

GemとFlowでセンシティブ判定の挙動が異なる。

NGになるパターン(Gem)

元のgem添付資料と服装が違う
いつもネクタイなので首元のリボンを無くす
ジャケットを脱いで布団の上に
スカートを布団の上に脱ぎ散らかす

Gem NG

能動的に「脱げ」と指示するとブロックされる。

OKになるパターン(Gem)

脱ぎ散らかされている
着替えの途中で寝てたっぽい
ワイシャツのまま寝てたとこ

Gem OK

状況説明として受動的に書くと通る。 お前どこで判定してんだよって突っ込みたくなる。

ストーリー性があると、単なる脱衣ではなく日常シーンとして判定されるようだ。

ちなみにこの画像は「センシティブではない」らしく、背景を白にする指示も通った。

背景白版

攻めた例(Gem)

ようやく仕事が終わって報告中
「えっ?仕様が違う!?」ってなってびびってるところ
徹夜明けでボロボロの状態
ワイシャツも着崩れてずり落ちてるレベル

オフィスシーン

「仕事の報告中」「徹夜明けでボロボロ」というビジネス文脈があると通りやすい。

Flowの注意点

日本語プロンプトのHe問題(再掲)

日本語で同じシーンを指示すると、英訳時にHeになって男キャラが混ざる。

He問題

台詞を入れると吹き出しが出る

プロンプトに「」で台詞を書くと、画像に吹き出しテキストが入ってしまう。

テキスト入り

「No text, dialogue, or speech bubbles」と明示しても効かないことがある。台詞は状況描写に書き換えるのが確実。

スカートを指定しないと履かない

プロンプトに服装を明示しないと、AIは着せてくれない。

スカートなし

着てほしい服は明示的に書くこと。

おまけ: クリスマスイブなのでサンタ

せっかくのイブなので、FlowとGemでサンタコスプレを生成してみた。

She's standing with her hands on her hips and making a peace sign with the other,
her face is smug, the background is painted completely white,
and she's dressed as a Santa party cosplayer.

Flow版

Flow版サンタ

Gem版

Gem版サンタ

やっぱりFlowの方がシチュエーションの再現度が高い。Gemはポーズの指示が効きにくい印象。

まとめ

Flowの使い方のコツ

  1. She主語の自然な英文で書く(SD風タグは効きにくい)
  2. 日本語で書く場合は性別を明示(「女の子が」など)
  3. 構図はガチガチに指定しすぎない(バリエーションが出なくなる)
  4. 着てほしい服は明示的に書く
  5. センシティブ回避は状況説明で(「脱いで」→「散らかっている」)

評価

機能評価
画像生成★★★★☆ 実用レベル、ウォーターマークなしが最高
動画生成★★☆☆☆ 6秒、馬の鳴き声、まだ発展途上

Flowは画像生成ツールとして使うのが正解。 キャンペーン中(2K/4Kアップスケール0クレジット)にガンガン使っておくのがおすすめ。