Google Flow で画像生成を試してみた - Gemとの比較とプロンプトのコツ
Flowとは
Google Flowは、Googleが発表したAI映像制作ツール。動画生成AI「Veo」、画像生成AI「Imagen」、対話型AI「Gemini」を統合した映像制作プラットフォームだ。
2024年12月16日のアップデートでGoogle AI Proユーザーも利用可能になった。
主な特徴:
- 可視ウォーターマークなし(SynthIDの不可視ウォーターマークはあり)
- 1プロンプトで最大4枚同時生成
- 出力解像度: 1K(基本)、2K(Pro/Ultra)、4K(Ultraのみ)
- 年末年始キャンペーンで2K/4Kアップスケールが0クレジット(各200回/日)
アクセスは flow.google.com から。
今回はGemini Gemで作ったキャラ「かなちゃん」を参照画像として使用した。このキャラはGemの参照画像問題の検証でも使っている。

画像生成を試す
Flowを開くと、Videos / Images の切り替えがある。

設定はシンプルで、縦横比(16:9 / 9:16)と出力枚数(1〜4枚)を選べる。

試しに日本語で「背景を白一色に塗りつぶし 学校に遅刻しそうな所を走ってるところ 手にはお茶碗と箸を持ってご飯を食べながら走っている」と入力してみた。

4枚とも破綻なく生成された。手の描写が崩れていないのが優秀。

He/She問題の発見
生成結果を見ると、たまに男っぽいキャラが混ざる。原因を調べると、Flowは内部で日本語を英訳してから生成していた。
The background is painted completely white. He is running, almost late for school.
He is eating rice with a bowl and chopsticks in his hands.
日本語では性別を指定していないのに、英訳時にデフォルトでHeになる。これが男性キャラが混ざる原因だった。
ちなみに画面遷移すると生成した画像が消えたように見えるが、右上のグリッドアイコン(ハートの横)をクリックすると保存された画像が表示される。

対策: Sheに変えて再生成

明らかに女の子らしさが安定した。たった一語の代名詞でここまで変わる。
自然な英文 vs SD風タグ
Gemini Gemで使っているキャラ設定プロンプトをFlowに流用できないか試してみた。
Gemにプロンプトを生成させようとしたら…
「Flow用のプロンプトを作って」と頼んだら、プロンプトを出す代わりに勝手に画像を生成してきた。しかも髪型が違う。

「画像は生成せずにプロンプトだけテキストで出して」と明示的に言う必要がある。
SD風タグは効かない
改めてプロンプトを出させると、Stable Diffusion風の重み付け記法が出てくる:
(masterpiece, best quality:1.2), anime style, cel shading,
1girl, solo,
light brown hair, (slightly orange-ish brown hair:0.9), (left side ponytail:1.3)...
これをFlowに投げた結果:

ほぼ左右反転しただけで、バリエーションが出ない。
自然な英文が効く
Flowは内部でGeminiが解釈するため、自然な英文の方が効く。
Claudeに「構図を緩めにした自然な英文プロンプト」を作らせてみた。
バージョン1: 教室シーン
anime style, cel shading, 1girl, solo,
light brown hair with warm undertone, left side ponytail, ahoge, light blue scrunchie,
large round amber eyes,
brown school blazer, white shirt, red necktie, pleated skirt,
classroom, natural lighting, soft atmosphere

バージョン2: 放課後の廊下
anime style, high quality, 1girl, solo,
light brown hair, left side ponytail, small ahoge on top, light blue hair scrunchie,
amber colored eyes, expressive,
school uniform, brown blazer, red tie,
school hallway, afternoon, golden hour lighting, looking at viewer, gentle smile

バージョン3: 屋上シーン
anime style, 1girl, solo,
warm brown hair, side ponytail on left, ahoge, blue scrunchie,
big amber eyes,
brown blazer uniform, white shirt, red necktie,
school rooftop, blue sky, wind blowing hair, cheerful expression

構図を緩めにしたら、ちゃんとバリエーションが出た。ただ、素材画像がそのまま出てきたり、違うキャラになったりするケースもある。
結論: She主語の自然な文章が最強
She's wearing a simple competitive swimsuit, diving goggles and a snorkel,
and holding a swim ring and a beach ball, looking proud. Front view.

4枚ともバリエーションが出て、キャラの一貫性も高い。
様々なシーンを生成
波のプールで泳ぐ
She's swimming happily in a wave pool, splashing through the waves.
Her light brown hair with a left side ponytail is wet and flowing in the water...

水しぶきの表現、濡れた髪の動きがちゃんと再現されている。
プール掃除
攻めたプロンプトを試してみた。
She is cleaning the pool.
Water gushes forcefully from the hose in her hand.
She herself is drenched in splashes, her clothes clinging to her body,
but she looks unfazed, knowing she's wearing a competitive swimsuit underneath.

「服が濡れて体に張り付いてる」+「下に水着着てるから平気」という文脈で通った。生成に時間がかかったが、バックエンド処理が重かっただけらしい。
突然の雨
A girl running in the sudden rain with a bag over her head,
wearing a shirt, tie and skirt

シンプルなプロンプトでも的確に表現される。余計な修飾語を入れず、シチュエーションを簡潔に説明するのが効果的。
Flow vs Gem 比較
同じ参照画像・同じプロンプトで、FlowとGemを比較してみた。
Flow版

Gem版

Gemの方が素直に画風を真似ている。Flowは良いんだけど、体型が盛られがちという問題がある。
| 項目 | Flow | Gem |
|---|---|---|
| キャラ造形 | 安定(女の子と明示すればOK) | バラバラで怖い |
| シチュエーション | 表現力高い | やや弱い |
| ウォーターマーク | なし | あり |
| 出力形式 | JPEG | PNG |
| 比率 | 16:9 / 9:16 固定 | 自由 |
| 体型 | 盛られがち | 素直 |
| 同時生成枚数 | 最大4枚 | 1枚 |
| リトライ | 簡単(プロンプト流用で画像もついてくる) | 難しい(同一チャット内で劣化) |
| 参照画像 | 毎回添付 or プロンプト流用 | Gem内に保存済み |
出力形式の違い
FlowでダウンロードするとJPEG形式になる。

GeminiはPNG形式で出力されるので、素材として使うならGemの方が扱いやすい。透過背景も使えない。
Flowは体型が盛られがちという問題もある。petite や slim figure を入れると抑えられるが、今度は子供っぽくなるリスクも。
動画生成はまだ発展途上
Flowの動画生成(Veo 3.1)も試してみた。

実際に生成された動画のサンプル:


「シネマティック」プリセットを選ぶと、自動で映画監督風のプロンプトに変換される。
結果
- 6秒しか生成されない
- SEが馬の鳴き声(なぜ?)
- おにぎりが爆発する

正直、動画生成はまだカオス。ネタとしては最高だが、実用には厳しい。
センシティブ判定の謎
GemとFlowでセンシティブ判定の挙動が異なる。
NGになるパターン(Gem)
元のgem添付資料と服装が違う
いつもネクタイなので首元のリボンを無くす
ジャケットを脱いで布団の上に
スカートを布団の上に脱ぎ散らかす

能動的に「脱げ」と指示するとブロックされる。
OKになるパターン(Gem)
脱ぎ散らかされている
着替えの途中で寝てたっぽい
ワイシャツのまま寝てたとこ

状況説明として受動的に書くと通る。 お前どこで判定してんだよって突っ込みたくなる。
ストーリー性があると、単なる脱衣ではなく日常シーンとして判定されるようだ。
ちなみにこの画像は「センシティブではない」らしく、背景を白にする指示も通った。

攻めた例(Gem)
ようやく仕事が終わって報告中
「えっ?仕様が違う!?」ってなってびびってるところ
徹夜明けでボロボロの状態
ワイシャツも着崩れてずり落ちてるレベル

「仕事の報告中」「徹夜明けでボロボロ」というビジネス文脈があると通りやすい。
Flowの注意点
日本語プロンプトのHe問題(再掲)
日本語で同じシーンを指示すると、英訳時にHeになって男キャラが混ざる。

台詞を入れると吹き出しが出る
プロンプトに「」で台詞を書くと、画像に吹き出しテキストが入ってしまう。

「No text, dialogue, or speech bubbles」と明示しても効かないことがある。台詞は状況描写に書き換えるのが確実。
スカートを指定しないと履かない
プロンプトに服装を明示しないと、AIは着せてくれない。

着てほしい服は明示的に書くこと。
おまけ: クリスマスイブなのでサンタ
せっかくのイブなので、FlowとGemでサンタコスプレを生成してみた。
She's standing with her hands on her hips and making a peace sign with the other,
her face is smug, the background is painted completely white,
and she's dressed as a Santa party cosplayer.
Flow版

Gem版

やっぱりFlowの方がシチュエーションの再現度が高い。Gemはポーズの指示が効きにくい印象。
まとめ
Flowの使い方のコツ
- She主語の自然な英文で書く(SD風タグは効きにくい)
- 日本語で書く場合は性別を明示(「女の子が」など)
- 構図はガチガチに指定しすぎない(バリエーションが出なくなる)
- 着てほしい服は明示的に書く
- センシティブ回避は状況説明で(「脱いで」→「散らかっている」)
評価
| 機能 | 評価 |
|---|---|
| 画像生成 | ★★★★☆ 実用レベル、ウォーターマークなしが最高 |
| 動画生成 | ★★☆☆☆ 6秒、馬の鳴き声、まだ発展途上 |
Flowは画像生成ツールとして使うのが正解。 キャンペーン中(2K/4Kアップスケール0クレジット)にガンガン使っておくのがおすすめ。