正直に言うと、ここまで“普通に通る”とは思っていなかった。
ComfyUIでz-image-turboのテンプレートをそのまま使い、日本語でプロンプトを書いただけ。
特別なチューニングも、呪文のようなタグ列も使っていない。
それでも、構図は崩れず、役割も維持された。

※ここで、お試し生成もできるから、ぜひ。
環境
環境:
ComfyUI(標準テンプレート)
text_encoder:qwen_3_4b
model:z_image_turbo_bf16
特別な設定なし
観察①:日本語が普通に通る
これまでの画像生成は、英語のタグを積み上げる“呪文”が前提だった。
しかしz-imageでは、日本語の文章がそのまま構造として解釈される。

Prompt:
楽しい幼稚園のピクニック。
公園でみんなでランチを食べている。
もはや、英語力も習熟した作法による”呪文”の詠唱も必要ない。
普通の人が、普通に使えるレベルになった。
text_encoderに Qwen3-4B を使っているだけのことはある。
観察②:構図が崩れない
同じ構造を持つプロンプトで複数枚生成しても、シーンの骨格は維持される。
変化するのはディテールであり、構図そのものは大きく崩れない。
プロンプトは結果を固定しないが、シーンの分布を強く制約する。
ミニチュア

アニメ

フォトリアル

使用した日本語プロンプトの一例:
フォトリアル、高精細、実写表現、映画的な質感、
近未来の研究施設の中にある大型エネルギー装置、
中央に透明な円筒型チャンバーがあり、
内部から強く発光するエネルギーの光柱が上方向へ伸びている、
その周囲には4人の作業者が配置されており、
1人は制御パネルを操作し、1人はモニターを監視し、
1人は装置のメンテナンス作業を行い、1人はタブレットでデータを記録している、
発光するケーブルや配線が装置に接続され、
エネルギーの流れが光として可視化されている、
作業者は現実的な作業服や安全装備(ヘルメット、手袋など)を着用し、
自然な体格とリアルな動作をしている、
カメラは正面からの視点、
中央のエネルギーコアを軸にした安定した構図、
ライティングは映画的で高コントラスト、
強い光源によるハイライトと深い影、
わずかなボリューメトリックライトと空気感、
50mmレンズ、浅い被写界深度、
わずかなレンズブラーと現実的な質感、
全体として緊張感のある現場で、
エネルギー制御が行われているリアルな雰囲気
これだけ長い日本語プロンプトへの追従性のよさには驚かされる。
プロンプトだけで“意味”を変えられるという価値
同じ構図、同じシーンのまま、わずかなプロンプトの変更だけで印象が大きく変わる。
上のフォトリアルと同一プロンプトに対して、今回行った変更はシンプルだ。
「発光するエネルギーの光柱」
↓
「発光する紫色のエネルギーの光柱」
これだけで、画像全体の雰囲気は明確に変化した。
作業者の配置やカメラ構図といった“シーンの骨格”はそのままに、
色という要素を加えることで、意味だけをコントロールできている。

従来の画像生成では、このような調整は容易ではなかった。
- 構図が崩れる
- 意図しない要素が混ざる
- ControlNetや再生成が必要になる
といった問題があり、「一部だけを変える」ことは難しかった。
しかし今回の結果を見ると、
- 構図は維持される
- 変更は色という単一要素に限定される
- 他の要素は影響を受けにくい
という挙動が確認できる。
最後の微調整すら、日本語のプロンプトで詰めることができる。
この価値は大きい。
Batch生成で分かる、構図の安定性の違い
同一プロンプトで複数枚生成した場合、
z-imageはシーンの構造が大きく崩れない。
一方でFLUXは、同じテーマでも毎回異なる構図を生成する傾向がある。
Prompt:
hyper-realistic miniature scene inside a futuristic machine,
tiny workers operating within a complex system of glowing circuits and flowing energy,
massive structures surrounding them, resembling an industrial-scale environment rather than a tabletop,
workers interacting with dynamic elements such as flowing data streams, moving mechanical parts, or unstable energy flows,
the composition is immersive and layered, not centered on a single object,
the environment feels active and alive, with multiple points of interest,
cinematic lighting with strong highlights and deep shadows,
the atmosphere is intense and purposeful, as if maintaining a critical system
z-image-turbo

FLUX.1

同じプロンプトをFLUXで生成すると、
構図は維持されず、毎回異なるシーンが生成される。
z-imageが「同じシーンの別テイク」だとすれば、
FLUXは「同じテーマの別作品」に近い。
この特性、裏を返すと”ガチャ適性が低い”と換言することもできる。
結論
z-imageは“上手く描くAI”ではない。
“構造を守るAI”だ。
そしてその構造は、日本語で記述できる。
呪文を書く時代は、そろそろ終わりかもしれない。
英語プロンプトを書かなければいけない文化は、ついに終焉を迎えた




