画像生成AIは日本語プロンプトでいい?z-image-turboで検証

プロンプトはもう英語じゃなくていい ─ z-image-turboで崩れた常識 TECH

正直に言うと、ここまで“普通に通る”とは思っていなかった。

ComfyUIz-image-turboのテンプレートをそのまま使い、日本語でプロンプトを書いただけ。
特別なチューニングも、呪文のようなタグ列も使っていない。

それでも、構図は崩れず、役割も維持された。

Z Image Turbo – a Hugging Face Space by mrfakename
Enter a description of the picture you want, optionally choose the image size, inference steps, and a random seed. The a…

※ここで、お試し生成もできるから、ぜひ。

環境

環境:
ComfyUI(標準テンプレート)
text_encoder:qwen_3_4b
model:z_image_turbo_bf16
特別な設定なし

観察①:日本語が普通に通る

これまでの画像生成は、英語のタグを積み上げる“呪文”が前提だった。
しかしz-imageでは、日本語の文章がそのまま構造として解釈される。

z-image-turboを使い日本語プロンプト「楽しい幼稚園のピクニック。公園でみんなでランチを食べている。」で生成した
z-image-turboを使い日本語プロンプトで生成した
Prompt:

楽しい幼稚園のピクニック。
公園でみんなでランチを食べている。

もはや、英語力も習熟した作法による”呪文”の詠唱も必要ない。
普通の人が、普通に使えるレベルになった。

text_encoderに Qwen3-4B を使っているだけのことはある。


観察②:構図が崩れない

同じ構造を持つプロンプトで複数枚生成しても、シーンの骨格は維持される。
変化するのはディテールであり、構図そのものは大きく崩れない。

プロンプトは結果を固定しないが、シーンの分布を強く制約する

ミニチュア

ミニチュア。中央に発光する円筒型エネルギーコアを囲み、複数の作業者が操作・監視・調整・記録を行う近未来の制御シーン
同じ構造の指示で生成した比較例。スタイル(ミニチュア)は変わっても、中央コアを囲む配置や役割分担といったシーンの骨格は維持される。

アニメ

アニメ。中央に発光する円筒型エネルギーコアを囲み、複数の作業者が操作・監視・調整・記録を行う近未来の制御シーン
同じ構造の指示で生成した比較例。スタイル(アニメ)は変わっても、中央コアを囲む配置や役割分担といったシーンの骨格は維持される。

フォトリアル

フォトリアル。中央に発光する円筒型エネルギーコアを囲み、複数の作業者が操作・監視・調整・記録を行う近未来の制御シーン
同じ構造の指示で生成した比較例。スタイル(実写)は変わっても、中央コアを囲む配置や役割分担といったシーンの骨格は維持される。

使用した日本語プロンプトの一例:

フォトリアル、高精細、実写表現、映画的な質感、

近未来の研究施設の中にある大型エネルギー装置、
中央に透明な円筒型チャンバーがあり、
内部から強く発光するエネルギーの光柱が上方向へ伸びている、

その周囲には4人の作業者が配置されており、
1人は制御パネルを操作し、1人はモニターを監視し、
1人は装置のメンテナンス作業を行い、1人はタブレットでデータを記録している、

発光するケーブルや配線が装置に接続され、
エネルギーの流れが光として可視化されている、

作業者は現実的な作業服や安全装備(ヘルメット、手袋など)を着用し、
自然な体格とリアルな動作をしている、

カメラは正面からの視点、
中央のエネルギーコアを軸にした安定した構図、

ライティングは映画的で高コントラスト、
強い光源によるハイライトと深い影、
わずかなボリューメトリックライトと空気感、

50mmレンズ、浅い被写界深度、
わずかなレンズブラーと現実的な質感、

全体として緊張感のある現場で、
エネルギー制御が行われているリアルな雰囲気

これだけ長い日本語プロンプトへの追従性のよさには驚かされる。

プロンプトだけで“意味”を変えられるという価値

同じ構図、同じシーンのまま、わずかなプロンプトの変更だけで印象が大きく変わる。

上のフォトリアルと同一プロンプトに対して、今回行った変更はシンプルだ。

「発光するエネルギーの光柱」

「発光する紫色のエネルギーの光柱」

これだけで、画像全体の雰囲気は明確に変化した。

作業者の配置やカメラ構図といった“シーンの骨格”はそのままに、
色という要素を加えることで、意味だけをコントロールできている。

フォトリアル。中央に発光する円筒型エネルギーコアを囲み、複数の作業者が操作・監視・調整・記録を行う近未来の制御シーンの光の色を変化させた
同じ構図、同じシーンのまま、光の色に変化を与えてみた

従来の画像生成では、このような調整は容易ではなかった。

  • 構図が崩れる
  • 意図しない要素が混ざる
  • ControlNetや再生成が必要になる

といった問題があり、「一部だけを変える」ことは難しかった

しかし今回の結果を見ると、

  • 構図は維持される
  • 変更は色という単一要素に限定される
  • 他の要素は影響を受けにくい

という挙動が確認できる。

最後の微調整すら、日本語のプロンプトで詰めることができる。
この価値は大きい。


Batch生成で分かる、構図の安定性の違い

同一プロンプトで複数枚生成した場合、
z-imageはシーンの構造が大きく崩れない。
一方でFLUXは、同じテーマでも毎回異なる構図を生成する傾向がある。

Prompt:

hyper-realistic miniature scene inside a futuristic machine,

tiny workers operating within a complex system of glowing circuits and flowing energy,

massive structures surrounding them, resembling an industrial-scale environment rather than a tabletop,

workers interacting with dynamic elements such as flowing data streams, moving mechanical parts, or unstable energy flows,

the composition is immersive and layered, not centered on a single object,

the environment feels active and alive, with multiple points of interest,

cinematic lighting with strong highlights and deep shadows,

the atmosphere is intense and purposeful, as if maintaining a critical system

z-image-turbo

z-image-turboでBatch4で生成したシーン
z-image-turboでBatch4で生成したシーン

FLUX.1

Flux.1でBatch4で生成したシーン
Flux.1でBatch4で生成したシーン

同じプロンプトをFLUXで生成すると、
構図は維持されず、毎回異なるシーンが生成される。

z-imageが「同じシーンの別テイク」だとすれば、
FLUXは「同じテーマの別作品」に近い。

この特性、裏を返すと”ガチャ適性が低い”と換言することもできる。


結論

z-imageは“上手く描くAI”ではない。
“構造を守るAI”だ。

そしてその構造は、日本語で記述できる。

呪文を書く時代は、そろそろ終わりかもしれない。

英語プロンプトを書かなければいけない文化は、ついに終焉を迎えた


SD WebUI ForgeのDynamic Promptsで色・服・画風を組み合わせて量産する方法(Combinatorial 対応)
Stable Diffusion WebUI ForgeでDynamic Promptsを使い、色・服・画風を組み合わせて効率的に量産する方法を解説。Combinatorial generation設定やstyles_integrated.csvの仕組み、img2imgで画風を試す実例も紹介。
GPT Imagesは「Photoshop」を終わらせるのか─ プロンプト1発で“撮影”までやってくるAI
GPT Imagesを使って、人物と車のシチュエーションフォトを生成してみた。 プロンプト1発で構図・光・背景まで再現され、従来の合成やロケ撮影が不要になる可能性を検証する。
AIで広告写真は作れるのか【夜景編】 ─ 同一人物で“撮影再現”を検証(GPT Images / Grok / Banana)
同一人物の画像を使い、ロケなしで夜景広告写真は成立するのかを検証。GPT Images、Nano Banana、Grok Imagineを比較し、同一人物性・光の扱い・商用適性の違いを分析します。