AIで広告写真は作れるのか【カフェ編】 ─ 同一人物で“撮影再現”を検証（GPT Images / Grok / Banana）

AIは、写真を“生成”しているのか。
それとも、撮影そのものを“再現”しているのか。

このシリーズでは、ひとつの条件だけを固定する。

同一人物の画像を起点に、ロケなしで広告写真が成立するか

今回はその第一弾として、カフェシーン（自然光）を検証する。

検証条件

条件はすべて固定する。

同一人物画像を使用
顔・骨格・肌質の維持を前提
ロケなし（すべてAI生成）
同一プロンプトで複数モデルを比較

評価は以下の4点で行う。

同一人物性
シーンの成立
光と材質の整合性
商用適性

この中で最も重視するのは「同一人物性」である。

使用プロンプト

今回使用したプロンプトは以下。

A natural lifestyle café advertisement photo in Japan.

Use the input person exactly as-is. Preserve facial identity, bone structure, skin texture, and ethnicity. Do not alter age or facial features.

Scene:
A quiet Japanese café during daytime.
Minimal, clean interior with natural materials.
Wooden table, ceramic coffee cup placed naturally in front of the subject.
No clutter, no modern artificial decorations.

Composition:
Bust-up (upper body) shot.
The subject is seated at the table, casually resting one hand near the coffee cup.
Captured slightly from above eye level, as in a real commercial lifestyle shoot.
Framing is natural and not overly centered.
Background softly blurred with realistic depth of field.

Lighting:
Soft natural daylight coming from a window on the side.
Subtle shadows, realistic contrast.
No overexposure, no artificial glow, no HDR effect.

Expression:
Relaxed, natural expression.
Slight smile or calm neutral face.
Not posing — captured as if in a real moment.

Details:
Hair flows naturally with fine strands visible.
Hands are anatomically correct with natural positioning.
No distortion, no extra fingers.

Camera & Lens:
Shot on a full-frame camera.
Use a realistic focal length chosen naturally for this scene.
Aperture should create a believable depth of field consistent with the lens choice.

Color & Tone:
Natural color grading with a slightly warm tone.
Skin tones must be realistic and consistent.

Style:
Photorealistic, indistinguishable from a real advertisement photo.
No illustration, no stylization, no fantasy elements.

Important:
The image must feel like a real photograph taken in a Japanese café.
No AI artifacts.

生成結果

Original

GPT Images 1.5

Nano Banana 2

Grok Imagine 1.5

総括

今回のカフェ検証では、単純な優劣ではなく、
各モデルが「何を優先するか」の違いが明確に現れた。

同一条件にもかかわらず、

再現を守るもの
文脈を作るもの
人物を最適化するもの

それぞれの判断が、出力にそのまま表れている。

本検証では「同一人物性」を最優先とする。
この前提に立ったとき、評価は明確に分かれる。

GPT Images

同一人物性

最も高い。
骨格・肌質・メイクの追従が極めて安定している。
顔の傾きやニュアンスも、入力画像の延長として成立している。

シーンの成立

必要最低限に留めている。
“Japanese café”の解釈は控えめで、過剰な演出はない。

光と材質

コントラストが低く、落ち着いたトーン。
環境光をそのまま扱ったような自然な光。
RAW現像直後に近い質感。

商用適性

高い。
色を乗せすぎず、演出を加えすぎないため、後工程での調整余地が大きい。

評価

最も「素材として扱える」出力。

解釈を抑え、再現を優先することで、
撮影データに近い振る舞いを見せている。

その反面、画としての華やかさや演出は控えめ。
しかしこれは弱点ではなく、設計思想の表れと言える。

Nano Banana

同一人物性

高い。
細部に若干の調整は見られるが、同一人物として認識可能。

シーンの成立

最も強い。
盆栽、暖簾、和風陶器など、日本的要素を積極的に構築している。

光と材質

演出が強い。
光の回し方、トーンともに“完成された広告”に寄せている。

商用適性

用途による。
完成度は高いが、すでに演出が乗っているため、素材としての自由度は低い。

評価

最も「広告として完成している」出力。

単なる再現ではなく、
シチュエーションに対して積極的に意味付けを行っている。

ただしその分、色・光・空気感に脚色が入り、
入力画像の再現性よりも“見せ方”を優先している。

Grok Imagine

同一人物性

低い。
骨格・肌質・髪色ともに変化し、別人として認識される。

シーンの成立

弱い。
背景要素は最小限で、シチュエーションの情報量が不足している。

光と材質

強い補正が入っている。
肌のトーン、メイク、表情が“理想化”されている。

商用適性

低い（本検証条件において）。
同一人物として扱えない時点で、素材としての前提を満たさない。

評価

人物を“最適化”した出力。

入力画像の再現ではなく、
より良く見える方向への再構成が優先されている。

その結果、ポートレートとしては成立するが、
本検証の条件からは外れる。

結論

今回の結果は、性能差ではない。

何を守るかの違いである。

GPT Imagesは再現を守る
Nano Bananaは文脈を作る
Grok Imagineは人物を最適化する

同じプロンプトでも、
その優先順位の違いが、出力を決定している。

本検証の前提である「同一人物性」を基準とするならば、
最も条件に忠実なのはGPT Imagesである。

一方で、広告としての完成度という観点では、
Nano Bananaが最も強い結果を示した。

補足：速度

生成速度については明確な差がある。

Grok Imagineが最も高速で、
他2モデルに対して優位性を持つ。

ただし本検証では、
速度は評価対象には含めていない。