FLUXはなぜ美人が出にくいのか──Vogueと資生堂で分かれたAIの美意識

FLUX.1を使い始めたとき、最初に感じたのは高揚ではなく違和感だった。美人が出ない。少なくとも、Stable Diffusionで見慣れてきた“分かりやすい美人”が、同じ調子では出てこない。

かつての私は、Fooocusを愛用していた。GTX1060でも動き、HyperSDで速度も出る。難しいことを考えなくても、気軽に、楽しく絵が出る。それで十分だった。FLUX.1が話題になった頃は、正直、指をくわえて眺めているだけだった。スペックの壁のこともあるが、ComfyUIの複雑怪奇なWorkflowが壁になり、「自分の場所じゃない」と感じていたからだ。

black-forest-labs/FLUX.1-dev · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

RTX3060に替え、stable-diffusion-webui-forgeでFLUXを回せるようになって、ようやく同じ土俵に立った。そこで出てきたのは、性能差の話ではない。ベンチマークでも速度でもない、もっと厄介で、しかし面白い問題だった。

FLUXは、顔を描いていない。シーンを読んでいる。空間、光、文脈、そして文化。そこから「この場にいるべき人」を導き出している。だから結果は、時に刺さらず、時に妙に納得がいく。美人が出ないのではない。美が、振る舞いとして出てくるのだ。

本稿は、FLUX.1のレビューでも、ComfyUI講座でもない。むしろその逆だ。複雑なWorkflowに圧倒されて足を止めた人へ、Forgeというお気楽ルートがあること。そしてFLUXは、使い方次第で“文化を解釈するAI”として見えてくること。その気づきを、画像と一緒に記していく。

Stable Diffusionが描いてきた“日本人の美人”

Stable Diffusionが描いてきた“日本人の美人”

Stable Diffusion的な日本の美人像 — Stable Diffusion の美人像は、華やかだがどこかステレオタイプ

Stable Diffusionで生成される日本人女性には、どこか共通した「顔つき」がある。目は大きく、輪郭は整い、肌は均一で、表情は分かりやすく明るい。広告やストックフォトで何度も見てきた、あの“美人像”だ。
それは決して悪いものではない。むしろ即効性があり、「きれい」「かわいい」と一目で伝わる。生成結果としても安定している。

ただ、使い続けていると、ある種の既視感が積み重なっていく。
プロンプトを変えても、シーンを変えても、最後に出てくる顔の方向性は似通っている。日本人女性を指定すれば、そこには「日本人の美人はこうでしょう？」という、強く記号化された答えが返ってくる。

これはモデルの欠点というより、長いあいだ“正解”として強化されてきた結果だ。
広告、ポスター、Web素材、アプリのサムネイル。分かりやすく、嫌われにくく、誰もが納得する美人像が、学習の中で何度も繰り返されてきた。その集合体としてのStable Diffusionは、「日本人の美人」を描くのがとても上手い。

だからSDは迷わない。
シーンが何であれ、とりあえず“それっぽい美人”を置く。
背景より人物が前に出て、顔は主役として完結する。

一方で、その安定感は裏を返せば、文化的な揺らぎや文脈の差異をあまり気にしない、ということでもある。
Vogueであろうが、スパの一室であろうが、「美人」という答えはほぼ同じ方向を向く。

FLUXを触り始めて、最初に戸惑ったのは、まさにこの点だった。
同じ「日本人女性」「high-end editorial portrait」という言葉を投げても、SDで出てきたような顔が返ってこない。
それは精度が低いからでも、モデルが未熟だからでもなかった。

FLUXは、別の問いを立てていた。
「このシーンに立っている人は、どんな顔をしているはずか？」
その問いの立て方が、Stable Diffusionとは根本的に違っていた。

FLUXは「顔」を描いていなかった

FLUXで最初に生成された画像を見たとき、私は「外した」と感じた。
美人ではない。少なくとも、これまでStable Diffusionで見慣れてきた“正解の顔”ではなかった。

しかし、見直すうちに違和感の質が変わっていく。
顔そのものは破綻していない。造形も整っている。肌も自然だ。
それでも「刺さらない」。この感覚は、単なる好みの問題ではなかった。

FLUXは、顔を主役にしていない。
人物を「置く」のではなく、「そこに居させている」。

背景、光、空気感、距離感。
それらを先に解釈したうえで、「この場に立つなら、こういう人だろう」という答えを返してくる。
結果として出てくる顔は、単体で見れば地味に見えることすらある。

ここで、Stable Diffusionとの決定的な差が見えてくる。
SDはまず“顔”を描き、背景を合わせる。
FLUXはまず“場”を描き、人を馴染ませる。

その違いは、プロンプトが抽象的であればあるほど顕著になる。
「high-end editorial portrait」「luxurious」「cinematic」といった言葉は、SDにとっては“美人補正”のスイッチだが、FLUXにとっては“文脈解釈”の起点になる。

だからFLUXは迷う。
このシーンは、主張すべきか。控えるべきか。
視線は前に出るべきか、溶け込むべきか。

そして、その迷いは文化に依存する。
ここで初めて、生成結果の差が「性能」ではなく「解釈」の問題であることに気づく。

FLUXは、美人を描こうとしていない。
この場にふさわしい在り方を描こうとしている。

その姿勢が、次の違和感——いや、発見——へとつながっていく。

Vogueと資生堂のあいだで

同じプロンプトでも、生成される人物の印象が大きく変わる瞬間があった。
欧米的なシーンでは、顔が前に出る。視線は強く、輪郭ははっきりし、「私はここにいる」と語りかけてくる。
一方、日本的なシーンでは、顔は主張しない。光と空気の中に溶け込み、「ここに在ること」が自然に感じられる。

この差を見たとき、腑に落ちた言葉がある。

欧米の美は、「私はここにいる」。
日本の美は、「ここに在ることが美しい」。

これは優劣の話ではない。
美の定義そのものが違う。

Vogue的な美意識は、個を際立たせる。
モデルは主役であり、存在感は価値だ。
骨格の強さ、視線の圧、非対称ささえも「個性」として肯定される。

一方、資生堂的な美意識は、調和を重んじる。
人物は場と対立せず、空間の一部として成立する。
美しさは主張ではなく、気配として立ち上がる。

FLUXは、この違いを無視しない。
同じ「high-end editorial portrait」という言葉を投げても、文化的な前提を読み替える。
欧米文脈では強さを、日本文脈では静けさを選ぶ。

だから、日本人女性を指定したとき、FLUXはあえて抑える。
目立たせない。尖らせない。
結果として、「美人が出ない」と感じることがある。

だが実際には、FLUXは正しい顔を出している。
その文化の中で、もっとも自然に成立する顔を。

ここでようやく分かる。
FLUXは、美を生成しているのではない。
美がどう振る舞うべきかを生成している。

この理解に至ったとき、最初の違和感は、確かな発見へと変わった。

なぜFLUXは「美人を外す」のか

FLUXで生成した人物を見て、「これはポリコレなのか？」と思ったことは一度や二度ではない。
整っているのに尖らない。破綻はないのに、記号的な美人からは距離がある。その中途半端さが、そう感じさせる。

だが、使い込むほどに分かってくる。
これは倫理的配慮の結果ではない。ましてや思想的な制限でもない。
文化解釈が、あまりにも真面目に効いているだけだ。

FLUXは、日本という文脈において、「前に出ない美」を正解として扱う。
主張を抑え、均し、空間との摩擦を減らす。
その結果、顔は平均化され、「感じはいいが刺さらない」地点に落ち着きやすい。

ここで重要なのは、FLUXが「美人」という概念を直接目標にしていない点だ。
FLUXにとって重要なのは、
この人が、この場にいて、違和感がないかどうか。

日本的なシーンでは、違和感のなさは最大の価値になる。
強すぎる視線は浮く。
完璧すぎる造形は、かえって場を壊す。

その判断は、意識的というより反射的だ。
FLUXは、美を評価しているのではない。
美が環境の中でどう振る舞うかを予測している。

だから、Stable Diffusionで「当たり」と感じた顔が、FLUXでは出てこないことがある。
それは失敗ではない。
FLUXが、より大きな文脈を優先した結果だ。

この挙動を理解せずに使うと、FLUXは扱いづらい。
だが理解した瞬間から、評価軸が変わる。
「美人が出たか」ではなく、「この場に合っているか」。

FLUXは、ユーザーの好みよりも、文化の整合性を優先する。
その頑固さこそが、評価を分ける理由でもある。

次に見えてくるのは、
そのFLUXを、どこで、どう触るかという問題だ。

Forgeという現実解

FLUXの話になると、必ず前提として語られるものがある。
ComfyUIだ。

ノードが並び、線が交差し、Workflowが複雑に折り重なる。
理屈は分かる。柔軟で、強力で、再現性も高い。
だが同時に、多くの人を入り口で立ち止まらせてきたのも事実だ。

私自身、FLUX.1にはしばらく手が出なかった。
性能以前に、「これは腰を据えて取り組む人の道具だ」と感じてしまったからだ。
Fooocusで気軽に絵を出してきた身としては、あのUIは明らかに別世界だった。

転機は、stable-diffusion-webui-forgeだった。
見た目は、見慣れたSD WebUIに近い。
操作も概念も、これまでの延長線上にある。
そこにFLUXを載せられると知ったとき、ようやく“触れる現実”になった。

GitHub - lllyasviel/stable-diffusion-webui-forge

Contribute to lllyasviel/stable-diffusion-webui-forge development by creating an account on GitHub.

ここで重要なのは、Forgeが高機能だという話ではない。
むしろ逆だ。
凝ったことをしなくても、FLUXの本質は見える、という点に意味がある。

文化を読む。
場を解釈する。
人物を空間に馴染ませる。

そうしたFLUXの挙動は、複雑なWorkflowを組まなくても、素の生成結果から十分に立ち上がってくる。
むしろ、余計な制御を加えないほうが、その性格は分かりやすい。

ComfyUIは、FLUXを「設計する」ための道具だ。
Forgeは、FLUXを「観察する」ための道具だと言っていい。

複雑怪奇なUIに圧倒されて足を止めている人にとって、
Forgeは遠回りではない。
理解への近道になりうる。

FLUXは、難しいUIを通らなければ見えないAIではない。
文化を読むという振る舞いは、意外なほど素朴な入口からでも、確かに立ち上がってくる。

そう気づいたとき、
FLUXはようやく「使えるAI」ではなく、
「向き合えるAI」になった。

性能では見えなかったもの

GTX1060を使っていた頃、生成AIに求めていたのは速度と気軽さだった。
Fooocusはその期待に応えてくれた。重いことを考えず、設定に悩まず、それなりの絵がすぐ出る。
HyperSDという軽いステップで、待ち時間が短くなるだけで満足していた。

FLUX.1が出た当時、それは明らかに別の世界の話だった。
高性能GPUが前提で、UIも取っつきにくい。
触れないものは、評価のしようがない。だから横目で見ているだけだった。

RTX3060に替え、ForgeでFLUXを回せるようになって、ようやく同じ地平に立った。
そこで見えたのは、性能の差ではなかった。
描写力や解像感の話でもない。

見えてきたのは、生成AIが何を“正解”としているかという問題だった。

Stable Diffusionは、分かりやすい答えを出す。
FLUXは、場にとって自然な答えを出す。
どちらが優れているかではなく、前提にしている問いが違う。

FLUXは、プロンプトを命令として受け取らない。
状況説明として読み取り、そこから文化的に破綻しない振る舞いを選ぶ。
だから結果は時に地味で、時に外して見える。

だが、その挙動を理解した瞬間、評価軸はひっくり返る。
美人かどうかではない。
そこに居て、違和感がないか。

性能だけを見ていた頃には、この違いは見えなかった。
触れる環境が整い、腰を据えて眺めて初めて、FLUXの性格が立ち上がってくる。

生成AIは、もはや単に絵を描く道具ではない。
人間が無意識に共有してきた「美の前提」や「場の読み」を、静かに再現し始めている。

FLUXは、美人を描かない。
文化を描いている。

そして、その文化は、
意外なほど素朴なUIの先からでも、確かに見えてくる。

番外｜妖怪は、なぜそこに現れるのか

ここまで述べてきた文化解釈の話とは、少し毛色が違う。
だが、実際に使っていると無視できない現象がある。

Stable Diffusionを長く触ってきた人なら、誰もが通ってきた道だろう。
指が増える。施術台に身体がめり込む。
手がもう一本生え、足首が消えてなくなる。
とりわけエステやマッサージのような、人の身体が密接に接触するシーンでは顕著だった。

正直に言えば、成功率は高くなかった。
体感で二割と言いたくなるが、実際には一割前後が現実だろう。
残りは、どこかしらで致命的に崩れる。

FLUXに替えてまず感じたのは、この「即ボツ級の破綻」が明らかに減ったことだ。
指が増えない。手が生えない。身体が消えない。
生成結果として成立するラインまで、ぐっと押し上げられている。

その一方で、残る違和感もある。
首の角度が不自然に見えたり、肩と頭のつながりに引っかかりを覚えたりする。

重要なのは、この手の難しいシチュエーションにおける成功率そのものが、大きく改善しているという点だ。
エステやマッサージという鬼門で、ようやく「数を打てば拾える」段階に入った。
体感成功率は50％。これは画期的。

FLUXは、一貫している。
骨格より文脈。
構造より振る舞い。

妖怪は、単なる失敗ではない。
モデルが何を優先し、何を後回しにしたかが、可視化された痕跡だ。

だからこの話は、本編とは切り離した。
文化を解釈するAIという理解があってこそ、
妖怪の正体も、ようやく笑って眺められる。