GoogleがGemini 3.1を出した。
いつものように「ベンチがどうだ」「推論が何倍だ」という話もあるけれど、正直、今回はそこじゃないところで腰を抜かした。

きっかけは、SVGだった。
アニメーション付きのSVGを吐かせてみたら、コード量は2KBにも満たない。それなのに、破綻のない構図、意味の通ったキャスティング、そして不自然さのないアニメーションが、すっと出てくる。
「軽い」「小さい」「でも、ちゃんと伝わる」。このバランスが異様にいい。
内容そのものは、正直に言えば「世界を変える大発明」というほどではない。
でも、表現の作り方が明らかに一段階変わっている。
これは「絵を描いている」のではなく、「構造をコードに落としている」感じがする。
ピクセルを並べてそれっぽく見せるのではなく、
「これはこういう構造で、こういう関係で、こう動く」という理解を、そのままベクターとアニメーションに変換している。
だからコードが少ない。
少ないのに、意味が崩れない。
これ、資料作りの世界では地味に革命的だと思う。
これまでは、図を作るなら画像を貼るか、せいぜいPowerPointの図形をいじるか、だった。
でもGemini 3.1のSVG生成は、「その場の文脈に合わせて、動く図解をコードで出す」という方向に一気に寄ってきた感じがある。
解像度は無限。
ファイルは軽い。
色も速度も後からコードで調整できる。
しかも、構造が壊れない。
「画像を探す」「画像を生成する」という発想から、
「意味のある構造物を、その場で組み立てる」という発想に、静かにスイッチが入った感触がある。
一部の人がやっている「ピカチュウやドラえもんをSVGで描かせるテスト」が象徴的だけど、
あれは単なるお絵かきじゃない。
これまでのAIは、だいたいこの手の課題で「不気味の谷」に落ちていた。
一見それっぽい。でも、どこか決定的にズレていて、人間の目が「違う」と即座に察知してしまう、あの感じだ。
不思議なのは、Gemini 3.1の出力は、その谷をほとんど感じさせないことだ。
輪郭、比率、配置、記号としてのバランス。そのどれもが「人間の共通認識」にちゃんと寄ってくる。
これは「絵が上手くなった」という話じゃない。
「現実世界の記号を、どこまで構造として理解しているか」
「それを、どこまで正確に座標と曲線に翻訳できるか」
この二つが、ようやく同時に成立しはじめた、という話に近い。
だから、ピクセルを並べた“それっぽい絵”ではなく、
コードとして定義されたベクターの形で出てきても、不気味にならない。
むしろ「正しい場所に、正しい線がある」感じがする。
面白いのは、これがいわゆる“Proモデル専用の重たい芸当”という雰囲気じゃないことだ。
普段のレスポンスは軽快で、ほぼFlash的なノリなのに、
コードや構造物を投げると、急にギアが入って、ちゃんと考えた出力を返してくる。
人格は変わらない。
でも、裏で思考のトルクだけが切り替わる。
この「同じ相棒のまま、出力の密度だけ変わる」感じは、これまでのモデル切り替え型とは、だいぶ体験が違う。
Gemini 3.1の面白さは、たぶんここにある。
推論が何倍とか、ベンチがどうとか以前に、
「意味を構造に変換する精度」が、静かに一段上がっている。
そして、その結果が、
2KBのSVGで「ちゃんと伝わる動く図」が出てくる、という形で見えてしまった。
派手なデモじゃない。
でも、「不気味の谷」を越えてきたのがコードと構造の側だった、という事実は、かなり示唆的だ。
画像生成AIの時代から、
「コードで図を組み立てるAI」の時代へ。
たぶんこれ、あとから振り返ると、
「資料作りの作法が変わった瞬間」の一つとして、地味に記憶されるやつだ。


