Grok Image 1.0のvideo生成、UIが賢い(言語指定は忘れるな)

Grok Image 1.0のvideo生成、UIが賢い(言語指定は忘れるな) TECH
Grok Image 1.0で生成したvideoのキャプチャ画面

Grok Image 1.0が出たので、さっそく触ってみた。
結論から言うと、技術的な中身以前に UI体験がよくできている

いわゆる「text to video」は、どうしても
プロンプトを書く → 待つ → 想像と違う → もう一回
という作業感がつきまとう。

GrokのImagineは、その入口の作り方が少し違う。

同一プロンプトに対して、まず複数のスチル候補を提示してくる。
この時点で「どの方向性で行くか」を人間側が選べる。
雰囲気を見てから決められる、というのは地味だがかなり親切だ。

そして、気に入ったスチルの再生ボタンを押すと、
そのまま動画生成が始まる。

Grok Imagine 1.0 で text to video を試しているところ
Grok Imagine 1.0 で text to video を試しているところ

この「選んだ静止画が、そのまま動き出す」感覚がいい。
別物が出てくるのではなく、
さっき見ていた世界が時間を持ち始める感じがある。

ver.0.9の頃から、このUI思想自体は一貫していた記憶がある。
だが video生成まで含めた一連の流れとしては、
「生成AIを操作している」というより
「素材を選んで編集している」感覚に近づいた印象だ。

生成された動画は、デフォルト設定でこんな感じのフォーマットだった。

Grok Imagine 1.0 で text to video をデフォルト設定で書き出したファイルフォーマット
Grok Imagine 1.0 で text to video をデフォルト設定で書き出したファイルフォーマット

ひとつだけ注意点(というか罠)

text to videoを試して、思わず笑ってしまった。

Grok Imagine 1.0 で text to video で生成した動画のキャプチャ
Grok Imagine 1.0 で text to video で生成した動画のキャプチャ

プロンプトに「日本語で」と書かなかったせいで、
生成された動画の中のキャラクターたちが、
元気よく英語で喋り出した。

Clap up a small cup!

One, two, three, yay!

You’re doing great!

This is fun!

なるほど、そう来たか、という感じだ。
挙動としては正しい。
こちらが指定していないだけで、Grokは普通に英語圏を選ぶ。

つまり、video生成では言語指定を忘れると普通に英語になる
これは今後ハマる人が多そうなポイントなので、念のため。


公開直後でも、ちゃんと動いた

公開直後のサービスは、
・生成待ちで詰まる
・キューが進まない
・途中で失敗する
というのがありがちだが、今回は拍子抜けするほど普通に動いた。

スチル生成から動画生成まで、
少なくとも体験した範囲では「どんづまり」感はない。
このあたりは、xAI側のインフラ設計の堅さを感じる部分でもある。


まとめ

Grok Image 1.0のvideo生成は、
「すごい動画が作れる」以前に、
触る気にさせるUIが一段うまい

同一プロンプトで候補を出し、
人間が選び、
その世界がそのまま動き出す。

生成AIにありがちな「一発勝負感」を減らし、
編集寄りの感覚に寄せてきたのは、素直に評価したい。

あとは繰り返しになるが、
言語指定は忘れないこと
忘れると、みんな元気に英語を喋り出す。

それも含めて、今はまだ触って楽しいフェーズだ。
ぜひ、みなさんにも楽しんで欲しい。


※ 本記事に掲載している画像・動画は、筆者がGrok Image 1.0を用いて生成したものです。
サービスURL:
https://grok.com/imagine