AIはもう、文章だけを読んでいるわけではない。
音声と映像を統合し、「時間」を理解し始めた。
Qwen3.5 Omniは、その転換点だ。
2026年03月30日にAlibabaが発表した Qwen3.5 Omni は、音声と動画を“同時に理解する”。
それは機能追加ではない。
AIが「時間」という次元を扱い始めたという意味だ。
静止していたAIは、ついに“流れ”を理解する
これまでのAIは、すべて“止まった世界”の中で動いていた。
テキストは一瞬の切り取り。
画像は静止画。
音声も断片的な信号に過ぎない。
だからAIは賢く見えても、どこかズレる。
文脈を外し、意図を読み違え、「それっぽいが違う」答えを返してきた。
しかし、動画と音声が統合された瞬間、その前提は崩れる。
前の状態があり、変化があり、結果がある。
そこには「流れ」があり、「因果」があり、「意図」が存在する。
AIはついに、“状況”を理解し始めた。
これは「検索の進化」ではない
この変化を、検索の延長線で捉えると見誤る。
テキストAIは、検索の代替だった。
知識を引き出し、整理し、言語化する存在。
だが今回の進化は違う。
AIが「現実のインターフェース」に触れ始めた。
画面を見て、音声を聞き、何が起きているかを理解する。
それはもはや「知る」ではなく、「認識する」だ。
この瞬間、AIの主戦場は変わった。
検索から、認識へ。
「考えるAI」から「行動するAI」へ
ここから先は、一直線だ。
画面を理解できる。
音声を理解できる。
時間の流れを理解できる。
ならば次は何か。
操作する。
実際、MolmoWeb のように、画面を“見て”操作するAIはすでに登場している。
ここにQwenのような「時間理解」が乗るとどうなるか。
操作は単発ではなくなる。
一連の流れとして最適化される。
人間がやっていることと同じだ。
状況を見て、判断し、次の行動を選ぶ。
AIはついに、そこに踏み込んだ。
中国のAIが狙っているもの
面白いのは、この流れが非常に“中国的”だという点だ。
ロボットは、まだ荒い。
補助金頼みのプロジェクトも多い。
だが“脳”は違う。
モデルの進化速度は速く、実験量も桁違い。
規制の壁も低い。
つまり戦略はシンプルだ。
先に「頭」を完成させる。
身体は後からいくらでも付け替えられる。
ロボットでもいい。
ドローンでもいい。
PC操作でもいい。
すべては“端末”に過ぎない。
OSSから距離を取り始めた意味
もうひとつ見逃せないのが、OSSとの距離感だ。
これまでのQwenは、比較的オープンだった。
だが最近の流れは明らかに変わってきている。
コアは閉じる。
周辺だけを開く。
これはつまり、
「誰でも触れるAI」と「選ばれた者だけが使えるAI」への分断
を意味する。
そして、その分断は性能差として現れる。
これは何の始まりか
これは便利機能の話ではない。
音声が理解できる。
動画が理解できる。
そんなレベルの話ではない。
AIが「時間」を扱い始めた。
それは、人間が持っていた“状況理解”の領域に踏み込んだということだ。
そしてその先にあるのは、
AIが「見る・聞く・判断する」を代替する世界だ。
結び
AIは、まだ道具だと思っているかもしれない。
だがそれは、過去の話だ。
いま起きているのは、
道具が「現実を理解し始めた」という変化だ。
この流れに気づかないままでは、遅れる。
いや──
気づいたときには、もう追いつけないかもしれない。


