MolmoWebとは何か ─ “画面を操作するAI”がもたらす静かな危険

MolmoWebとは何か ─ “画面を操作するAI”がもたらす静かな危険 TECH

GitHubに、ひとつの地味なプロジェクトが公開された。
名前は「MolmoWeb」。

GitHub - allenai/molmoweb
Contribute to allenai/molmoweb development by creating an account on GitHub.

スター数はまだ少ない。
見た目も派手ではない。

だが、その中身は──
これまでのWebの前提を静かに崩すものだ。

■ MolmoWebとは何か

MolmoWebは、Allen Institute for AI(AI2)が公開したAIエージェントだ。

特徴はシンプル。

画面を見て、理解して、そのまま操作する

例えば──

  • 検索サイトで条件を入力する
  • ボタンをクリックする
  • フォームに情報を入力する

こういった「人間の操作」を、AIがそのまま実行する。

しかもAPIは不要。
HTML構造の解析も不要

“画面が見えていれば動ける”


■ 何が新しいのか

これまでの自動化は、どれも「構造」に依存していた。

  • APIを叩く
  • HTMLを解析する
  • 座標を指定する

つまり、「どう動くか」を細かく決める必要があった。

しかしMolmoWebは違う。

意味を理解して動く

「このボタンを押して」
「ここに入力して」

それだけで、AIが操作を組み立てる。


■ どこが危険なのか

ここからが本題だ。

この技術、便利なのは間違いない。
だが同時に、かなり厄介な性質を持っている。


① UIがそのまま“侵入口”になる

これまで、自動化にはAPIが必要だった。

つまり──
“開発者が許可した範囲”しか触れなかった

しかしMolmoWebは違う。

画面に見えているものは、全部操作できる

  • 古いシステム
  • APIのないサービス
  • 内部ツール

全部対象になる。


② 検索とクリックが消える

従来の流れ:

  1. 検索する
  2. サイトを開く
  3. 情報を見る

MolmoWebの世界:

  1. AIに指示
  2. AIが操作
  3. 結果だけ返す

人間はクリックしない

これはつまり──
広告モデルが成立しにくくなる


③ スクレイピングの進化版になる

HTML解析型のスクレイピングは壊れやすい。

しかしMolmoWebは:

  • 画面を読む
  • 意味で判断する
  • 人間と同じ操作をする

壊れにくい

これは、情報収集の世界を大きく変える


■ 「人間であること」の意味が薄れる

ここが一番重要かもしれない。

これまでのWebは、こう考えて作られていた。

人間は正しく操作する
Botは不正をする

しかし今は逆だ。

  • 人間 → ミスする
  • AI → 正確に操作する

区別がつかない


■ CAPTCHAの話は本質ではない

「Vision AIがCAPTCHAを突破する」という話はよく出る。

だが、それは本質ではない。

CAPTCHAはただの認証手段だ。

本当の問題は──

“人間かどうか”で信頼を判断していた設計

これが崩れている。


■ これから何が起きるのか

おそらく、世界はこう変わる。

  • 「誰が操作したか」ではなく
  • 「何をしたか」で評価される

つまり:

行動ベースの信頼モデル


■ AI2という存在

ここで一つ、見逃してはいけない点がある。

MolmoWebを出したのは
Allen Institute for AI

営利企業ではなく、研究機関だ。

そしてこのプロジェクトは──
Apache 2.0で公開されている

つまり、

  • 誰でも使える
  • 改造できる
  • 再配布できる

止められない


■ 小さいが、無視できない理由

GitHubのスター数はまだ少ない。

だが、それは問題ではない。

重要なのはこれだ。

「技術が成立している」こと

そして、

「誰でも使える状態で公開された」こと


■ まとめ

MolmoWebは、派手な技術ではない。

だが、

  • UIをそのまま操作する
  • APIを必要としない
  • 人間と同じ行動ができる

この3つが揃ったことで、

Webの前提そのものが揺らぎ始めている


■ 最後に

これはまだ、小さな波かもしれない。

だが方向は明確だ。

「人間が操作する前提のWeb」は終わりに近づいている