MolmoWebとは何か ─ “画面を操作するAI”がもたらす静かな危険

TECH

2026.03.25

GitHubに、ひとつの地味なプロジェクトが公開された。
名前は「MolmoWeb」。

GitHub - allenai/molmoweb

Contribute to allenai/molmoweb development by creating an account on GitHub.

スター数はまだ少ない。
見た目も派手ではない。

だが、その中身は──
これまでのWebの前提を静かに崩すものだ。

■ MolmoWebとは何か
■ 何が新しいのか
■ どこが危険なのか
■ 「人間であること」の意味が薄れる
■ CAPTCHAの話は本質ではない
■ これから何が起きるのか
■ AI2という存在
■ 小さいが、無視できない理由
■ まとめ
■ 最後に

■ MolmoWebとは何か

MolmoWebは、Allen Institute for AI（AI2）が公開したAIエージェントだ。

特徴はシンプル。

画面を見て、理解して、そのまま操作する

例えば──

検索サイトで条件を入力する
ボタンをクリックする
フォームに情報を入力する

こういった「人間の操作」を、AIがそのまま実行する。

しかもAPIは不要。
HTML構造の解析も不要

“画面が見えていれば動ける”

■ 何が新しいのか

これまでの自動化は、どれも「構造」に依存していた。

APIを叩く
HTMLを解析する
座標を指定する

つまり、「どう動くか」を細かく決める必要があった。

しかしMolmoWebは違う。

意味を理解して動く

「このボタンを押して」
「ここに入力して」

それだけで、AIが操作を組み立てる。

■ どこが危険なのか

ここからが本題だ。

この技術、便利なのは間違いない。
だが同時に、かなり厄介な性質を持っている。

① UIがそのまま“侵入口”になる

これまで、自動化にはAPIが必要だった。

つまり──
“開発者が許可した範囲”しか触れなかった

しかしMolmoWebは違う。

画面に見えているものは、全部操作できる

古いシステム
APIのないサービス
内部ツール

全部対象になる。

② 検索とクリックが消える

従来の流れ：

検索する
サイトを開く
情報を見る

MolmoWebの世界：

AIに指示
AIが操作
結果だけ返す

人間はクリックしない

これはつまり──
広告モデルが成立しにくくなる

③ スクレイピングの進化版になる

HTML解析型のスクレイピングは壊れやすい。

しかしMolmoWebは：

画面を読む
意味で判断する
人間と同じ操作をする

壊れにくい

これは、情報収集の世界を大きく変える。

■ 「人間であること」の意味が薄れる

ここが一番重要かもしれない。

これまでのWebは、こう考えて作られていた。

人間は正しく操作する
Botは不正をする

しかし今は逆だ。

人間 → ミスする
AI → 正確に操作する

区別がつかない

■ CAPTCHAの話は本質ではない

「Vision AIがCAPTCHAを突破する」という話はよく出る。

だが、それは本質ではない。

CAPTCHAはただの認証手段だ。

本当の問題は──

“人間かどうか”で信頼を判断していた設計

これが崩れている。

■ これから何が起きるのか

おそらく、世界はこう変わる。

「誰が操作したか」ではなく
「何をしたか」で評価される

つまり：

行動ベースの信頼モデル

■ AI2という存在

ここで一つ、見逃してはいけない点がある。

MolmoWebを出したのは
Allen Institute for AI

営利企業ではなく、研究機関だ。

そしてこのプロジェクトは──
Apache 2.0で公開されている

つまり、

誰でも使える
改造できる
再配布できる

止められない

■ 小さいが、無視できない理由

GitHubのスター数はまだ少ない。

だが、それは問題ではない。

重要なのはこれだ。

「技術が成立している」こと

そして、

「誰でも使える状態で公開された」こと

■ まとめ

MolmoWebは、派手な技術ではない。

だが、

UIをそのまま操作する
APIを必要としない
人間と同じ行動ができる

この3つが揃ったことで、

Webの前提そのものが揺らぎ始めている

■ 最後に

これはまだ、小さな波かもしれない。

だが方向は明確だ。

「人間が操作する前提のWeb」は終わりに近づいている