AI検索エンジンの台頭は止まりません。
Googleは検索にAI要約を組み込み、OpenAIのChatGPTもウェブを読み、Perplexityは人間の質問に答えるためネットをかき集めています。
そんな中、2025年6月、Cloudflareが「Perplexityはrobots.txtを無視してステルススクレイピングしている」と糾弾しました。
しかし正直、私はこう思います。
公開した情報は回るに決まっている。嫌なら最初から出すな。
この世のSNSや大手Webサービスの利用規約には、たいてい「投稿内容を分析・学習に使う」という文言がしれっと入っています。
Cloudflareのように「コンテンツ制作者の権利!」と声高に叫ぶのは結構ですが、その裏で著作権を盾に自分の商売の利権を守ろうとする姿勢も見え隠れします。
では、最近話題の LLMS.txt はどうでしょうか?
これはAIクローラー向けに「学習OK/NG」を示す新しい設定ファイルですが、robots.txt同様、従うかどうかは相手次第。
むしろ、コンテンツの拡散を狙うなら“あえて置かない”ほうが有利かもしれません。
LLMS.txtとは何か?
AI検索や生成AIが一般化するなかで、最近耳にする機会が増えたのが 「LLMS.txt」 です。
名前からも分かる通り、ウェブのルートディレクトリに置くテキストファイルで、AIクローラー(大規模言語モデル=LLMの学習用ボット)に向けて、
「このサイトの情報を学習に使っていいか」「どのパスを許可/禁止するか」を伝える役割を持ちます。
仕組みはrobots.txtと同じ
基本的な書き方は、古くからある robots.txt とほぼ同じです。
例えば、以下はOpenAIとGoogle-Extended(GoogleのAI学習クローラー)に対して全ページの学習を禁止する設定です。
User-Agent: OpenAI
Disallow: /
User-Agent: Google-Extended
Disallow: /
逆に「特定ディレクトリだけ許可」や「この部分は自由にどうぞ」という指定も可能です。
置けば守られるのか?
結論から言えば、「従うと宣言しているAI」だけが守る という仕組みです。
OpenAIやAnthropicなど、大手が公式に対応を表明している一方で、
野良AI、規約未対応の海外ベンダー、あるいはスクレイピング専門の業者は、これを無視して持っていく可能性があります。
つまり、LLMS.txtは「法的拘束力」ではなく、あくまで紳士協定の一種です。
これはrobots.txtとまったく同じ構造で、「嫌なら出さない」が唯一の確実策という事実は変わりません。
なぜ今注目されているのか
それでもLLMS.txtが話題になるのは、AIサーチが伸びるにつれて「学習の可否を意思表示する手段」が求められてきたからです。
検索エンジンの世界ではrobots.txtがデファクトスタンダードになったように、
AI学習においても同じような“標識”を設ける動きが広がっています。
LLMS.txtの現実的な限界と使い分け
LLMS.txtは確かに「AI学習の可否を表明する」手段ではありますが、万能ではありません。
ここでは、その限界と、実際に置くべきケース・置かなくてもいいケースを整理します。
限界1:従うのは“約束したAI”だけ
現状、OpenAI、Anthropic、Google-Extendedなど、一部の大手AIクローラーはLLMS.txtへの対応を公表しています。
しかし、インターネット上には無数のクローラーが存在し、その多くは無視して収集を続ける可能性があります。
例えるなら、「侵入お断り」と表札を出す家に、礼儀正しい人は入らないが、泥棒は気にせず入るようなものです。
限界2:法的拘束力はほぼゼロ
robots.txtと同じく、LLMS.txtはあくまで技術的な意思表示にすぎません。
従わないクローラーを訴えても、国や契約によっては違法性を立証するのが困難です。
限界3:公開した時点でコピーは広がる
仮に学習を拒否しても、既にインターネット上で複製されている可能性は高いです。
SNSのスクリーンショットやミラーサイト、アーカイブサービスなど、一次ソース以外から学習されるルートも存在します。
置くべきケース(置く派)
- ブランドや著作権を強く意識している
- 有料会員向けコンテンツなど限定情報を含む
- 大手AIへの学習拒否を明確に表明したい
- 将来的に法制化されたときの証拠を残したい
置かなくてもいいケース(置かない派)
- 公開情報の拡散を歓迎する
- SEOや被リンクによる露出を重視している
- 学習されても困る要素が特にない
- そもそも「嫌なら出さない」ポリシーで運営している
最後に
LLMS.txtは、あくまで「立て札」に過ぎません。
それを立てるかどうかは、コンテンツ戦略と価値観によります。
AIサーチ時代において重要なのは、「公開する以上、それがどう使われてもいい覚悟」を持つことです。
まとめと未来展望
インターネットにおけるコンテンツ保護の議論は、検索エンジンの登場時から続いています。
robots.txtが誕生したのも、クローラーに巡回ルールを伝えるためでした。
そして今、AIサーチや生成AIの学習制御を目的とした LLMS.txt が、その新しい「立て札」として登場しています。
本記事のポイント
- LLMS.txtはAIクローラーへの意思表示
置くか置かないかは運営者の判断次第。 - 効力は限定的
従うのは公表している大手AIだけ。無視される可能性も高い。 - 公開する以上、覚悟が必要
拡散されて困る情報は、最初から出さないのが唯一の確実策。
これからの動き
AIサーチが当たり前になれば、LLMS.txtのような「学習可否の標準」が国際的に整備される可能性があります。
法的な拘束力や違反時のペナルティが議論されることもあるでしょう。
一方で、AI時代のコンテンツ拡散はチャンスでもあります。
露出を増やしてブランドを広げたいなら、あえて制限を設けないという選択肢も現実的です。
結び
LLMS.txtは魔法の盾ではありません。
しかし、「何を守り、何を解放するか」を考えるきっかけにはなります。
AIサーチの波は、望むと望まざるとに関わらず押し寄せます。
その波に抗うのか、乗りこなすのか——選ぶのは、私たち自身です。

