Markdown・llms.txt・AIクローラー:LLM時代のコンテンツ公開戦略

machines-reading-web-content
目次

この記事は Dries Buytaert 氏の公式ブログ「dri.es」の翻訳記事です。Driesブログの記事一覧よりすべての翻訳記事をご覧いただけます。

1月に、サイトのすべてのページをMarkdown形式でも公開しました。するとすぐに、AIクローラーがMarkdown版のページを見つけ始めました。最初は期待で胸が躍りましたが、期待はデータではありません。状況が落ち着いたところで、1ヶ月分のCloudflareのログを引き出して分析してみました。

AIボットによるクロール量と、AI回答エンジンがどれだけ私のサイトにリンクバックしているかを比較しました。1件の引用(被リンク)に対して、クローラーは1,241ページも取得していました。これだけ読み込んでおきながら、もたらされるトラフィックはごくわずかです。これが現在AIがコンテンツクリエイターに提示している取引の実態であり、決して割のいいものではありません。

また、Markdownはファイルサイズが小さくなるからボットのトラフィックが減るのでは、という声もありました。結論から言うと、減りません。ボットはHTMLとMarkdownの両方を取得し、クローラーによるアクセスは約7%増加しました。軽量なフォーマットを提供しても、重たい方が置き換わるわけではありません。単純にクロール対象が増えるだけです。

以下の表に示す通り、複数のAI企業が私のサイトをクロールしています。月に数千ページを取得するボットもありますが、Markdown版をリクエストするものはごくわずかです。

ボット ベンダー 合計 HTMLファイル .mdファイル コンテントネゴシエーション .mdの割合
Amazonbot Amazon

16,872

15,032

1,840

0

10.9%

ChatGPT-User OpenAI

13,864

13,856

8

0

0.1%

Meta AI Meta

9,011

8,526

485

0

5.4%

ClaudeBot Anthropic

7,144

6,995

149

0

2.1%

OAI-SearchBot OpenAI

5,722

4,422

1,300

0

22.7%

GPTBot OpenAI

3,385

2,208

1,177

0

34.8%

Bytespider ByteDance

1,190

1,190

0

0

0.0%

CCBot CommonCrawl

530

530

0

0

0.0%

PerplexityBot Perplexity

467

466

1

0

0.2%

Claude-User Anthropic

94

87

7

0

7.4%

興味深いのは、OpenAIが役割の異なる3つのボットを運用していることです。OAI-SearchBotはコンテンツのインデックス作成、GPTBotはトレーニングデータのクロール、そしてChatGPT-UserはChatGPTのライブセッション中にリアルタイムでページを取得する役割を担っています。

私がサイトにMarkdownサポートを追加した際、2つの方法で公開しました。1つ目は専用のMarkdown URL:任意のページのURLに.mdを付加するとMarkdown版が取得できます。2つ目はコンテントネゴシエーション:リクエストにAccept: text/markdownヘッダーを含めると、元のURLからHTMLではなくMarkdownが返ります。

しかし、コンテントネゴシエーションを利用しているAIクローラーは1つもありません。皆無です。MarkdownページはすべてページのHTMLに埋め込まれた自動検出リンク(auto-discovery link)経由で見つけており、それが.mdバージョンを指し示しています。

ボット robots.txt sitemap.xml llms.txt .mdファイル
Amazonbot

182

-

-

1,840

ChatGPT-User

-

-

-

8

Meta AI

-

75

-

485

ClaudeBot

496

115

-

149

OAI-SearchBot

653

-

-

1,300

GPTBot

-

4

-

1,177

Bytespider

259

-

-

-

CCBot

8

-

-

-

PerplexityBot

142

-

-

1

Claude-User

87

-

-

7

そして、個人的に最も興味深かったのがllms.txtです。これはサイトがAIシステムに向けてコンテンツの概要を記述するための提案標準です。先月、私のサイトへのllms.txtリクエストは52件ありました。そのすべてがSEO監査ツールからのものでした。AI回答エンジンやクローラーからのリクエストは1件もありませんでした。(私はSEOツールを使っていませんし、費用も払っていませんが、それでも監査されるのですね。)

試しにAcquiaのホスティングフリート全体でも調べてみると、4億件のリクエスト総数のうちllms.txtへのリクエストは約5,000件(0.001%)で、ほぼすべてがSEOツールからでした。llms.txtは、問題のない場所に対して提供されたソリューションです。本来対象とするAIボットは、そもそもllms.txtを探しに来ません。

では、サイトにMarkdownサポートを追加すべきでしょうか?おそらく今のところは不要です。現時点で明確なメリットはありません。クロールトラフィックが減るわけでもなく、AIシステムによるコンテンツの活用が改善されることも確認できていません。

AIシステムがMarkdownを好み、提供すればきちんと取得していることは事実です。将来的に役立つ場面が増えるかもしれません。

手軽に追加できて、実験を楽しみたいなら試してみるのもいいでしょう。ただし、相応の手間がかかるなら、その労力はコンテンツそのものに注ぎましょう。今も変わらず効果があるのは、昔ながらの方法です。明快な文章、権威あるコンテンツ、そしてタイムリーな発信。これに尽きます。

By Dries Buytaert

PS: LinkedInでも議論が続いています。

この記事は「Markdown, llms.txt and AI crawlers」(投稿日:2026-03-05)の翻訳記事です。

カテゴリ

タグ

AI