SEOに有効な「robots.txt」の書き方と設定方法まとめ

f:id:lord_cashew:20140612173236j:plain

Webサイト制作に関することは全て独学で学んだのですが、いつの頃からかなんとなーく使っている「robots.txt」というファイルについて、その利用用途や書き方などを改めて知りたいと思い、ググって調べてみました。

自分のWebサイトのディレクトリやファイルに検索エンジンのクローラーがアクセスするのを制御する為に使われるテキストファイルです。

例えば「このディレクトリにあるファイルにはアクセスさせない」とか「kensaku.htmlというファイルにはアクセスさせない」という感じで設定します。

またこのことから、SEO的には「クロール最適化」の手段の一つとして挙げられています。

「robots.txt」のファイル名は必ず「robots.txt」にします。

「robot.txt」でも「robots.html」でも「Robots.txt」でも「.robots」でもダメです。

「robots.txt」はWebサイトのルートディレクトリ（ルートドメイン）に設置します。

例えばWebサイトのURLが「http://hogehoge.com」の場合には「http://hogehoge.com/robots.txt」に設置します。

ちなみに「http://hogehoge.com/blog/robots.txt」などに設置しても効果はありませんので要注意です。

「robots.txt」には下記の四つの要素を記述することができます。

User-Agent:
Disallow:
Allow:
Sitemap:

どのクローラーの動きを制御するかを指定する要素で「*」は全てのクローラーに指示する設定になります。例えば「User-Agent:Googlebot」と記述すると、検索エンジンGoogleのクローラー（Googlebot）に対して指示することになります。基本的には「*」と記述しておけば大丈夫です。

User-Agentで指定したクローラーのアクセスを制御するディレクトリやファイルを指定する要素です。

サイト全体をクロール不可・・・Disallow: /
特定のディレクトリとその中身全て・・・Disallow: /fukadesu/
特定のファイル・・・Disallow: /fuka-file.html

上記Disallowの反対の意味の要素でアクセス許可を設定する要素ですが、基本的には使いません。

sitemapファイルの場所をクローラーに知らせるための要素です。これを記述しておくとクローラーがsitemapファイルを積極的に読みにいくようになります。必ず記述しておくようにしましょう。

User-Agent: *
Disallow: /admin/
Allow:

Sitemap: http://hogehoge.com/sitemap.xml

全てのクローラーに対して、adminフォルダへのアクセスは不可。

User-Agent: *
Disallow: /
Allow: /blog/

Sitemap: http://hogehoge.com/sitemap.xml

全てのクローラーに対して、サイト全体がアクセス不可だが、blogフォルダのみアクセス可。

User-Agent: Googlebot
Disallow: /google-dame/
User-Agent: Googlebot-Image
Disallow: /dame-photo/

Sitemap: http://hogehoge.com/sitemap.xml

Google検索のクローラーに対して、google-dameフォルダへのアクセス不可。

Google画像検索のクローラーに対して、dame-photoフォルダへのアクセス不可。

おしブロ from STONEWEB