検索エンジン(robot)に特定のディレクトリだけインデックスさせない方法
雨の神奈川県からお送りします。
寒いですね~…
先日、さがみ湖プレジャーフォレスト(旧ピクニックランド)のイルミネーションに行ってきました。
いや~素晴らしかったです。
夜限定のアトラクション(イルミネーション畑の中をカートに乗って走れたり)もあり、リフトに乗って上まで登れば夜の観覧車にも乗れます。
先シーズンは御殿場の「御殿場高原時之栖(ときのすみか)」にも行きました。
中でも圧巻なのが「ヴェルサイユの光」という光と噴水のショー!
これもとても素晴らしいショーでした。
ただ…いかんせん、冬のお出かけは寒い!!
イルミネーションと言えば夜で気温もぐんぐん下がる頃、
さらに噴水のショーって……これはないでしょう。。。と正直思いました(^^;
冷感はアップするし、突っ立って見てるので足元は凍るほど冷たくなるし。
ショーとしてはホントに美しいんですけどね。
お出かけの際には、靴の中にカイロ、服装も「寒い地方に行くんだ」ぐらいの気合いを持ってお出かけください。
ちなみに、御殿場のあと富士吉田に寄りました。その時の富士吉田の気温は-13度(2012年1月)。
星空は果てしなくきれいでしたが、寒い寒い寒い~…
ということで、寒い話が長くなりました。。。
検索エンジンに特定のディレクトリだけインデックスさせない方法。です。
「検索させない」と言うとちょっと語彙が違いますが、検索されても検索エンジンに表示されない方法、といった感じですかね。
今回のシチュエーションとしては、お客さんが自社にて運用(更新)しているWebサイトで、更新前のチェック用として「test」フォルダを設けているが、放っておいたらそのフォルダもインデックスされてしまった!
というもの。
Basic認証という方法もありますが、そもそも公開しているスペース(www/直下)とtestフォルダの内容は基本的に同じなので、見られても構わないし、面倒なことはしたくないということで…
testフォルダだけインデックスさせない方法を用いました。
基本的な知識ではありますが、制作会社が管理をしていないと、意外と抜け落ちている部分かなと思います。
インデックスというのは、簡単に言うと、「検索エンジンにページ登録されること」です。
検索エンジン登録の仕組みは、
検索エンジンのrobotが世界中のWebページを巡回(クロール)してページ情報を集め、検索エンジンに登録しています。
で、その時にrobotに対して、HTMLソース内の記述や「robots.txt」というファイルをサーバに置くことで、
・インデックスへの登録拒否
・クロールの拒否
などを宣言することができます。
HTMLのmetaタグでインデックス登録を拒否する方法
以下のmetaタグが記述されたページは、検索エンジンにインデックスされません。
永続的にインデックスされなくて良いページには、この記述をしておけば良いでしょう。
ですが、仮データ(更新用のHTMLなど)にこの記述をしておいて、データのチェックが終わって公開!となったときに消し忘れると、そのページは「公開ページでインデックスして欲しいページなのにインデックスされない」という悲劇を招きます。
その点だけ注意が必要です。
robots.txtでクロールやインデックス拒否する方法
「robots.txt」というファイルを作成し、サーバのルートディレクトリ(www/など)に置きます。
サイトすべてについて、検索エンジンの巡回を拒否する場合
※User-agent: * は、すべてのクローラーの意味
特定のディレクトリ(今回の場合は「test」ディレクトリ)の巡回を拒否する場合は、Disallowの部分にディレクトリ名を記述します。
↑今回の場合はこれで解決!
robots.txtには、そのほかにも「Allow(クロールさせる)」「Disallow(巡回拒否)」を組み合わせたり、様々な方法があります。
↑「test」ディレクトリのインデックスは拒否するが、「test」ディレクトリの「index.html」だけはインデックスしてほしい場合。
さらに「*」や「$」を使って、「文字列の一致するディレクトリ(ファイル)を一括拒否」など、高度な運用方法もあります。
ここでは一部をご紹介しましたが、通常は私が遭遇した今回のシチュエーション程度の運用が多いのではないかと思います。
寒いので風邪やウィルスには気をつけましょう。
寒いですね~…
先日、さがみ湖プレジャーフォレスト(旧ピクニックランド)のイルミネーションに行ってきました。
いや~素晴らしかったです。
夜限定のアトラクション(イルミネーション畑の中をカートに乗って走れたり)もあり、リフトに乗って上まで登れば夜の観覧車にも乗れます。
先シーズンは御殿場の「御殿場高原時之栖(ときのすみか)」にも行きました。
中でも圧巻なのが「ヴェルサイユの光」という光と噴水のショー!
これもとても素晴らしいショーでした。
ただ…いかんせん、冬のお出かけは寒い!!
イルミネーションと言えば夜で気温もぐんぐん下がる頃、
さらに噴水のショーって……これはないでしょう。。。と正直思いました(^^;
冷感はアップするし、突っ立って見てるので足元は凍るほど冷たくなるし。
ショーとしてはホントに美しいんですけどね。
お出かけの際には、靴の中にカイロ、服装も「寒い地方に行くんだ」ぐらいの気合いを持ってお出かけください。
ちなみに、御殿場のあと富士吉田に寄りました。その時の富士吉田の気温は-13度(2012年1月)。
星空は果てしなくきれいでしたが、寒い寒い寒い~…
ということで、寒い話が長くなりました。。。
検索エンジンに特定のディレクトリだけインデックスさせない方法。です。
「検索させない」と言うとちょっと語彙が違いますが、検索されても検索エンジンに表示されない方法、といった感じですかね。
今回のシチュエーションとしては、お客さんが自社にて運用(更新)しているWebサイトで、更新前のチェック用として「test」フォルダを設けているが、放っておいたらそのフォルダもインデックスされてしまった!
というもの。
Basic認証という方法もありますが、そもそも公開しているスペース(www/直下)とtestフォルダの内容は基本的に同じなので、見られても構わないし、面倒なことはしたくないということで…
testフォルダだけインデックスさせない方法を用いました。
基本的な知識ではありますが、制作会社が管理をしていないと、意外と抜け落ちている部分かなと思います。
インデックスというのは、簡単に言うと、「検索エンジンにページ登録されること」です。
検索エンジン登録の仕組みは、
検索エンジンのrobotが世界中のWebページを巡回(クロール)してページ情報を集め、検索エンジンに登録しています。
で、その時にrobotに対して、HTMLソース内の記述や「robots.txt」というファイルをサーバに置くことで、
・インデックスへの登録拒否
・クロールの拒否
などを宣言することができます。
HTMLのmetaタグでインデックス登録を拒否する方法
以下のmetaタグが記述されたページは、検索エンジンにインデックスされません。
<meta name="robots" content="noindex">
永続的にインデックスされなくて良いページには、この記述をしておけば良いでしょう。
ですが、仮データ(更新用のHTMLなど)にこの記述をしておいて、データのチェックが終わって公開!となったときに消し忘れると、そのページは「公開ページでインデックスして欲しいページなのにインデックスされない」という悲劇を招きます。
その点だけ注意が必要です。
robots.txtでクロールやインデックス拒否する方法
「robots.txt」というファイルを作成し、サーバのルートディレクトリ(www/など)に置きます。
サイトすべてについて、検索エンジンの巡回を拒否する場合
User-agent: *
Disallow: /
※User-agent: * は、すべてのクローラーの意味
特定のディレクトリ(今回の場合は「test」ディレクトリ)の巡回を拒否する場合は、Disallowの部分にディレクトリ名を記述します。
User-agent: *
Disallow: /test/
↑今回の場合はこれで解決!
robots.txtには、そのほかにも「Allow(クロールさせる)」「Disallow(巡回拒否)」を組み合わせたり、様々な方法があります。
Disallow: /test/
Allow: /test/index.html
↑「test」ディレクトリのインデックスは拒否するが、「test」ディレクトリの「index.html」だけはインデックスしてほしい場合。
さらに「*」や「$」を使って、「文字列の一致するディレクトリ(ファイル)を一括拒否」など、高度な運用方法もあります。
ここでは一部をご紹介しましたが、通常は私が遭遇した今回のシチュエーション程度の運用が多いのではないかと思います。
寒いので風邪やウィルスには気をつけましょう。
コメント 0