ロボット避け

検索エンジンに登録されたくない方法
ただし、完全とは言えないのでご注意を。
また、無料鯖のジオシティーズなどの一部鯖ではメタタグは効きません。

MENUへ戻る

利き方としては、METAタグ→robot.txtという順でしょうか?
.htaccessという方法もあります。
いづれにしても完全ではない、ということを覚えておいてください。お行儀の悪いロボットには困りますね(´Д⊂・゚・。

METAタグによる方法
各HTMLファイルの<HEAD>〜</HEAD>内に記述することで有効

<META name="ROBOTS" content="NONE">
↑の命令は、ロボットを拒絶するもの

<META name="ROBOTS" content="NOINDEX, NOFOLLOW">

↑の命令は、ロボットに対し索引化することも、リンクを辿ることも許可しないというもの

<META name="ROBOTS" content="NOARCHIVE">

↑の命令は、Googleのようなキャッシュ機能を持つロボットにキャッシュを行わないようにするというもの
robots.txtによる方法
robots.txtというテキストファイルをディレクトリ内に設置するのみ。
ただしrobots.txtは、ユーザ側の設置不可の場合が多いので、設置する場合は必ず鯖管理者への問い合わせのこと。
(鯖により設置方法が異なります。また鯖によっては鯖側で設置してくれる場合があります。)
また設置位置は、http://wwww.geocities.co.jp/****/0000/というURLの場合、http://wwww.geocities.co.jp/の
ディレクトリ位置にrobots.txtが設置されていないと意味がありません。
<記述例>

User-agent: *
Disallow: /

全てのロボットに対し、全てのコンテンツを許可しないというもの。
これをindexファイルのある層へ設置する。
.htaccessによる方法
.htaccessファイルを使って設置するだけです。
<記述例>さくらウェブの場合。

<Limit GET POST PUT>
SetEnvIf REFERER "google.co.jp" Ref1
SetEnvIf REFERER "google.com" Ref2
SetEnvIf REFERER "yahoo.co.jp" Ref3
order allow,deny
allow from all
Deny from env=Ref1
Deny from env=Ref2
Deny from env=Ref3
</Limit>
ErrorDocument 403 /~801/403.html

これをテキストファイル等で作って、.htaccessという名前にしてファイルにしてサーバに送ればOKです。
ちなみにRef1、Ref2というのは管理人のサイトに弾くものが沢山あって面倒なのでリファ1、2と番号にしているだけ。
Ref1をgoogle1、2などにしてもよろしいかと思います。
ただしSetEnvIfで指定した名前(この場合はRef1)とDeny fromで指定する名前は必ず一致させること。
あとSetEnvIfで""の中にhttp://から指定してもよろしいかと。
ちなみに上記方法はこのキーワードにひっかかるものは全て排除するってことですね。
SetEnvIfでの""の中身はその特定サーバを指定していると同時に、文字列としても見なしてるということです。

ちなみにErrorDocumentを指定すると該当する人をそこに飛ばせたりします。
無難なのは403か404でしょうねぇ。
あと403ファイルは自分で自作で作れますし、また飛ばす先をhttp://www.yahoo.co.jp/とすることも可能です。
ちなみにさくらウェブの場合は403指定で飛ばせました(参考まで)
関連リンク
No Need Robot Club
検索エンジンとウェブリング


MENUへ戻る