Google が X-Robots-Tag で PDF や XLS文書などのクロール制御に対応

2007-7-23 10:10
このエントリーをはてなブックマークに追加

search engine land の記事 を読むと、Google が非 HTML 文書である PDF Office ドキュメント (DOC, XLS) などの文書に対して、インデックス化の可否・アーカイブ化(キャッシュ表示)の可否・スニペット表示の可否などを指定できるようにしたそうです。これまでは HTML 文書は META 要素で個別に指定できましたが、それ以外の文書は個別に指定する方法はありませんでした。(robots.txt は除く)

実際にどのように使うかと HTTP のレスポンスヘッダ内にて、次のように出力します。

文書をインデックスさせたくない場合
X-Robots-Tag: noindex
文書をキャッシュさせず、スニペットも表示しない(インデックスはされる)
X-Robots-Tag: noarchive, nosnippet
指定期間後にインデックスから削除させたい時
X-Robots-Tag: unavailable_after: 27 Jul 2007 19:30:00 GMT

これをどこで指定するかというと、たとえば Apache ならば .htaccess ファイルでの指定が考えられます。

<Files "hogehoge.pdf">
Header set X-Robots-Tag "noarchive, nosnippet"
</Files>

HTTP ヘッダを確認に X-Robots-Tag: noarchive, nosnippet が付加されるはずです。mod_headers モジュールが有効になっている必要がありますが、たいていは有効になっているでしょう。

コメントはまだありません

No comments yet.

Sorry, the comment form is closed at this time.

68 queries. HTML convert time: 1.170 sec. Powered by WordPress. Valid XHTML
Copyright © 2003-2017 @ futuremix.org ログイン