Google が X-Robots-Tag で PDF や XLS文書などのクロール制御に対応
2007-7-23 10:10
search engine land の記事 を読むと、Google が非 HTML 文書である PDF Office ドキュメント (DOC, XLS) などの文書に対して、インデックス化の可否・アーカイブ化(キャッシュ表示)の可否・スニペット表示の可否などを指定できるようにしたそうです。これまでは HTML 文書は META 要素で個別に指定できましたが、それ以外の文書は個別に指定する方法はありませんでした。(robots.txt は除く)
実際にどのように使うかと HTTP のレスポンスヘッダ内にて、次のように出力します。
- 文書をインデックスさせたくない場合
- X-Robots-Tag: noindex
- 文書をキャッシュさせず、スニペットも表示しない(インデックスはされる)
- X-Robots-Tag: noarchive, nosnippet
- 指定期間後にインデックスから削除させたい時
- X-Robots-Tag: unavailable_after: 27 Jul 2007 19:30:00 GMT
これをどこで指定するかというと、たとえば Apache ならば .htaccess ファイルでの指定が考えられます。
<Files "hogehoge.pdf"> Header set X-Robots-Tag "noarchive, nosnippet" </Files>
HTTP ヘッダを確認に X-Robots-Tag: noarchive, nosnippet が付加されるはずです。mod_headers モジュールが有効になっている必要がありますが、たいていは有効になっているでしょう。
コメントはまだありません
No comments yet.
Sorry, the comment form is closed at this time.