Google が X-Robots-Tag で PDF や XLS文書などのクロール制御に対応

Home » Apache » この記事

2007-7-23 10:10

search engine land の記事を読むと、Google が非 HTML 文書である PDF Office ドキュメント (DOC, XLS) などの文書に対して、インデックス化の可否・アーカイブ化（キャッシュ表示）の可否・スニペット表示の可否などを指定できるようにしたそうです。これまでは HTML 文書は META 要素で個別に指定できましたが、それ以外の文書は個別に指定する方法はありませんでした。(robots.txt は除く)

実際にどのように使うかと HTTP のレスポンスヘッダ内にて、次のように出力します。

文書をインデックスさせたくない場合: X-Robots-Tag: noindex
文書をキャッシュさせず、スニペットも表示しない（インデックスはされる）: X-Robots-Tag: noarchive, nosnippet
指定期間後にインデックスから削除させたい時: X-Robots-Tag: unavailable_after: 27 Jul 2007 19:30:00 GMT

これをどこで指定するかというと、たとえば Apache ならば .htaccess ファイルでの指定が考えられます。

<Files "hogehoge.pdf">
Header set X-Robots-Tag "noarchive, nosnippet"
</Files>

HTTP ヘッダを確認に X-Robots-Tag: noarchive, nosnippet が付加されるはずです。mod_headers モジュールが有効になっている必要がありますが、たいていは有効になっているでしょう。

ブックマーク : アクセス: 10,383回
カテゴリー : Apache,検索エンジン
キーワード : Apache, Google, SEO

コメントはまだありません

No comments yet.

Sorry, the comment form is closed at this time.

futuremix