Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)

Yahoo! JapanがGoogleとの提携を切って自前のロボット型検索エンジンを使うようになったのはすでに報じられているとおりだ。

Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
これが、新生Yahoo!検索エンジンのクローラー(ロボットとも呼ばれる)が巡回するときに巡回先のWebサーバに示すUser-Agent名(=Webサーバのログに残るブラウザ名)である。 自分でWebサイトを運営している人ならお手元のログにこんなのが残されているのを見ることができるだろう。 ちなみにSlurp というのは旧Inktomi社(Yahooが買収済み)が開発した検索エンジン用クローラーの名称である。

問題は、Mozilla/5.0 (compatible; と名乗られると、 アクセスログ解析ソフトがそれをPC用の通常ブラウザと同じと解釈してしまいかねないということだ。 たとえば、

Mozilla/5.0 (Windows; U; Windows NT 5.1; ja-JP; rv:1.0.1) Gecko/20020823 Netscape/7.0" "-"
これはWindowsXP上のNetscape7.0が名乗るUser-Agentだ。 たとえばログ解析ソフトとして有名なanalogをデフォルトのまま使っていると、ブラウザの概要レポートにおいて、 Yahoo! Slurpも上のNetscapeも同じ「Mozilla/5.0」としてカウントしてしまうはずだ。 (※analogの最新バージョンであれば対応しているかもしれない)

ロボットによるアクセスと人間によるアクセスを区別できない統計結果など信頼できるものではない。 analogに限らずアクセスログ解析ソフトを使っている人は設定ファイルの調整などに気を配ったほうがいいだろう。 ちなみにGoogleは

Googlebot/2.1 (+http://www.googlebot.com/bot.html)
と名乗る。実にわかりやすくてよろしいし、ログ解析ソフトの調整も必要ない。

YST(YahooSearchTechnology)のロボットがMozillaでもないくせにMozillaを名乗るのが悪いというのももっともだ。 そもそもMozillaってなんなのさという話もあり、 それはそれでちょっとしたエピソードがあるので、そのうちまた記事にしたい。

トラックバックURL

このエントリーのトラックバックURL:
http://www.ywcafe.net/mt/mt-tb.cgi/370

トラックバック

» YSTがMozillaかよ from TOOLKIT
Yahooでtopかよに引き続き、Yahooがらみで。 なんとYahooのロボットは「Mozilla」だそうだ。 詳しいことは「Webビジネスコンサルタントのネタ帳 」さんに書いてある。(いつも勉強になります。) でもロボットが「Mozilla」を名乗るのはどうなんだろ? Webサーバ... 続きを読む

» yahooのクローラー from zerothree.blog
ついにヤフーさんがこのブログに来ました(ロボット)。 User-Agentが「M... 続きを読む

コメントする

(初めてのコメントの時は、コメントが表示されるためにこのブログのオーナーの承認が必要になることがあります。承認されるまでコメントは表示されませんのでしばらくお待ちください)


画像の中に見える文字を入力してください。