あーあ。YAPC::asia行き損ねた。
あーあ。結局YAPC行き損ねた。 なんかこう、ダラダラしてたのがまずかった。。。
Web屋のネタ帳 |
Webビジネスに必要な「戦略」「システム」「デザイン」の3要素とそれらをまとめる「マネジメント」について現場の実感と独自の観点でお送りするコラム・・・のはずなんですが、要するにWebがらみのシステム&デザイン業界に関する小ネタとツッコミの雑記です。
あーあ。結局YAPC行き損ねた。 なんかこう、ダラダラしてたのがまずかった。。。
SEM リサーチというサイトのこの記事で既報なので詳細はそちらを。ここでは、サイバーエージェントの手口などについてお伝えすることにする。
2月に起きたBMWドイツ本社のサイトがgoogleから消されたの件では、検索エンジン側がJavaScriptを理解できないことを逆手に取った手口が使われていたが、今回はまたちょっと違う。
スタイルシートを使って非常に小さく設定したdivタグに20個前後のリンクを貼り付け、ユーザーの見た目には目立たない巨大なリンクネットワークを構築するというものだ。サイバーエージェントが運営するサイトは沢山あるが、そのうちのいくつかのサイトのトップページにこの隠し(?)相互リンクがあった痕跡が見られた。スクロールバーが自動で表示されるのでユーザーがdivの中を見ようと思えば見れるのだが、わざわざ見るような配置ではないあたりが検索エンジン対策ミエミエである。
論より証拠。現在では問題となった箇所は全て消されているが、サイバーエージェントが運営するサイトのひとつのトップページの、どこかに残っている古いキャッシュ(といってもほんの数日前のもの)をゴニョゴニョして再現して画面をキャプチャした結果が下の画像。

ページの一番下の部分の画像だが、赤丸の部分がGoogleの逆鱗に触れたわけだ。
赤丸の部分にはサイバーエージェントが運営する各種のサイトのトップページへのリンクが箇条書き形式で数十個書いてあった。その全てと、現在でのGoogleでのインデックス数を下記に記録しておく。数字はいずれも2006年3月29日未明現在。
こうして並べてみると、よくまあこんだけ沢山やってるものだ。
ただ、既にサービスが終了していたりドメイン自体が失効しているサイトもいくつか見られる。なかでも、既にサービス終了した合コン相手募集サイトのgocoo(ゴクー)だが、何者かにドメインを継続してのっとられ、ちょっと笑えることになっている。が、よく見ると、下のほうにいくつかのサイトへのリンクが張られている。ゴクーという、ある程度のアクセスがあったサイトのトップページのページランクの力を拝借するためのリンクだ。 皮肉なものである。
まあ、
以降は追記です。
※マークの3サイトは今はCA配下ではないそうだ(情報サンクス)。 がしかし、そこにリストされていたということは、、、いったいどれくらいの期間メンテしてなかったのだろう (笑)。トップページとはいえ一番右下の片隅の小さいdivタグだったものだから、Webマスターも見落としていた?
気づいている人は気づいていると思うが、上のサイトのうちのひとつ、 このサイトには、小さく設定したdivタグ内にいっぱいリンクを張るという手法がいまだに・・・。(3/30現在)
see also:
melma!やECナビ、グーグルから検索不能に--検索スパム行為が原因か - CNET Japan
ITmedia News:サイバーエージェントの一部サイト、Googleインデックスから削除
Googleの検索結果から消えた!? サイバーエージェント関連のサイト
サイバーエージェント関連のサイトがGoogleの検索結果に“復活”
ITmedia News:サイバーエージェントのサイト、Google検索に復帰
グーグルから消されたサイト――サーチエンジン対策の行き過ぎに注意 インターネット-最新ニュース:IT-PLUS
最高裁判所のWebサイトがリニューアルされた件。 下の内容が失笑を買っている。
当サイトへのリンク設定は,原則として自由です。ただし,次の点にご留意ください。脱力というよりほかない。(追記:現在はこのくだりは削除されている。とりあえず武士の情けで電話番号を上記引用から削除。)裁判所 | このサイトについて より(2006/3)
- リンク設定をする場合には,裁判所と特定の関係があると誤解を受けるような何らかのコメントを付加しないでください。
- 裁判所ウェブサイトのトップページ(http://www.courts.go.jp/)へリンクを設定する場合を除き,裁判所ウェブサイトへのリンクであることを明記してください。
- リンク設定をした場合には,次の連絡先に電話で御連絡ください。
- 裁判所ウェブサイト内のコーナー及び最高裁判所ウェブサイト
最高裁判所事務総局広報課 電話 03(3***)****(内線****)- そのほかの下級裁判所ウェブサイト
それぞれの裁判所総務課
YappoLogs: 最高裁判所に電話してきたよ!電話の受け答えをする係の人の給料(税金)がもったいない。
高木浩光@自宅の日記 - 最高裁判所が電話してというので電話した
裁判所という超特別な立場上、いろんなことに気を使わなければならないことはわかるが、それにしてもである。誰か止める奴はいなかったのか。
ちょっと話が飛ぶが、Winnyの開発者が著作権侵害の幇助の罪で逮捕&起訴された件。やっぱりというか予想通りというか、司法サイドの無知/無理解が散見されるようだ。
壇弁護士の事務室: winny
Webサイトというものは、それを作った組織/人間の情報リテラシーを見事に映し出す鏡だ。 しかし、裁判所のサイトのような例は誰もが通る道だと思えば仕方がない。みんなはじめは初心者なのだ。
結論から先に。カスタマイズした404エラーなどのページを用意してあるのに、IEだとメッセージ簡易表示機能の内容が表示されてしまうという現象でお悩みの方。原因は、そのカスタマイズしたページの内容が少なすぎるからだ。512バイト以上書けば、望みどおりになる。
たとえばWebサーバがApacheの場合、エラーメッセージ(404とか)は次のようにブラウザに表示される。

これじゃ味気ないっていうんで、httpd.conf や.htaccessファイルなどに
ErrorDocument 404 /fugahoge.html
とか書いておけば、エラーの場合にオリジナルのhtmlファイルを返すようにできる。
ところが、Internet Explorerでは「HTTPエラーメッセージを簡易表示する」という機能がデフォルトでオンになっている。

この機能は、Webサーバーが何らかのエラーステータスを返してきた場合にはIEのオリジナルの画面を表示してしまう。こんな感じ↓

さっきのようにカスタマイズしたエラーページをWebサーバー側で用意していたとしても、それは無視されてしまうのだ。
・・・と思っているWebデザイナーやエンジニアは多かった(実は筆者も)。 しかし事実はこういうことらしい。
... "簡易" エラー メッセージは、クライアントへの応答のサイズが指定されているしきい値より小さい場合しか表示されません。たとえば、HTTP 500 応答の実際のテキストを表示するには、Content-Length を 512 バイト以上に設定する必要があります。丸めて言うと、「カスタマイズしたエラーページが512バイト以上のHTMLで書かれていればそっちを表示するよ」ということである。
[HOWTO] Internet Explorer 5.x および 6.x の "HTTP エラー メッセージの簡易表示" 機能をサーバー側で無効にする方法 (Microsoft)
筆者の手元の環境(Apache2)で試してみた。エラー用のファイルに
<html>と書いていると、デフォルトのIEでは簡易メッセージが表示されてしまう。しかし
エラーページだよーん
</html>
<html>のように、512バイト以上になるように書いたら、そのまま表示されるようになった。
エラーページだよーん
エラーページだよーん
エラーページだよーん
エラーページだよーん
。。。(以下適当に長くする)
</html>
要するに、どうせエラーページをカスタマイズするならもうちょっとだけ凝ったデザインにしたほうが何かと良いみたいよ、ということで。(笑)
ウェブマスターのための Google 情報という一連のページは目を通したほうがいい。一見当たり前のような記述が実は重要な示唆だったりする。 その一節を紹介しよう。
削除のリクエストは、ページの http ヘッダーが 404 エラーを返した場合のみ承認されます。 従来の 404 エラーではなくユーザーにわかりやすいページを構成された場合でも、http ヘッダーで 404 エラーを返すようにしてください。 "File Not Found" というページが表示される場合でも、http ヘッダーが 200 または異常なしのステータス コードを返している場合、削除のリクエストは承認されません。エンジニア以外の人間が読むと、「ページがなければ404エラー。そんなのあたりまえだろ。」で終わってしまいかねない。 ここでは、「404エラーページを見せろ」ではなく「httpヘッダーで404を返せ」と言っているのがミソだ。
ウェブマスターのための Google 情報 - 削除 より
とりあえず、IEならieHTTPHeaders、Firefoxならlivehttpheadersをインストールしよう。準備ができたら、自分の思いつくECサイトへ行って、適当な商品をクリックする。 まともに存在する商品のページであれば、「HTTP/1.1 200 OK」のようなHTTPヘッダが返されているのを確認することができるだろう。
では、そのページのURLをちょっといじってみよう。たいていのECサイトであれば商品番号らしきものがURLに埋め込まれているはずだ。そこの英数字をとにかく滅茶苦茶な値にしてみる。どうなるだろうか?「その商品はありません」みたいなエラーメッセージが表示される。そりゃそうだ。でもHTTPヘッダはどうだろう?「200 OK」 あれれ?HTTPでは表示されるべきものがない場合には「404 Not Found」というHTTPヘッダが返される(べき)ではなかったのか?
「一般ユーザーが見てわかるようなエラーメッセージを返してるんだからいいじゃん」と言ってしまえば確かにそれだけのことである。普通のユーザーにとってはこんな問題は重箱の隅だ。 しかし、検索エンジンやその他のクローラー相手だとそうはいかない。 自動化されたプログラムにとってhttpヘッダの情報は今もこれからも重要な手がかりだ。
上の例ではユニーク値を強引にめちゃくちゃにいじった結果だが、 何もそこまでしなくても、商品の販売終了や掲載記事の削除によって、その商品番号なり記事番号なりが無効化されることはよくあることだ。 しかし、それらのページへのアクセスが過去に200 OKを返したことがあり、かつ今も200 OKを返し続けている場合には、次のような結果を招く。
ページが表示できません site:item.rakuten.co.jp - Google 検索検索エンジンの 「site:ホスト名」による検索で、「やった!我が社のサイトは○万件もインデクスされてるぞ!」と喜んでいるその数字には、 本来なら404エラーとなってインデックスから削除されるべきページが相当数含まれているのかもしれない。 心当たりのある人は確認したほうがいいだろう。
↑1万5000件ヒット(2006/3現在)。楽天のサーバ上でかつてあった商品の残骸が検索エンジンのインデクスに残ってしまっているの図。これらのページがもしもちゃんと404を返すようになっていればこんなに沢山は残らないはず。
オリジナルのWebアプリでも出来合いのWebアプリでも企業が構築した高度なWebサイトであっても、データ層(DBとか)からの取得結果がゼロ件なら「その商品/記事はありません」を表示する、といった仕様は当たり前のように実装されている。 しかし、HTTPステータスコードまできちんと考慮されているケースは実は驚くほど少ない。
404エラーページをカスタマイズして、せめて「トップに戻る」リンクを張っておく、とか、 そもそも404エラーを見せることが無いようにメンテしよう、といった方針や仕様だけで満足してしまっているのだろう。
「ステータスコードをいじるのは難しい」といった言い訳をするエンジニアもいるが、それはうそだ。
java/jspであれば
response.setError(404, "Not Found")
PHPであれば
header("Not Found", true, 404)
他の言語も似たようなもの。まったく難しくは無い。
Webの世界では、良くも悪くもHTTPプロトコルに従わなければならない。 それをちょっとでも無視すると、思わぬところで障害にでくわすことになる。
see also:
「またやるの?」としか思えないわけだが。
↑これは、5年前のこれ↓と、どう違うのだろう?2006年3月14日
楽天 紙媒体とインターネットのメディア融合を本格始動 20代後半からの女性に贈るライフスタイル実践型フリーペーパー 「楽天マガジン」3月15日創刊
http://www.rakuten.co.jp/info/release/2006/0314.html
まあ5年前とは会社の規模も知名度も中にいる人もぜんぜん変わってきているだろうし、フリーペーパーという最近流行のジャンルにて再びリベンジということか。組む相手も、今回はマガジンハウス社という大手だし。2001年7月10日
■ 月刊『楽天マガジン』が本日ついに創刊!
楽天株式会社(本社 東京都目黒区・代表取締役 三木谷浩史)が全面協力したオフィシャルマガジン『楽天マガジン(月刊)』が、株式会社メディアワークス(本社:東京都千代田区、代表取締役社長:佐藤辰男)から本日創刊いたしました。全国の書店やコンビニエンスストアで発売いたします。
http://www.rakuten.co.jp/info/press/2001/20010710_02.html
同社は1月にサッカー誌を発刊するなど雑誌事業の本格展開を始めている。「社内で『雑誌をやりたい』という声が大きい」(三木谷社長)といい、ビジネスモデルよりも社員のモチベーションを重視して発刊を決めたと語った。社員のモチベーション重視は結構なことだが、「果たしてそれは後発というハンデを背負ってでも楽天が切り込むべきジャンルなのか?」という視点での判断を無視していいということにはならない。
楽天、女性向けフリーペーパー創刊 紙からネットに集客 (ITmedia News 2006/3)
楽天の社員(技術系除く)には、出版社や広告社の出身者が多いと聞く。こう言ってしまっては悪いのだが要するにITに疎い人たちが過去の体験や得意技にすがって既存メディアに先祖返りしようとしているようにしか見えない。このままではYahooやamazonやGoogleに置いてけぼりにされるばかりだろう。ネットはネット。紙は紙。組み合わせ方を勘違いしないほうがいい。
2001年創刊の楽天マガジンは1年か2年を待たずして書店からもコンビニからも消え去ったような覚えがある。さて、今回も歴史は繰り返すのか。
see also: デジャブ?→楽天とTBSとAOLとタイムワーナーと
「社内サイトならブログ形式にでもしてしばえばどうですかね?」 「SNSってご存知ですか?」 なんていうセリフを吐くと、「またコイツはなんも考えずに今風なキーワードを口に出したいだけなんじゃねえの」的な雰囲気が漂った数年前の会議室での一幕。
「情報共有の充実」だの「社内コミュニケーションの活性化」だの「明るく元気な職場づくり!」を叫びたければ、IPメッセンジャーを開いてそこに表示されたユーザー名やグループ名のハードコピーを印刷して拡大コピーしてホワイトボードに張るといい。そして皆で認めあおう。社員がほかの誰かに一番聞いてほしいのは仕事の新しいアイデアの情報共有なんかじゃなくて、IPメッセンジャの一覧にあるどうでもよさそうな一言なんじゃないのか?

※雰囲気を変えない程度にユーザー名や表示数をいじってあります。
「仕事だ。ふざけるな(40代管理職)」「いやのそんなの恥ずかしい(30代女性)」というなら仕方が無い。お題目を掲げたまま会議室で沈黙を続けるのもよかろう。それで給料もらえるんなら。
ちなみに、「ふざけるな」と言った管理職に向かって後から「タバコ部屋で交わすなにげない一言って大切ですよね」と言うと深い同意を得られたりする(笑)。 おんなじことなのに。
とまあ、最近こんな記事を見かけて、そんなことを思い出していた。
それまではML(メーリングリスト)ベースで情報共有などをやっていたんですが、まずMLではくだらない事が言いづらい。だって相手のメールボックスまで届けてわざわざ見てもらうんですからね。「うんこしたい」なんて一言メールしたら「俺の時間を返せ」と言われかねない訳です。
そこでグルチュの登場です。SNSの良いところは「独り言のように」くだらない事、今思ってること、会社への不満、愛の告白、社長への愛の告白、などが日記に書けることに尽きます。 メールは「俺のこのメッセージを見てくれ!そして返事をくれ!」な感じですが、SNS日記だと「こんな僕の独り言ですが・・良かったら・・見てね」な感じです(わかりづらいな)
僕もよくくだらない事を書いて、全社員から素無視を良くくらっています(昨日は黒柳徹子のポロリ動画を情報共有しました)
他にもグループを作る機能があったりして、「ダイエット部」とか「ぽっちゃり部」とか「デ部」とか社員が自主的にグループを作って、いろいろ情報交換しています。
要するに「社内にSNSを入れればみんな仲良くなります」ということです。サイボウズなどのグループウェアを既に入れている会社さんも多いとは思うのですが、それと併せて使えばみんなハッピー。うちもそうしています。
grouptubeオープン (Paperboy社長 家入氏のブログ2006/3)
ついでなので下記の記事も紹介。
「重要なアイデアは会議室ではなくタバコ部屋で生まれる」といえば、それだけで以下で言わんとすることが100%通じてしまう人もいると思います。(私自身はタバコは吸いませんけど)
CNET Japan Blog - 江島健太郎 / Kenn's Clairvoyance:社内ブログ導入記(1)
see also:
誰も管理したくないし責任なんて取りたくない
誰もが感じる漠然とした不安や寂しさに遠まわしにマッチしそうな材料を取り上げて、あとは大した裏づけもせずにプレゼンテーションテクニックだけで切り込む手法というのはそのへんの営業マンでもやることだ。その目的が、生活か、金か、名誉か、自己満足か、は人それぞれ。しかし、度が過ぎるとおかしなことになるのは何事においても当然である。
森昭雄氏の世田谷区講演リポート (リヴァイアさん、日々のわざ 2006/3)話は飛ぶが、筆者の親戚のおばあさんで田舎町に住むいわゆる独居老人がいる。 ときどきご近所の家に謎の業者が来るらしく、お茶飲みついでに近所の老人十数人が集まって、「磁気ふとん」の営業トークを聞くんだそうな。秋葉原駅前の実演販売が自宅の広間でやっているような感じらしく、ヒマなばあさんは軽妙なトークに思わず拍手してしまう。
(途中省略)そういうのを問題にするあなたの方がおかしい」と述べる。そして、会場からは拍手喝采が湧き起こる。誤解を承知で書くが、上記で拍手する聴衆は、磁気ふとんの営業トークに拍手するおばあさん達と同レベルだ。そうして親は子供からゲーム機を取り上げ、おばあさんは100万円の磁気ふとんを買うのだ。
リヴァイアさん、日々のわざ: 「あなたの方がおかしい」と森昭雄氏に言われるの巻 (世田谷区のゲーム脳講演リポートその2)より
ただ、それは成績の悪い子供に親が与える罰として平均的な行動であり、また自分の年金を好きに使って何が悪いというヒマなおばあさんの言い分に必ずしも非は無い、といったあたりが隙といえば隙なのである。まさに「ココロのスキマお埋めします」 ドーン!(笑)
でまあ筆者の見解としては、
なお、例によってこのテの話題は無駄にアツくなる人がいるのでコメントは閉じる。トラックバックは開いてるんでそこんとこヨロです。
see also:
こんな話を見かけた。
去年の11月26日、銀座で開かれたブロガー異業種交流会で、私はパネラーとして「嫌いなのはランキングサイトに誘導するブログ」と強調しまくっていた。実際、ランキングサイトへのリンクがついているだけで、そのブログは価値がないと思ってしまう。もちろん、実際には、ランキングがついていても優れた内容のブログは多いはずだが、どうしても嫌悪感が先走ってしまう。そんなあなたにこちら。→ MTタグで「このエントリーをはてなブックマークに追加」のリンクをつくる
なぜ私はこれほどまでにランキングサイトが嫌いなのか。それは、ランキングが「読者のため」ではなく「著者のため」にあるからだ。そして、それはアフィリエイトと違って、読者に何らかの価値を提供する余地がほとんどないと思う。
「ランキングサイト」が大嫌いな理由 [絵文録ことのは]2006/03/04
とあるブログでこんなPHPのコードが紹介されていた。PHPで書かれたWEBクローラー用クラスだ。
SourceForge.net: PHPCrawlいやな予感がしたので、ダウンロードしてざっと見て、ローカルで試してみた結論。
筆者が見た限り、このクラスにはリクエスト間隔を制御する仕組みが見当たらなかった。クロール全体におけるダウンロード量の制限設定値などはあったがそれもデフォルトでは制限無し状態にセットされている。 そのまま使えば、1秒間に数百リクエストくらい投げることができてしまうだろう。 そのとき、クロールされる側のWebサーバーはどうなるか?考えてもみてほしい。
クローラーの代表格、Googleは、「クローラーはWebサーバーに対して気を使いながらクロールすべきである」ということをよく理解したうえでクローラーを使う/作っている。
1. Googlebot はどのくらいの頻度でウェブ ページにアクセスしますか。
Googlebot は、平均して数秒に 1 回を超える頻度でサイトにアクセスすることはありません。 ただし、ネットワークの遅延などにより、短期間の間にアクセス頻度がわずかに増えたように見える場合があります。
(途中略)
3. Googlebot がサイトをクロールするスピードが速すぎる場合は どうすればよいですか。
サイトの URL と問題の詳細を Google までご連絡ください。 迅速に対応させていただけるよう、ウェブ ログ内の Google からのアクセスを示す部分を添えてください。
ウェブマスターのための Google 情報 より
ウェブ サーバーが If-Modified-Since HTTP ヘッダーに対応していることを確認する。 この機能を使用すると、Google が前回サイトをクロールした後にコンテンツが変更されたかどうかを、サーバーからクローラに通知し、 帯域幅や負荷を軽減できます。ちなみに、上で紹介したPHPでのクローラーはIf-Modified-Sinceヘッダなんて投げないしステータスコード304も理解しない。
ウェブマスターのためのガイドラインより
クローラーというものはどういうものなのかを学ぶために、他人に迷惑のかからない環境において、このようなコードを使うのであれば大いに結構だ。 しかしうっかりでも故意にでも、第三者の管理するWebサーバーに対し、何の調整も施さずにこういう稚拙なコードを使って大量アクセスを浴びせてWebサーバを過負荷状態にしてしまうようなことがあれば、極端な話、相手から業務妨害で訴えられても文句は言えないということを肝に銘じるべきだろう。
See Also:
コンピュータが勝手に株を売買していいのか? (2004/9)
そのサイトを見るとルーターがクラッシュする(2004/9)
naoyaのはてなダイアリー - 絨毯爆撃系ブラウザ(2005/11)
誰かmod_throttleをApache2に移植してください(2006/2)
/etc/postfix/master.cf で
submission inet n - n - - smtpdこの1行のコメントアウトをはずすしてpostfix reloadするだけ。それでポート25番だけでなく587番でもPostfixがSMTPサーバとして待ち受けをはじめてくれるはず。 なお、/etc/servicesに次の行がちゃんとあるかどうかも確認。
submission 587/tcp msa # mail message submission
submission 587/udp msa # mail message submission
もちろん、SMTP AuthなりPOP before SMTPなりで認証かけましょう(外部からのrelay自体を禁止でももちろんいいけど)。でないと何のためのsubmissionかわからなくなる。
see also:
迷惑メール対策に有効な技術や運用方法とは~業界団体が提言(Internet Watch 2006.3)
reject_unknown_clientは迷惑メール対策としておすすめではない (2006.9)
spamhaus.orgをはじめとするIPアドレスベースのブラックリスト(RBL)を使ってはいけない (2006.11)
さてここで問題です。
そりゃT幹事長も怒るわな。
なお、このテの話になると無駄にアツくなる人がいるのでコメントは閉じますあしからず。
See Also: 自分で勉強しよう。でなければ相談しよう。恥をかく前に。(2006/2)