迷惑メールのレピュテーション(スコアリング)サービスも実はRBL上の誤ったデータに大きく左右されてしまう
結論:
- spamhaus.orgを始めとする各種のRBLの情報をいわゆる「レピュテーション(スコアリング)」を通じて間接的に利用しているだけでも、実は、弊害=正常なメールをスパムであると誤判定=が発生するケースが大いにありうる。
- にもかかわらず、そうしたレピュテーション(スコアリング)サービスを過信しすぎてしまっている人が意外と多い。RBLだけでなく他の複数の情報も加味しての総合判定(スコアリング)であっても、信頼性の低い情報を基準に含めてしまった判断はやはり信頼性が低くならざるをえない、という当たり前の理屈に帰着するはずなのだが、「レピュテーション」といった聞きなれないカタカナによる催眠術(ITベンダーの常套手段)に惑わされて妄信してしまうのだろうか。
さて、この「Web屋のネタ帳」はあくまでWebがらみのビジネス、デザイン、エンジニアリングに関する話題が主なのだが、ここんところ迷惑メールがらみの話が多くなっていて食傷気味の読者もいらっしゃるかもしれない。どうもすみません。もうこのネタも尽きるのでおつきあいいただきたく。 それに、spamhaus.orgに個人的な恨みがあるわけではまったくなく(笑)、いろいろ調査してみたら客観的に見てこれはまずいだろうと思うことが多々見つかったため取り上げているだけである。
また、この記事ではこれまでと違い、「推定」の部分がやや多くなることをお断りしておきたい。
というのは、これから説明する「レピュテーション(スコアリング)=迷惑メールの評判による判定」というサービスは、その技術仕様が完全にオープンであるものがほとんどなく、肝心かなめの部分はそれぞれ企業秘密となっているため、確信に迫ろうとするとどうしても推定にならざるを得ないのだ。 また、実例として出すとあるECサイトでの事件についても、筆者の今後のつきあいもあるので「とあるECサイト」とまでしか書けないこともご了承いただきたく。
さて、先日も紹介したInternetWatchの下記の記事は、最近日本で開催されたEメールセキュリティカンファレンス2006での話が元である。カンファレンスの席上で、NTTPCコミュニケーションズの中の人が次のように発言している。
また、RBLを利用する側に対しては、「RBLだけを参照して接続拒否せずに、あくまでRBLをスコアリングの材料として使い、ホワイトリストを併用して欲しい」「利用するRBLがどのようなポリシーで運用されているのかを理解し、導入することのリスクを理解した上でRBLを利用して欲しい」との希望を述べた。さらに、RBLを組み込んだ製品のベンダーに対しては、RBLを利用していること、どのRBLを利用しているのかを明記し、RBL利用のオン・オフを可能にすること(デフォルトはオフ) 、RBLだけを参照して接続拒否せずにスコアリングの材料にしてホワイトリストを併用できるようにして欲しいといった提案をした。これは本当にそのとおりだ。ただし、その「スコアリング(レピュテーション)」の仕様によっては大きな落とし穴が待ち構えていることは知っておいたほうがいいだろう。とあるECサイトで実際に起きたメール送信不調の多発事故をからめながら、話を進めたい。
迷惑メール対策ブラックリストの功罪について「Spamhaus」と国内ISPが議論 (Internet Watch 2006/11)
実在するあるECサイトでは、注文があるたびに注文者と担当者にそれぞれ確認のメールが自動的に送信される。さらに週に一度メールマガジンを発行する。一度にメルマガを配信する数は1万通には満たない程度。オープンソースのECサイト構築ツールを入れたLinuxサーバを自社内に設置し、プロバイダの固定IPアドレスサービスとドメイン提供サービスを使ってサイトを運営している。Webサーバもメールサーバも全て1台のLinuxマシン、1個の固定IPアドレス上にあり、そのECサイト以外のサービスは稼動していない。
ある日、発信したメールマガジンが大量にエラーで戻ってきた。いくつかのプロバイダあるいは無料メールサービスのアドレス宛てのものだけが。原因をさぐると、spamhaus.orgにIPアドレスが登録されていることが判明した。ただし、ECサイトのIPアドレスが狙い打ちされたのではない。スパムの発信元は別のIPアドレスであり、例によって/24といった形で広範囲のIPアドレスブロックが丸ごとブラックリスト登録され、たまたまそれにあたったECサイトが巻き添えになったのである。
さらに調査を進めると、spamhaus.orgの情報だけでスパム判定しているプロバイダだけではなく、 統合的なスコアリングサービスを使っているメールサービスのアドレスにおいても、メルマガが不達になっていることが判明した。 RBLの情報のほかの判断基準も含めた上でスパム判定をしているがゆえに誤判定率の低いはずのスコアリングシステムにおいて、いともあっさりと誤判定が発生してしまった。いったい何故?
さて、そもそもスコアリング(レピュテーション)とは何なのか? ここではひとつの例として、IronPort社が提供するsenderbaseというデータベースを利用したスコアリングについて、次の説明を借りることにする。
プロファイリングで悪質メールを見抜くIronPort (ITmedia エンタープライズ 2005/12)より抜粋こういった仕組みのことを「迷惑メールのスコアリング」という。これはレピュテーション(評判、世評)とも呼ばれている。この記事ではIronPort社のSenderbaseの話を事例の中心にすえるので、以降はIronPort製品の説明で使われている「レピュテーション」という単語を使って話を進めることにする。
SenderBaseでは、メール送信サーバのIPアドレスをはじめ、メール送信の量、ドメイン名やそれを取得してからの期間、国籍、そのドメインでメールを送信し始めた時期など、約100種類に及ぶ属性を収集し、推移を記録している。RBL(Real-time Blackhole List)も併用できるが、単純に送信元アドレスだけで判断するのではなく、さまざまな要素を加味してスパム/フィッシングなどの悪質なメールかどうかを判断する仕組みだ。
例えば「トヨタ自動車を名乗るメールが手元に届いたとして、そのIPアドレスは果たしてトヨタ自動車が所有しているものか、所有期間はどのくらいか、送信元の国はどこか、はたまたそのアドレスから1日にどのくらいのメールが送信されているかといった複数の要素を勘案してメールのスコアリングを行う」(バティア氏)。単純にブラックリストと付き合わせる場合に比べ、正確で公平な仕組みだという。
次に、IronPort社の運営するsenderbase.orgについてだが、例えばつい最近(12月16日の夕方)に筆者の手元に届いた出会い系詐欺=主人がオオアリクイに殺されました、みたいな(笑)=の迷惑メールの発信元IPアドレスが、送信されてからざっと24時間たったいま現在でsenderbase.orgではどのように把握されているのか?
http://www.senderbase.org/search?searchString=210.85.64.183背景がピンク色になっている箇所を見てのとおり、メール送信量の急激な増加傾向と、RBLの登録が数件あることがわかる。他にも、IPアドレスで引いたwhois情報などのデータも見れるようになっているが、ここではunkown(不明)のままのようだ。ここで勘違いしやすいのが「メールの送信量」だ。これは「スパムの送信量」ではない。あくまで「メール」であって、それが正常なメールかスパムかどうかの区別はないということに注意していただきたい。
(12月17日現在の画像こちら)
※データは時々刻々と変わってしまうので、できれば画像のほうをご覧ください。
このように、senderbase.orgではスコアリングの状況がある程度公開されている。 ただし明確な数値=スパム判定度=は公開されていない。つまりそれぞれのパラメータにどの程度の重み付けがなされ、どのような計算式を持ってスパム判定度が数値化されるのか?は非公開であり、ここではIronPort社が提供するハードウェアなりサービスなりを有償で買って初めて明確な数値を得ることができる。
それでも公開されている情報をもとにしてどのような判定がなされるかはある程度の予想が可能だ。 ここで、上に書いたとあるECサイトと、それに巻き添えを食わせるきっかけとなったスパム送信サイトについて、senderbase.org上のパラメータを書き出して、比べてみることにする。
| スパム送信サイト | とあるECサイト | |
| IPアドレス | 192.168.1.50 | 192.168.100 |
| メールの送信量の規模(マグニチュード) | 3.5 | 3.7 |
| メールの送信量の前日からの増加率 | 800%超(大量にスパムを出しているのだから当然) | 600%超(普段は注文確認のメールが主なのに今日は数千通の単位でメルマガを出しているのだから当然) |
| spamhaus.orgでの登録有無 | 192.168.1.0/24 でのブラックリスト登録にマッチ (本来は192.168.1.50だけで登録すればいいものを/24でその周辺のアドレスブロック全てをブラックリストにいれてしまっている) | |
| whois情報 | unknown(詳細は不明だが逆引き設定してないせい?) | |
| その他 | senderscoreやTRUSTeの登録:なし | |
もちろん判定基準となるパラメータはこれだけでは少ない。IronPortのsenderbaseであれ他のサービスであれ、パラメータはもっとたくさんあるだろう。しかしそれらの測定方法や統合計算式は明確ではないなのでなんとも言えない。ただ、現実としてレピュテーションサービスによるスパム判定に誤判定は発生した。その原因をさぐると、このような疑惑を感じざるを得ないというのが筆者の素直な感想である。
ここでもしも、spamhaus.orgによる/24という広範囲なブラックリスト化を基準に含めなければ、あるいはspamhaus.orgが/24のような無茶な設定をせずに的を絞ったIPアドレスのブラックリスト化をすれば、最終的なスパム判定数値はかなり違うものになったのではないだろうか。やはり、信頼性の低い情報を基準に含めてしまった判断はやはり信頼性が低くならざるをえない、という当たり前の理屈に帰着するのである。
「うちはレピュテーションサービスだから大丈夫だ」という人は少なくない。しかし、実際のところどういう方法で基準となる値を測定して、それをどういう重み付けでスコアリングして、どういう計算式で最終的な判定数値にしているの?と聞かれて明確に答えられる人はまずいない。
何もかも疑ってかかるのは疲れるし効率的ではない。しかし、有償であっても肝心な部分がよくわからないサービスに頼るということは、こういう落とし穴にはまり、かつそれに気づかないというリスクをはらむことでもある。だからこそ、紹介したInternetWatchの記事でも「ホワイトリストを併用して欲しい」ということをプロバイダの中の人がしきりに言っているのだ。
see also:
- スパム・メール対策にブラックリスト方式を使う場合の注意点 (ITpro 2006/4/10)
- spamhaus.orgをはじめとするIPアドレスベースのブラックリスト(RBL)を使ってはいけない (2006/11/6)
- 出したメールが相手に届かない!? メールの不達問題とスパム対策の関係 (InternetWatch 2006/11/9)
- 迷惑メール対策ブラックリストの功罪について「Spamhaus」と国内ISPが議論(InternetWatch 2006/11)
- spamhaus.orgの「明確な悪意」とそれを知らずに使ってしまうスパム対策ベンダーと利用者 (2006/12/4)
