スパイダリング技術で「勝手API」をつくる
はてなブックマークで人気エントリにあがっていたコレ。
RakuAPI - 楽天市場 非公式ウェブサービス楽天市場が公式にこういうのをやろうと思えば大して難しくないことは確かなのだが、 なんでやらないかというと、、、という話はまだ筆者の中でまったく確信持てないのでまた今度。
話を戻して、
じゃあ勝手サイトならぬ勝手APIをやってしまおうという手もあるわけで、今回がそれ。
作った人に取材したわけじゃないけど、要するに楽天市場でのキーワード検索を、たとえば
【楽天市場】ミネラルウォーター の検索結果:通販・インターネットショッピングの画面で得られるHTMLデータを解析して、XMLなりCSVなりに書き直して出力してくれている。
人間がブラウザでやることのかわりをこのrakuapiというサイト(いわばロボット)がやってくれているわけである。
たったそれだけのことなのだが、特に世のアフィリエイターのみなさんにとってはかなり便利なわけで。
弱点は、楽天市場の検索結果画面のHTMLデザインが少しでも変更されたら、とたんにAPIが作り直しになるということ(苦笑)。実は筆者も似たような仕組みをつくったことがあって、「できた!」と思ったら数週間後にデザイン変更されてしまい、レンダリング部分つくりなおした覚えがある。それほど大きな手間ではないけど。
詳しい技術解説についてはこの本がいいかも。
Spidering hacks―ウェブ情報ラクラク取得テクニック101選
Kevin Hemenway, Tara Calishain, 村上 雅章
see also:
ぐるなびからクーポン情報の一覧を取得するperlスクリプト(2004.6)
スパイダリング技術ここに極まれり−Googleニュース日本語版登場(2004.9)

コメントする
(初めてのコメントの時は、コメントが表示されるためにこのブログのオーナーの承認が必要になることがあります。承認されるまでコメントは表示されませんのでしばらくお待ちください)