SPIDERING HACKS―ウェブ情報ラクラク取得テクニック101選
- オライリージャパン (2004年5月1日発売)
- Amazon.co.jp ・本 (516ページ)
- / ISBN・EAN: 9784873111872
感想・レビュー・書評
-
PerlにてWeb上にある情報をスクレーピングする方法、マナーにつて解説してある。2004年初版
1章 ウォーミングアップ
#1~7 スクレイピングをする上での注意事項
2章 道具をそろえる
#8~32 Perlの使い方。インストール、Perlモジュールのインストールの方法。認証、クッキー、プロキシ。robots.txtの取り扱い。wgetの使い方。
3章 メディアファイルの収集
#33~42 ファイル、動画、画像、音楽ファイルをDLする方法
4章 データベースからのデータ収集
#43~89 省略
5章 コレクションを維持管理する
#90~93 作ったスクリプトを定期的に実行したりする方法。CRON、Windowのタスク、PerlのSleep関数を使う。
6章 世の中に還元する
#94~100 APIを使って楽に、サイトに負担をかけずに情報を取得する。RESTインターフエイスによるリソースの公開。
付録 日本語処理[訳者補]
Perlを使う上で注意する必要のある(文字化けを起こさない)方法を紹介
すでにここに乗っている情報は役に立たないものが多いかもしれない。なつかしい。詳細をみるコメント0件をすべて表示 -
少し内容が古い為に,サンプルコードが動かないことも.
Perlにある程度精通してから読むと,よく理解できるかも.
しかし,アルゴリズムは比較的参考になるものが多い. -
完全に読み通したわけではまったくないが、パラパラと読んで全体の感じを抱けたので、いったん読了とする。
正直言って、買わなくてもよかったかもしれない。。
読んである程度参考になるのは、1章のSpideringのこころ得に関するところだけだと思う。ほかは、いかにもHow-toリストである。コードサンプルがPerlなので、Perlになじみがない自分にとっては余計そう感じたのかもしれない。 -
スパイダリングとはWebサイトなどから、情報を収集することを指し、その際にはルール、マナーといったものが存在。そういうマナーから、実際に収集するテクニック方法などについて書かれているので、そういうプログラムを作る場合には加害者にならないためにも読んでおいたほうがよい。
-
スパイダリングの基礎から徹底解説してある本。
内容が若干古い感は否めないけど、ノウハウとしては十分に役に立ちます。 -
WEBスクレーピング本。これは面白い!
世界中のWEBサイトから情報を集約して、新しい価値を持ったコンテンツを作り出すためのテクニック満載。 -
近々に読むべし!WEBからの情報収集方法についてのヒント。Perlの実践もかねて。
-
株価情報などをあちこちのサイトを解析して、データベースにほっぽりこんだりしてますが、その足がかりになりました。
-
まだ読んでいない・・・