SPIDERING HACKS―ウェブ情報ラクラク取得テクニック101選

  • オライリージャパン
3.45
  • (10)
  • (15)
  • (50)
  • (1)
  • (0)
本棚登録 : 259
感想 : 19
本ページはアフィリエイトプログラムによる収益を得ています
  • Amazon.co.jp ・本 (516ページ)
  • / ISBN・EAN: 9784873111872

感想・レビュー・書評

並び替え
表示形式
表示件数
絞り込み
  • PerlにてWeb上にある情報をスクレーピングする方法、マナーにつて解説してある。2004年初版

    1章 ウォーミングアップ
     #1~7 スクレイピングをする上での注意事項

    2章 道具をそろえる
     #8~32 Perlの使い方。インストール、Perlモジュールのインストールの方法。認証、クッキー、プロキシ。robots.txtの取り扱い。wgetの使い方。

    3章 メディアファイルの収集
     #33~42 ファイル、動画、画像、音楽ファイルをDLする方法

    4章 データベースからのデータ収集
     #43~89 省略

    5章 コレクションを維持管理する
     #90~93 作ったスクリプトを定期的に実行したりする方法。CRON、Windowのタスク、PerlのSleep関数を使う。

    6章 世の中に還元する
     #94~100 APIを使って楽に、サイトに負担をかけずに情報を取得する。RESTインターフエイスによるリソースの公開。

    付録 日本語処理[訳者補]
     Perlを使う上で注意する必要のある(文字化けを起こさない)方法を紹介

    すでにここに乗っている情報は役に立たないものが多いかもしれない。なつかしい。

  • 少し内容が古い為に,サンプルコードが動かないことも.

    Perlにある程度精通してから読むと,よく理解できるかも.

    しかし,アルゴリズムは比較的参考になるものが多い.

  • 完全に読み通したわけではまったくないが、パラパラと読んで全体の感じを抱けたので、いったん読了とする。

    正直言って、買わなくてもよかったかもしれない。。
    読んである程度参考になるのは、1章のSpideringのこころ得に関するところだけだと思う。ほかは、いかにもHow-toリストである。コードサンプルがPerlなので、Perlになじみがない自分にとっては余計そう感じたのかもしれない。

  • このHacksシリーズのよさは、テクニック100選にあるかもしれない。
    技術を体系的に教えようとしたり、解説しようとすると、書きたいことが多すぎて、整理しきれないことがある。本書のように、100という制約を設けると、じゃ、何を書いて、何を削ろうという選択がしやすい。そのため、内容も厳選され、質も揃うことになるのではないかと推測できる。
    ただ、本書だけは101になっている本当の理由はなんだろうかは興味がある。

    Spideringという情報検索(収集)ロボットに関する技術紹介である。
    自分のPCに取得した方がよいか、常にネットにつながるところで作業するかは、仕事の仕方によるかもしれない。

    情報の機密性、価値などに対する考え方で、集めてくるのがいいかどうか。
    情報の整理の仕方についても考えさせられる。

  • スパイダリングとはWebサイトなどから、情報を収集することを指し、その際にはルール、マナーといったものが存在。そういうマナーから、実際に収集するテクニック方法などについて書かれているので、そういうプログラムを作る場合には加害者にならないためにも読んでおいたほうがよい。

  • スパイダリングの基礎から徹底解説してある本。
    内容が若干古い感は否めないけど、ノウハウとしては十分に役に立ちます。

  • WEBスクレーピング本。これは面白い!
    世界中のWEBサイトから情報を集約して、新しい価値を持ったコンテンツを作り出すためのテクニック満載。

  • 近々に読むべし!WEBからの情報収集方法についてのヒント。Perlの実践もかねて。

  • 株価情報などをあちこちのサイトを解析して、データベースにほっぽりこんだりしてますが、その足がかりになりました。

  • まだ読んでいない・・・

全19件中 1 - 10件を表示

Kevin Hemenwayの作品

  • 話題の本に出会えて、蔵書管理を手軽にできる!ブクログのアプリ AppStoreからダウンロード GooglePlayで手に入れよう
ツイートする
×