PythonによるWebスクレイピング

  • オライリージャパン
3.00
  • (0)
  • (2)
  • (4)
  • (0)
  • (1)
本棚登録 : 137
感想 : 6
本ページはアフィリエイトプログラムによる収益を得ています
  • Amazon.co.jp ・本 (272ページ)
  • / ISBN・EAN: 9784873117614

作品紹介・あらすじ

検索エンジンだけでは入手できない、本当に欲しい情報をWebスクレイピングで手に入れる!
インターネットからデータを機械的に集め、必要な情報を抽出するプロセスが「Webスクレイピング」です。検索エンジンだけでは限られた情報しか集めることができませんが、Webスクレイピングの技術を使えば、インターネット上の膨大な情報の中から本当に必要な情報を入手することができます。コンピュータサイエンスに限らず(理系にも限らない)研究者たちが、最新動向を把握するために、また、小売業界、金融業界でも情報収集にWebスクレイピングを活用するなど、広い分野で求められ、また注目されている技術です。本書はPythonを使ってWebスクレイピングを行うための解説書です。

感想・レビュー・書評

並び替え
表示形式
表示件数
絞り込み
  • 1章 最初のWebスクレイパー
     BeautifulSoupを使った簡単なスクレイピング

    2章 高度なHTMLパーシング
    BeautifulSoupの使い方と正規表現の使い方

    3章 クローリングを開始する
     一つのサイトをクローリングする(Wikipeda)
     インターネット全体をクローリングする(Google search)
     Scrapyは複雑なクローリングや自動化をしてくれるライブラリ
     
    4章 APIを使う
     APIを使って効率よく情報を収集できる。
     APIが使用できる例として「Echo Nest」「Twitter」「Google API」

    5章 データを格納する
     クローリング、スクレイパーして得られたデータを保存する方法
     csvファイルに保存する
     データベース(MySQL)に保存する

    6章 文書を読む
     Web上にある文書(CSV,PDF,Word)を読み込む

    7章 汚れたデータをクリーニング
     正規表現でゴミを除去する
     OpenRefineを使ってクリーニングする
     
    8章 自然言語の読み書き
     集めてきたデータのなかで特にテキストについて
     解説。自然言語分析ライブラリNLTKについて解説

    9章 フォームとログインでクロール
     Requestsを使ってフォームへの入力
     GoogleのChromeデベロッパーツールの使い方
     ログインを維持するクッキーの話題

    10章 JavaScriptのスレイピング
     PythonはJavaSvriptのコードを理解できないので
     Seleniumでページを制御する解説がある

    11章 画像処理とテキスト認識
     OCR技術をつかって画像として表示されている文字画像を文字として
     認識するために必要なライブラリを紹介している
     Tesseractの使い方の解説

    12章 スクレイピングの落とし穴を避ける
     省略

    13章 Webサイトをスクレイバーでテストする
     unittest,Seleniumでテストする方法

    14章 リモートでスクレイピング
     ローカルではないリーモート環境でスクレイピング、クロールが
     実行できる環境を構築する

  • 前半は基本的なことがある程度まとめられている気がします。
    後半はspecificなことが多いため、必要性が無いと読まない人が多いかもしれません。

  • 購入。

    Webスクレイピングに関する事項がまとめて説明されている。

    シンプルなWebページ、Javascriptが使われているページ、cookieを使っているページ、それぞれに対する対応があった。それぞれの状況にあったツールの紹介もある。コード例もあるため、勉強するのにちょうど良かった。

  • 貸し出し状況等、詳細情報の確認は下記URLへ
    http://libsrv02.iamas.ac.jp/jhkweb_JPN/service/open_search_ex.asp?ISBN=9784873117614

  • 請求記号 547.48/Mi 59

全6件中 1 - 6件を表示

Ryan Mitchellの作品

  • 話題の本に出会えて、蔵書管理を手軽にできる!ブクログのアプリ AppStoreからダウンロード GooglePlayで手に入れよう
ツイートする
×