- Amazon.co.jp ・本 (272ページ)
- / ISBN・EAN: 9784873117614
作品紹介・あらすじ
検索エンジンだけでは入手できない、本当に欲しい情報をWebスクレイピングで手に入れる!
インターネットからデータを機械的に集め、必要な情報を抽出するプロセスが「Webスクレイピング」です。検索エンジンだけでは限られた情報しか集めることができませんが、Webスクレイピングの技術を使えば、インターネット上の膨大な情報の中から本当に必要な情報を入手することができます。コンピュータサイエンスに限らず(理系にも限らない)研究者たちが、最新動向を把握するために、また、小売業界、金融業界でも情報収集にWebスクレイピングを活用するなど、広い分野で求められ、また注目されている技術です。本書はPythonを使ってWebスクレイピングを行うための解説書です。
感想・レビュー・書評
-
1章 最初のWebスクレイパー
BeautifulSoupを使った簡単なスクレイピング
2章 高度なHTMLパーシング
BeautifulSoupの使い方と正規表現の使い方
3章 クローリングを開始する
一つのサイトをクローリングする(Wikipeda)
インターネット全体をクローリングする(Google search)
Scrapyは複雑なクローリングや自動化をしてくれるライブラリ
4章 APIを使う
APIを使って効率よく情報を収集できる。
APIが使用できる例として「Echo Nest」「Twitter」「Google API」
5章 データを格納する
クローリング、スクレイパーして得られたデータを保存する方法
csvファイルに保存する
データベース(MySQL)に保存する
6章 文書を読む
Web上にある文書(CSV,PDF,Word)を読み込む
7章 汚れたデータをクリーニング
正規表現でゴミを除去する
OpenRefineを使ってクリーニングする
8章 自然言語の読み書き
集めてきたデータのなかで特にテキストについて
解説。自然言語分析ライブラリNLTKについて解説
9章 フォームとログインでクロール
Requestsを使ってフォームへの入力
GoogleのChromeデベロッパーツールの使い方
ログインを維持するクッキーの話題
10章 JavaScriptのスレイピング
PythonはJavaSvriptのコードを理解できないので
Seleniumでページを制御する解説がある
11章 画像処理とテキスト認識
OCR技術をつかって画像として表示されている文字画像を文字として
認識するために必要なライブラリを紹介している
Tesseractの使い方の解説
12章 スクレイピングの落とし穴を避ける
省略
13章 Webサイトをスクレイバーでテストする
unittest,Seleniumでテストする方法
14章 リモートでスクレイピング
ローカルではないリーモート環境でスクレイピング、クロールが
実行できる環境を構築する詳細をみるコメント0件をすべて表示 -
前半は基本的なことがある程度まとめられている気がします。
後半はspecificなことが多いため、必要性が無いと読まない人が多いかもしれません。 -
購入。
Webスクレイピングに関する事項がまとめて説明されている。
シンプルなWebページ、Javascriptが使われているページ、cookieを使っているページ、それぞれに対する対応があった。それぞれの状況にあったツールの紹介もある。コード例もあるため、勉強するのにちょうど良かった。 -
貸し出し状況等、詳細情報の確認は下記URLへ
http://libsrv02.iamas.ac.jp/jhkweb_JPN/service/open_search_ex.asp?ISBN=9784873117614 -
請求記号 547.48/Mi 59