Pythonによるクローラー&スクレイピング入門 設計・開発から収集データの解析・運用まで [Kindle]
- 翔泳社 (2017年10月23日発売)
- Amazon.co.jp ・電子書籍 (667ページ)
感想・レビュー・書評
-
Chapter1
02 Wgetではじめるクローラー
実例を交えた方法が載っている。
03 UNIXコマンドでスクレイピング
grep sedによる方法、正規表現
Chapter2
02 クローラーの持つ各処理工程ごとの設計と注意点
仕事で必要な設計の俯瞰
03 バッチ作成の注意点
Chapter3
02 開発環境の準備
03 Python基礎講座はpass
Chapter4
01 ライブラリのインストール pass
02 Webページをスクレイピングする
基礎的なことがかいてありタメになった。
(Xpath,cssセレクタなど)
03 RSSをスクレイピングする
04 データをデータベースに保存して解析する
MySqlを使ったデータベース活用方法
Databaseとpythonを接続するのはmysrlclientライブラリ
Chapter5
01 クローラをもっと進化させるには
02 print関数でログを出力させる
03 loggingモジュールでログを出力して管理
02 print関数で...ではダメだよ、こっちを使いなさいという内容
04 ログ出力ライブラリでログを管理
前のloggingモジュールは高機能であるがちょっとしたlogginには向いていない。
軽量なEliotライブラリもあるよ。
05 並列処理を行う
Futureライブラリによる並列処理を解説
複数のマシンで並列化の解説
Chapter6
01 クロールしたデータを構造化したデータに変換
02 XMLに変換
03 JSONに変換
04 CSVに変換
05 Scrapyを使ってスクレイピング
Scrapyを使ってのスクレイピング、そのデータをMySqlに保存する方法を解説
Chapter7
01 フィードを作る
RSSの活用方法を解説
02 FlaskでWebAPIを作る
03 DjangoでWebAPIを作る
04 タグクラウドを作る
テキストから形態素解析でタグを取得して視覚化している
Chapter8
01 定時的な実行、周期的な実行
定時的な実行 :cron
周期的な実行:watch
02 多重起動の防止
03 管理画面の利用
04 通知機能を加える
postfixメールサーバーとGmailを使った通知機能
05 ユニットテストの作成
Chapter9
01 JavaScriptで描画されるページをスクレイピング
SeleniumとChromeDriverを利用したスクレイピング
02 ソーシャルブックマークで気になる話題を自動ブックマーク
03 公的なオープンデータの利用
csvフォーマットのデータをダウンロードしてきてCSVモジュールで解析
04 文化施設のイベントを通知する
05 Tumblrのダッシュボードをクロールして全文検索
Appendix
01 プロセス管理にSupervisorを使う
02 PyCharmを利用
03 Numpy SciPy詳細をみるコメント0件をすべて表示