Pythonによるクローラー&スクレイピング入門 設計・開発から収集データの解析・運用まで [Kindle]

  • 翔泳社
4.00
  • (0)
  • (2)
  • (0)
  • (0)
  • (0)
本棚登録 : 25
感想 : 1
本ページはアフィリエイトプログラムによる収益を得ています
  • Amazon.co.jp ・電子書籍 (667ページ)

感想・レビュー・書評

並び替え
表示形式
表示件数
絞り込み
  • Chapter1
    02 Wgetではじめるクローラー
     実例を交えた方法が載っている。
    03 UNIXコマンドでスクレイピング
     grep sedによる方法、正規表現
    Chapter2
    02 クローラーの持つ各処理工程ごとの設計と注意点
     仕事で必要な設計の俯瞰
    03 バッチ作成の注意点
    Chapter3
    02 開発環境の準備
    03 Python基礎講座はpass
    Chapter4
    01 ライブラリのインストール pass
    02 Webページをスクレイピングする
     基礎的なことがかいてありタメになった。
     (Xpath,cssセレクタなど)
    03 RSSをスクレイピングする
    04 データをデータベースに保存して解析する
     MySqlを使ったデータベース活用方法
     Databaseとpythonを接続するのはmysrlclientライブラリ
    Chapter5
    01 クローラをもっと進化させるには
    02 print関数でログを出力させる
    03 loggingモジュールでログを出力して管理
     02 print関数で...ではダメだよ、こっちを使いなさいという内容
    04 ログ出力ライブラリでログを管理
     前のloggingモジュールは高機能であるがちょっとしたlogginには向いていない。
     軽量なEliotライブラリもあるよ。
    05 並列処理を行う
     Futureライブラリによる並列処理を解説
     複数のマシンで並列化の解説
    Chapter6
    01 クロールしたデータを構造化したデータに変換
    02 XMLに変換
    03 JSONに変換
    04 CSVに変換
    05 Scrapyを使ってスクレイピング
     Scrapyを使ってのスクレイピング、そのデータをMySqlに保存する方法を解説
    Chapter7
    01 フィードを作る
     RSSの活用方法を解説
    02 FlaskでWebAPIを作る
    03 DjangoでWebAPIを作る
    04 タグクラウドを作る
     テキストから形態素解析でタグを取得して視覚化している
    Chapter8
    01 定時的な実行、周期的な実行
     定時的な実行 :cron
     周期的な実行:watch
    02 多重起動の防止
    03 管理画面の利用
    04 通知機能を加える
     postfixメールサーバーとGmailを使った通知機能
    05 ユニットテストの作成
    Chapter9
    01 JavaScriptで描画されるページをスクレイピング
     SeleniumとChromeDriverを利用したスクレイピング
    02 ソーシャルブックマークで気になる話題を自動ブックマーク
    03 公的なオープンデータの利用
     csvフォーマットのデータをダウンロードしてきてCSVモジュールで解析
    04 文化施設のイベントを通知する
    05 Tumblrのダッシュボードをクロールして全文検索
    Appendix
    01 プロセス管理にSupervisorを使う
    02 PyCharmを利用
    03 Numpy SciPy

全1件中 1 - 1件を表示

著者プロフィール



「2017年 『Pythonによるクローラー&スクレイピング入門 設計・開発から収集データの解析・運用まで』 で使われていた紹介文から引用しています。」

加藤勝也の作品

この本を読んでいる人は、こんな本も本棚に登録しています。

  • 話題の本に出会えて、蔵書管理を手軽にできる!ブクログのアプリ AppStoreからダウンロード GooglePlayで手に入れよう
ツイートする
×