PythonによるWebスクレイピング

著者 : Ryan Mitchell 黒川利明

オライリージャパン (2016年3月18日発売)

3.00

本棚登録 : 137人

感想 : 6件

購入ストアへ

サイトに貼り付ける

本ページはアフィリエイトプログラムによる収益を得ています

Amazon.co.jp ・本 (272ページ)
/ ISBN・EAN: 9784873117614

#Python #IT #python #+ebook #tech

作品紹介・あらすじ

検索エンジンだけでは入手できない、本当に欲しい情報をWebスクレイピングで手に入れる！
インターネットからデータを機械的に集め、必要な情報を抽出するプロセスが「Webスクレイピング」です。検索エンジンだけでは限られた情報しか集めることができませんが、Webスクレイピングの技術を使えば、インターネット上の膨大な情報の中から本当に必要な情報を入手することができます。コンピュータサイエンスに限らず（理系にも限らない）研究者たちが、最新動向を把握するために、また、小売業界、金融業界でも情報収集にWebスクレイピングを活用するなど、広い分野で求められ、また注目されている技術です。本書はPythonを使ってWebスクレイピングを行うための解説書です。

感想・レビュー・書評

並び替え

いいね順
新着順

表示形式

リスト
全文

表示件数

絞り込み

gunmakeさんの感想

フォロー

2020年2月16日

1章最初のWebスクレイパー
　BeautifulSoupを使った簡単なスクレイピング

2章高度なHTMLパーシング
BeautifulSoupの使い方と正規表現の使い方

3章クローリングを開始する
　一つのサイトをクローリングする（Wikipeda）
　インターネット全体をクローリングする（Google search）
　Scrapyは複雑なクローリングや自動化をしてくれるライブラリ
　
4章 APIを使う
　APIを使って効率よく情報を収集できる。
　APIが使用できる例として「Echo Nest」「Twitter」「Google API」

5章データを格納する
　クローリング、スクレイパーして得られたデータを保存する方法
　csvファイルに保存する
　データベース（MySQL）に保存する

6章文書を読む
　Web上にある文書(CSV,PDF,Word)を読み込む

7章汚れたデータをクリーニング
　正規表現でゴミを除去する
　OpenRefineを使ってクリーニングする
　
8章自然言語の読み書き
　集めてきたデータのなかで特にテキストについて
　解説。自然言語分析ライブラリNLTKについて解説

9章フォームとログインでクロール
　Requestsを使ってフォームへの入力
　GoogleのChromeデベロッパーツールの使い方
　ログインを維持するクッキーの話題

10章 JavaScriptのスレイピング
　PythonはJavaSvriptのコードを理解できないので
　Seleniumでページを制御する解説がある

11章画像処理とテキスト認識
　OCR技術をつかって画像として表示されている文字画像を文字として
　認識するために必要なライブラリを紹介している
　Tesseractの使い方の解説

12章スクレイピングの落とし穴を避ける
　省略

13章 Webサイトをスクレイバーでテストする
　unittest,Seleniumでテストする方法

14章リモートでスクレイピング
　ローカルではないリーモート環境でスクレイピング、クロールが
　実行できる環境を構築する

0

詳細をみる
コメント0件をすべて表示
M. Nakamotoさんの感想

フォロー

2018年6月2日

前半は基本的なことがある程度まとめられている気がします。
後半はspecificなことが多いため、必要性が無いと読まない人が多いかもしれません。

0

詳細をみる
コメント0件をすべて表示
yoさんの感想

フォロー

2016年6月26日

購入。

Webスクレイピングに関する事項がまとめて説明されている。

シンプルなWebページ、Javascriptが使われているページ、cookieを使っているページ、それぞれに対する対応があった。それぞれの状況にあったツールの紹介もある。コード例もあるため、勉強するのにちょうど良かった。

0

詳細をみる
コメント0件をすべて表示
iamaslibさんの感想

フォロー

2016年6月23日

貸し出し状況等、詳細情報の確認は下記URLへ
http://libsrv02.iamas.ac.jp/jhkweb_JPN/service/open_search_ex.asp?ISBN=9784873117614

0

詳細をみる
コメント0件をすべて表示
fraserlibさんの感想

フォロー

2016年4月13日

請求記号　547.48/Mi 59

0

詳細をみる
コメント0件をすべて表示