JS+Node.jsによるWebクローラー/ネットエージェント開発テクニック
- ソシム (2015年8月31日発売)
- Amazon.co.jp ・本 (432ページ)
- / ISBN・EAN: 9784883379934
作品紹介・あらすじ
まだ、Webデータを手で集めていますか?サーバーサイドJavaScriptでクローラーが簡単に作れる!WebAPI経由でデータをゲット!レポートやPDF/Excel文書を自動作成!豊富なスクリプトがすべてダウンロード可能!
感想・レビュー・書評
-
Webスクレイピングについて興味があって買った本。だけど、想像以上に広範囲な技術がとりあげられていて期待を遥かにこえたすごい本だった。
Webスクレイピングだけでなく、スクレイピングしたデータを用いた形態素解析やベイジアンフィルタによる分類、文字認識やチャートの作成まで書かれてあり、JavaScript(ほとんどはNode.js)でここまでできるのかと驚いた。
また、データの収集・利用だけについてでなく、nanoというLinuxのエディタやCoffeeScriptの詳しい説明などとてもためになった。JavaScriptをある程度勉強して次のステップにいきたいと思う人には本当にオススメしたい。Node.jsについても丁寧に解説されているので、ブラウザで動くJavaScripはある程度わかっているが、Node.jsはあまり分かっていないという人にもオススメ。げんに、自分がそうだったけど、この本を読んでだいぶNode.jsについてわかった気がした。
正直、いろいろこんなことができるのかと驚いたことが多くて、ここには書ききれない。ブラウザのスクリーンショット画像をCasperJSというものを使えばプログラムで簡単に作成できるとか、Node.jsのofficegenやPDFKitというモジュールを使えばExcelやPDFファイルを作ることができる等。知らなきゃ損な気がしてくるぐらいだった。
個人的に、今年、買ってよかった本ナンバーワンだ。詳細をみるコメント0件をすべて表示 -
Web上のデータを集める手法の説明だけではなく集めた情報の活用方法までを提案している本。技術的な面で掘り下げたいのであれば「Pythonクリーニング&スクレイピング」がよい。
1章 開発環境の準備
省略
2章 Webデータの収集
cheerio-httpcliを使ったスクレイピングを解説。対象は青空文庫、Wikipedia。再帰的な方法をつかってサイトを丸ごとDLする方法。定期的にDLする方法など。
3章 ログインの必要なサイトをクロールする
Flickrサイトの猫の写真をスクショでとって保存する方法、ログインする方法などを紹介。
Electronを使ってデスクトップアプリをつくってスクショを実行させるなど、いろいろとテンコ盛り
4章 データの整形と保存
文書の保存に関して文字コードの変換方法を解説。データ形式としてJSON/JSON5/CSON/XML/RSS/YAML/INI/CTV/TSVをNode.jsで扱う方法。ここで突然CoffeeScriptの紹介?
データの保存としてデータベースを紹介。SQlite3、LevelDBの使い方。青空文庫の作品を保存する例が紹介されている。
5章 形態素解析で日本語を扱う
MeCabを使ってわかちだちをして文書の要約、文書校正を試みている。WordCountも行っている
6章 クローラのためのデータソース
有効な情報サイトとしてOpenDataなどの紹介。
TwitterAPIの活用、Facebook、はてなブックマーク、Amazon、Flickr、YouTube、Yahoo!Finance、Wikipedia、の活用
7章 データの分類と予測と機械学習
ベイジアンフィルタによる分類を使って読み込んだ文書が信長に関する記述なの漱石に関する記述なのかを判定させている
もう一つの技術である予測に関しては気象データを学習して温度の予測をする。
人工無能との会話などなど
8章 データの視覚化と応用
Google Charts,D3を使った視覚化(チャート)
こういったクローリング、スクレイピング本にありがちであるが本執筆時点のサイトの構成と試行した時のサイトの構成が違っており本のとおりにはならないことが数か所あった。そこは応用力でしょう。 -
学生購入希望で購入した図書(2019年度)
【所在】3F開架
【請求記号】007.58||KU
【OPACへのリンク】
https://opac.lib.tut.ac.jp/opac/book/187494
これまでに学生購入希望で購入した図書の一覧は
http://www.lib.tut.ac.jp/irai/kibo.html#konyu_kibolist
こちらで確認できます -
ChatTool用のBOTを作ろうとした時に参考にした本
情報収集の自動化など検討している方にははじめに読むと参考になると思います。技術の紹介や自分がどんなものを作りたいのかの手助けをしてくれると思います。
複数の方法を幅広く紹介しているので習得していない言語への挑戦やツールの選定にも参考になります。 -
人が引っ掛かりやすいところを、うまくピックアップして説明してある良書です。技術書は、どうでもいい説明が長くて、大切なポイントが抜け落ちているパターンが多い気がするのですが、この人が書いた本はまた読みたいと感じました。javascriptにあまり詳しくない自分でも簡単に読めたので、上級者には物足りないかもしれません。electron、node.js、javascriptの知識が少ないけど、勉強する必要に迫られたという人が入門書として読む本かなと思いました。
-
機械学習とその学習のためのデータをどのように取得するかが学べる。
機械学習周りの最初の勉強にオススメ。 -
請求記号 547.48/Ku 25
-
貸し出し状況等、詳細情報の確認は下記URLへ
http://libsrv02.iamas.ac.jp/jhkweb_JPN/service/open_search_ex.asp?ISBN=9784883379934