クローリングハック あらゆるWebサイトをクロールするための実践テクニック

  • 24人登録
  • 3.00評価
    • (0)
    • (0)
    • (2)
    • (0)
    • (0)
  • 1レビュー
  • 翔泳社 (2017年9月14日発売)
  • Amazon.co.jp ・本 (336ページ)
  • / ISBN・EAN: 9784798150512

この本を読んでいる人は、こんな本も本棚に登録しています。

有効な左矢印 無効な左矢印
上野 宣
有効な右矢印 無効な右矢印

クローリングハック あらゆるWebサイトをクロールするための実践テクニックの感想・レビュー・書評

並び替え:

表示形式:

表示件数:

  • 主に、Javaを使ったクローリングとスクレイピングについての本。クローリングに関するテクニック等がまとまっていたように思う。
    クローリングする側ではなく、Webサイト制作者向きにかかれてそうな記述もあったけど、それはそれで勉強になった。SEOとか考えてサイト制作している人にもいいかもしれない。
    サイトの文字コードについて判断するには、Content-TypeヘッダとHTML内のmetaタグの二種類があるそうだけど、どちらも記載があったらContent-Typeのほうを優先するらしい。仕組み考えたらそりゃそうかと思うけど、どっちかというと書かれてる文字コードが違う場合は、metaタグのほうが正しいことのほうが多いような気がする。特に静的なHTMLページの場合。
    後、Javaのライブラリだけど、Normalizerという文字をうまい具合に正規化してくれるAPIがあるのがいいなと思った。他の言語にもあるんだろうか。Javaで標準になってるぐらいだからありそうだけど。ちょっと探してみようと思う。
    それと、MySQLは文字コードの対応がいろいろ必要になってくるんだなと思った。Charsetが4バイト文字の場合、区別しなくなるらしい。それを、「寿司ビール問題」と呼ぶのだとか。こういう問題があるというのはどこか頭の片隅にでもおいておきたい。
    後、Google検索で表示されるファクトチェックという機能をはじめて知った。コンテンツの情報が正しいかどうかチェックした結果を表示してくれるらしい。何をもって正しいと判断してるかは気になるけど、日本でも普及してもらえないだろうか(人力だろうから大変だろうけど)。
    後、Chromeにヘッドレスモードが追加されてるというのも初めて知った。それを受けて、WebDriverで使われていたヘッドレスブラウザのPhantomJSがメンテナンスを終了したらしい。それなら、Chromeの利用例を書いてくれよと思った(利用例はPhantomJSで書かれている)。
    クローリングについては前からいろいろ興味はあって調べたりすることはあるけど、活用したことはないので、何か作ってみたいと思う。もちろん、迷惑がかからない程度に。

全1件中 1 - 1件を表示

クローリングハック あらゆるWebサイトをクロールするための実践テクニックを本棚に「いま読んでる」で登録しているひと

クローリングハック あらゆるWebサイトをクロールするための実践テクニックを本棚に「読み終わった」で登録しているひと

クローリングハック あらゆるWebサイトをクロールするための実践テクニックを本棚に「積読」で登録しているひと

クローリングハック あらゆるWebサイトをクロールするための実践テクニックの作品紹介

Webアプリケーション、Webサービスを開発・運用する
エンジニアは、HTML/HTTPやWebサーバなどWeb技術の
仕組みや基礎的な知識をおさえておかなければなりません。

本書では、実サービスでの大規模なWebクローラーの
開発・運用経験をもとに、クローラーを支える、HTTP、
文字コード、HTML、認証、Ajax/JSONなど、Webエンジニアが
おさえておくべきポイントやテクニックを学びます。

クローラーから見たWebサイトの仕組みとその実情に加えて、
現実に即した実践的かつ効率的なクローリングの方法論に
ついても解説します。

○実例をもとにHTTPやHTMLなどWebの仕組みを深く知ることができる
○大規模なクローラーの開発・運用ノウハウを知ることができる
○Webサイトの運営者(クロールされる側)もクローラーに関する知見を得ることができる

クローリングハック あらゆるWebサイトをクロールするための実践テクニックはこんな本です

クローリングハック あらゆるWebサイトをクロールするための実践テクニックのKindle版

ツイートする