Python2年生スクレイピングのしくみ体験してわかる！会話でまなべる！

著者 : 森巧尚

翔泳社 (2019年10月4日発売)

3.94

(10)
(11)
(10)
(1)
(0)

本棚登録 : 269人

感想 : 12件

購入ストアへ

サイトに貼り付ける

本ページはアフィリエイトプログラムによる収益を得ています

Amazon.co.jp ・本 (192ページ)
/ ISBN・EAN: 9784798161914

#プログラミング #Python #Kindle #森巧尚

作品紹介・あらすじ

Pythonでスクレイピングを体験してみよう！

【スクレイピングとは】
機械学習やデータ分析になくてはならない「データ」。
このようなデータは、インターネット上に膨大にありますが、Pythonを使えば効率よくデータ収集できます。
こうした手法を「スクレイピング」といいます。
サイト自体もオープンデータ化が進んでおり、データを集めやすい環境が整ってきています。

【Python2年生について】
「Python2年生」シリーズは、「Python1年生」を読み終えた方を対象とした入門書です。
ある程度、技術的なことを盛り込み、本書で扱う技術について身に着けてもらいます。
【ターゲット】
・ネット上からデータ収集を行う初心者
・データ分析の手前の初心者

【本書の売り】
ヤギ博士＆フタバちゃんと一緒に、インターネットからのファイルのダウンロード方法、
HTML解析の方法、いろいろなデータの読み書き、
APIの使い方といったデータ収集と便利なライブラリを利用した簡単な可視化手法を解説する書籍です。
また最終的にデータ収集を自動化する方法も簡単に解説します。

感想・レビュー・書評

並び替え

いいね順
新着順

表示形式

リスト
全文

表示件数

絞り込み

a0019447さんの感想

フォロー

2021年4月25日

pythonスクレイピングについて、わかりやすく解説した本。
基礎知識、プログラムがわかり、開発体験ができる本当のこと。
初心者にもわかりやすく一歩ずつ、試せてよき。

メモ
・クローリングはネット上の公開データをかき集めること。収集したデータを解析して必要データ取得することがスクレイピング。
・robots.txtにクローリングに対する意思表示がかかれている。
・JSONとは、JAVAScriptのデータの書き方。
　Javascript　Object　Notation
　シンプルで扱いやすいデータ表現であるため、
　多くのプログラミング言語で利用される。

1

詳細をみる
コメント0件をすべて表示
くりぼーさんの感想

フォロー

2024年2月12日

スクレイピングやAPIについて、実サイトを使った実例があるため、実用的な内容であるという、実感が湧いた。

0

詳細をみる
コメント0件をすべて表示
桜美林大学図書館さんの感想

フォロー

2023年11月3日

https://cool.obirin.ac.jp/opac/volume/922599

0

詳細をみる
コメント0件をすべて表示
Masayaさんの感想

フォロー

2023年1月1日

スクレイピングにおいては本当に基礎的な内容。概要を掴むにはこれくらいのボリュームでスクレイピングのフローをつ掴むと良いと思う。

0

詳細をみる
コメント0件をすべて表示
bob-taniさんの感想

フォロー

2022年5月18日

サンプルコード豊富で試しやすい。
とにかくわかりやすさ重視なのでつまずくことは基本ない。

0

詳細をみる
コメント0件をすべて表示
神戸国際大学情報センター（図書館）さんの感想

フォロー

2021年8月31日

https://act-02.kobe-kiu.ac.jp/opac/volume/376034

0

詳細をみる
コメント0件をすべて表示
akiuwaさんの感想

フォロー

2021年5月21日

[墨田区図書館]

Pythonを検索していて見つけた本。
「2年生」となっているので、シリーズの1年生を読んでからの方がいいが、プログラムの基礎を理解していて、Pythonを実行する環境が整っていて、書式の理解、外部ライブラリをインストールして、モジュールを使う知識があればこの本からでも大丈夫。

スクレイピングという言葉自体は耳にしていたものの、全くその手の知識を持っていなかったので、最初の「robots.txt」から知らなかった世界。こういう本を小学生から読む子もいるなら、これからの社会、どんどん知識格差が拡がっていくんだろうなーと子供の将来を案じてしまった。

あと、下記に概要をまとめていて思ったこと。
巻末には用語索引はあるけれど単に50音順で意味的な索引はないので、本書でインストールしたライブラリ/モジュール一覧とか、紹介したサイト一覧とか、そういうのもあると、本書を読むための索引としてではなく、本書を用いて学習(覚えよう)とする子供たちへの手引きにもなるんじゃないかな。

■1章Pythonでデータをダウンロード(requests)
サイトアクセスする際には、クローリング禁止のところは避け、著作権を守りつつ、アクセス過多で業務妨害しないこと。
サイトのルートディレクトリにある「robots.txt」ファイルに「サイト全体をクローリングしないように(User-agent: * ↲ Disallow: / )」とあったり、HTML内にある「robots metaタグ」に「このページ内のリンクを辿らないように(<meta name="robots" content="nofollow">)」とあれば、クローリングはしないこと。

■2章 HTMLの解析(BeautifulSoup)
soup.findを用い、属性内をタグ検出する。

■3章表データの読み書き(pandas, matplotlib, openpyxl)
表データを読み込んで、データの追加、削除、抽出、集計、書き出しなどを行う。
「1年生」でも用いたmatplotlibでグラフ表示
DataFrame=pandas.read_csv("ファイル名.csv", header=None, encoding="shift_jis")
DataFrame=pandas.read_excel("ファイル名.xlsx", sheet_name="シート名")
DataFrame.sort_values("列名", ascending=False)
DataFrame.to_excel("ファイル名.xlsx", index=False, sheet_name="シート名")

with open("読み込みファイル名", mode="w") as f:
f.write(出力ファイル名)

■4章オープンデータの分析(folium)
著作者の情報を明記するだけで無料で自由に利用できる「CC BY」などのCCライセンスで公開されているオープンデータ情報(csv形式、XML形式、Excel形式、PDF形式など)をDLなどで入手し、あとは3章でやったようにデータを抽出・活用する。

■5章 Web APIでデータ収集()
Web上の他のコンピュータの機能を、HTTPを使って利用できるしくみである"Web API"を活用する。具体的には各種サーバ(Google, Amazon, 楽天など)にHTTPでリクエストを送ると、種々のデータ情報(JSON, XML, HTML, 画像ファイルなど)を得られる。その仕様はサーバーごとに異なり、公開されているので確認して使う。多くは無料アカウントを作成し、APIキーを取得することで利用できる。
Url="http://～{文字列1}～{文字列2}～"
Url=Url.format(文字列1="置き換え文字列1", 文字列2="置き換え文字列2")

with open("読み込みファイル名", mode="r") as f:
jsondata=json.loads(f.read())

jsondata=requests.get(url).json()

■Python公式DLサイト：
https://www.python.org/downloads/
■Python公式の外部ライブラリサイト(Pypl/パイピーアイ)：
https://pypi.org/

■テスト用サンプルページ：
https://www.ymori.com/books/python2nen/test1.html
https://www.ymori.com/books/python2nen/test2.html

■本書の紹介記事：
https://codezine.jp/article/detail/12230
■翔泳社のサイト
https://www.shoeisha.co.jp/book/detail/9784798164960

0

詳細をみる
コメント0件をすべて表示
sou (08thse)さんの感想

フォロー

2020年7月18日

単純なスクレイピングから、WebAPIやJSONデータの扱い、グラフ化についても説明されています。

入門書としてはすごくわかりやすい本かなと思いました。
とにかくサンプルを動かす形なので、そういう人向けです。

0

詳細をみる
コメント0件をすべて表示
ex-marubookさんの感想

フォロー

2020年4月6日

スクレイピングの手順を丁寧な解説で進めることが出来る良書。一度、ほかの書籍でスクレイピング関係を一通りやったことがあったが、随分前ということもあり、感覚自体も思い出しながら最後まで実施できた。後は、更に応用出来る部分を試行錯誤しながら、独自のスクレイピングなども行うときに、復習にもなり得る１冊。

0

詳細をみる
コメント0件をすべて表示
きらあさんの感想

フォロー

2020年2月2日

とにかく、pythonでこんなことまでできるのか、何でもできるやんと思わせられる本。これ一冊読み込めば初歩的なテクニックは身につく、というわけではないと思うが、pythonの世界の広さを教えてくれて、今後のモチベーションにつながる本だった。勉強がんばろう。

0

詳細をみる
コメント0件をすべて表示

全12件中 1 - 10件を表示

著者プロフィール

●森巧尚(もりよしなお)
パソコンが登場した『マイコンBASICマガジン』（電波新聞社）の時代からゲームを作り続けて、現在はコンテンツ制作や執筆活動を行い、関西学院大学、関西学院高等部、成安造形大学、大阪芸術大学で非常勤講師、プログラミングスクールコプリの講師などを行っている。
著書に『ゲーム作りで楽しく学ぶ Pythonのきほん』『楽しく学ぶ Unity2D超入門講座』『楽しく学ぶ Unity3D超入門講座』『作って学ぶ iPhoneアプリの教科書～人工知能アプリを作ってみよう！～』（以上、マイナビ出版）、『Python1年生第2版』『Python2年生スクレイピングのしくみ』『Python2年生データ分析のしくみ』『Python3年生機械学習のしくみ』『Python自動化簡単レシピ』『Java1年生』『動かして学ぶ！Vue.js開発入門』（以上、翔泳社）、『そろそろ常識？マンガでわかる「正規表現」』（シーアンドアール研究所）、『なるほど！プログラミング動かしながら学ぶ、コンピュータの仕組みとプログラミングの基本』（SBクリエイティブ）などがある。

「2022年『アルゴリズムとプログラミングの図鑑【第２版】』で使われていた紹介文から引用しています。」