- Amazon.co.jp ・本 (272ページ)
- / ISBN・EAN: 9784798058757
作品紹介・あらすじ
これがリアルなデータ分析だ!
君は「汚いデータ」を処理できるか?
データ分析の現場にあって入門書にないもの――それは、「汚いデータ」(ダーティデータ)です。本書は、データ分析の現場では①どんなデータに出会い、②どのような問題が生じ、③どう対応すればよいのかというノウハウを解説。
事前の加工(視覚化)から機械学習、最適化問題まで、100本ノックをこなして、ビジネス現場で即戦力になれる「応用力」を身につけよう!
練習するライブラリ
・Pandas
・Numpy
・Matplotlib
・scikit-learn
・Networkxs
・pulp
・ortoolpy
・opencv
・dlib
・MeCab
感想・レビュー・書評
-
KaggleでEDAをやったことがある身としては,特に得られるものは無かった。断りもなくgroupby関数や正規表現を導入する点は不親切だとは思う。比較対象がないので保留してもいいのだが,全体的におすすめはしない。
詳細をみるコメント0件をすべて表示 -
下記のような点で、かなり良書だと思いました。
・様々なケースが題材としてある
・サンプルのデータ量がそれなりに豊富
・一歩一歩分析を進めていくイメージが付けやすい -
1~80までは数値解析が主。
81~90は画像と動画解析。
91~100は自然言語処理。
ロジスティクスのところは難解だったけど他はとりあえず内容は分かった。
多岐にわたっているので全てを完璧に理解するよりも必要になった時に読み返したい。 -
Python100本ノックというタイトル通り、Pythonの練習用コードを実際の現場に即した形で記述してくれている本
pandasでデータを読み込むところからスタートしてcsvファイルのデータ整形や
画像処理と言語処理、最適化問題まで取り扱っている
個人的にはコード自体も非常にわかりやすいのと
説明がある程度細かく書いてくれているので、勉強になりました。
サンプルコードもあるので、行き詰まったら参照しながら、進めていくと良いと思います。
100本やってみましたが、開発環境によっては、Python以外のことも勉強になるので、オススメです。 -
Kaggleスタートブックの次に読む
実践的なpandasの使い方の記載あり。
----
まだ20ページ程しか読んで無いが、pandasの有能さに驚いている。
エクセルまで読み込めるのかい。 -
CY20-1
下準備と分析の方法について、具体的な例を用いて説明してくれているので、非常にわかりやすい。
私レベルのエンジニアだと新しい手法を考えるというより、既存の方法を活用するというシーンの方が多いので、本書のような内容は非常に助かる。
本書のような形態でもう少し複雑な事例を取り扱ったものや、分析に特化したものが出てくれる事を期待。 -
幅広いデータ分析・活用を扱っている。実際にあるようなストーリー仕立てになって現場感を出している。
Pythonについての説明はないので学習スミの人向け。
3部の最適化問題はおもしろかった。
1章 ウェブからの注文数を分析する
データの読み込み。ユニオン、ジョイン、検算、可視化についての説明。丁寧な説明。
2章 小売店のデータでデータ加工を行う
名寄せ、表記ゆれなどのテクニックについて
3章 顧客の全体像を把握する
データを統計値などで俯瞰する方法
4章 顧客の行動を予測する
線形回帰モデル(教師ありモデル)で退会しそうなユーザーを予測する準備
5章 顧客の退会を予測する
4章で準備したデータで決定木モデルで退会しそうなユーザーを予測する。
6章 物流の最適化ルートをコンサルティングする
物流コストを最小にする輸送ルートを決定する。
輸送ルートの可視化にNexworkxを使用、最適化にはpulpとortoolpyを使用
8章 数値シミュレーションで消費者の行動を予測する
口コミを確率的シミュレーションで予測している。
9章 潜在顧客を把握するための画像認識
店の前の映像を使って時間帯ごとの通行人の数(=潜在顧客?)を自動的にカウントする。
10章 アンケート分析を行うための自然言語処理
MeCabをつかって日本語処理をおこないアンケートの類似度などを抽出する