前処理大全[データ分析のためのSQL/R/Python実践テクニック]
- 技術評論社 (2018年4月13日発売)
- Amazon.co.jp ・本 (336ページ)
- / ISBN・EAN: 9784774196473
感想・レビュー・書評
-
2018/04/11 初観測
詳細をみるコメント0件をすべて表示 -
知ってることも多かったけど、「実務ではこういうことがあるからこういう処理をしたほうがいい」的な実践的な話がちょいちょいあり、そういうところは役立った。
pythonの良い書き方とかも教えてくれているので役に立つ。 -
データなんて全部から引っ張ればいいんてね?と思ってた考えを改めたることができた。
どうしてダメなのかの理由とプログラムがあるのがとても良い。 -
機械学習の前に、データを「前処理」する。そこには確実にテクがある
-
請求記号 007.6/Mo 83
-
実用書である。
なにかと派手な話題が多いデータサイエンスの中で、地味だが大切な前処理を取り上げている。
しかもSQL,R,Pythonの主要なツールについて併記してあり大変助かった。
今までSQLについてまったく知らなかったがなかなか奥深い分野と思われる。
第1章 前処理とは
第2章 抽出
第3章 集約
SQLのWindow関数は大変役に立つ関数が多い
第4章 結合
JOIN句の説明がわかりやすかった
4-3過去データの結合、4-4全結合はとても役に立ちそう。
第5章 分割
第6章 生成
第7章 展開
長いこと縦持ち、横持ちのことがわからなかったがpythonのpivot_tableでわかるようになった
第8章 数値型
数値のカテゴリ化など使えそう
数値の補完にこんな手法があったのは知らなかった(多重代入法)
第9章 カテゴリ型
カテゴリ型は結構大切
第10章 日時型
SQLの実行にPostgreSQLを使っていたがこの章ではエラーがでてほとんど実行できなかった
データベースによっては方言が存在するのかな?
10-7 平日/休日への変換は役立ちそう
第11章 文字型
高度な内容だったので手がです
第12章 位置情報型
今回はデータとして緯度、経度が準備されていてそれを使うだけだったが
その位置情報そのものを集めてくるのが大変そう
まとめ
データはデータベースに置きSQLでデータを前さばきしながらPython/Rでデータ加工するのが
最強のセットかな?SQLのWindow関数をもっと知りたい。