ビッグデータを活かすデータサイエンス -クロス集計から機械学習までのビジネス活用事例-
- 東京図書 (2014年11月10日発売)
- Amazon.co.jp ・本 (224ページ)
- / ISBN・EAN: 9784489022012
感想・レビュー・書評
-
統計の基本的な部分の解説。わかりやすい、ような気がするがわかったかどうかは自信がない。
詳細をみるコメント0件をすべて表示 -
データ分析の事例集。
手順も含めて分かりやすいようにまとめてくれていますが、
やったことがない人にはチンプンカンプンになってしまう。
まあ、しょうがないですね。
クロス集計部分は理解しておきたかったので、
そこは勉強になったかな。
【勉強になったこと】
・データサイエンティストの必要条件
ビジネスに関する経験・知識
統計手法に関する経験・知識
データ処理に関するコーディング経験・知識
・「現象」が共有でき、「あるべき姿」が共有されたとき、
はじめてデータ分析を行う土台ができたことになり、
データ分析のスタートが切れたといえる。
・データ収集のときに検討すること
問題を検証するために、どんなデータが必要なのか?
必要なデータは、分析者が使えるところに保存されているか?
必要なデータは、分析者が申請すれば使えるようになるのか?
必要なデータが保存されていない場合、新たに取得できるか?
必要なデータが取得出来ないとき、代用出来る他のデータはあるか?
・データ分析の目的は、「意思決定支援」「自動化・最適化」の2つ。
・数字の4タイプ
離散値:名義尺度、順序尺度
連続値:間隔尺度、比例尺度
・順序尺度は5段階以上ある場合、連続値とみなして
データ処理を行っても、おおむね違和感のない結果が得られる。
・ビジネスのデータは、「べき乗分布」になることが多い。
人の心理が関わるものが、その傾向にある。
・ほとんどの値がゼロになっている変数を含むと、
k-means法は上手く動かない。
そのため、事前に除去する必要がある。