データサイエンティスト養成読本 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus)
- 技術評論社 (2013年8月8日発売)
- Amazon.co.jp ・本 (152ページ)
- / ISBN・EAN: 9784774158969
感想・レビュー・書評
-
ロジスティック回帰をpythonで描くあたりはよかったですね
詳細をみるコメント0件をすべて表示 -
読んでいる
-
良くも悪くも広く浅くデータサイエンスについての雰囲気を味わえる本。バランスはいいと思うので、表面的な知識を得るためには最適な一冊だと思う。一方で、この一冊だけでRやPythonなどでデータ分析する方法を学ぼうとすると生煮えになってしまうため、実行せず眺める程度に止めておくほうが無難かと思われる。
-
データサイエンスの入門として、データサイエンスをとりまく様々な話題を扱ったもの。データサイエンティストに必要とされるスキル面の藩士から、Rやpythonでのいくつかのアルゴリズムの実際の記述、マーケティングなどの応用例、Flutend、SQL、Webスクレイピングと話題が多岐に渡っている。
ちょっといろんな話題を詰め込みすぎて焦点がぼやけているような印象を受ける。レベル感もあまり統一されたものではない。最初に読んでそれぞれの事項がどんなものかをざっと掴む。個々の記述はレベルの高いものもあるので、いわば雑誌のように考えて後で記事に戻ってきたほうがよいだろう。 -
データ活用の流れ、必要なスキルセット、代表的なデータ分析手法などがまとめられています。タイトル通りに「身につく」かどうかはわかりませんが、概要を知るにはよい雑誌だと思います。熟読するほど深みはありませんが、手元に置いておきたい一冊です。
-
1.センサー技術
2.Rというオープンソース
機械学習、RFM分析(マーケティング)
ーー
機械学習には
教師あり学習と教師なし学習があり、教師あり学習はランダムフォレストとSVMがある。
ーーーーーデータサイエンティストのリテラシー
MySQL:構造化データ
MongoDB:非構造化データ
WEBスクレイピング用にWEBスクレイピング関数を創ればよい。本書に掲載されている。
seekRにいろいろなプログラムが掲載されている。
カテゴリカル変数・連続値変数
棄却率は5パーセント
対立仮説と帰無仮説の相対する2つの仮説を立てる。
t検定(対応あり/対応無し)及び分布状況によらないU検定がある。
ratioの検定を行うカイ二乗検定。
はずれ値の検定を行うスミルノフ・グラブス検定もある。
ーーーーーー
●散布図行列ってなんだ?(不明)
●機械学習がよくわからん。
ーーーーー
●データマイニングで必要な10個のスキル
①C4.5
C5.0はRに実装されている。
②k-meansアルゴリズム
クラスタリングで最も優れた手法。
・データにクラスタうぃ割り振る、
・平均値を計算
上記2つを収束するまで計算。GAP統計量というクラスタ数を推測する関数をRでは出ている。
③サポートベクタマシン(SVM)
機械学習の分野で最も優れた手法。手入力推測等で使用。
④アプリオリアルゴリズム
大量のトランザクションからつながりを見つける。
⑤EMアルゴリズム
別名:期待値最大化法。Rでは尤度比検定関数として用意されている。
E:予想/M:最大化で収束するまで繰り返す。
⑥ページランク
⑦アダブースト
ブースティング手法の一つ。
いくつかの学習器を組み合わせて強力な予測性能が得られる。
Rでは勾配ブースティングモデル(GBM)関数として実装。
⑧k-近傍分類
まる暗記型分類器。
⑨ナイーブベイズ
クラスを予測するための手法。
統計、データマイニング、機械学習、パターン認識の分野で改良中。
Rではlearn関数で実装。
⑩CART
クラス、連続値、生存時間等の予測。
ーーーーマーケティングサイエンス
広告は3つに大別
①情報提供型
②説得型
③リマインダー型
※知覚マップの作り方がわからん
GrossRatingPoint
コンバージョン率の関連性の決定:カイ二乗検定
ー
多変量テスト(実験計画法/コンジョイント分析)???
アパッチmahoutは機械学集のオープン。
ーーー
有向ネットワークと無向ネットワーク
エッジリストと隣接表列からネットワーク解析が始まる。
行列の知識が必要。
人間関係には密度がある。それをクラスター係数で表現する。
ホモフィリー:類は友を呼ぶの意味。
AUC(ROC曲線下面積):分析結果の当てはまりの分析。
Fluentdはログ解析の基。Runyで実装。グラフを実装している。(watcherで再構成可能)
ーーーーーーーーーーーーー
WEBスクレイピング
robots.txt:クローラに対する負荷の宣言ファイル
Python、Perl、Ruby等のを使う。 -
データサイエンティストに必要なキーワードや概念を
1冊に凝縮したような本になっている。
まずは、データサイエンスに必要なスキルが書かれており、
そのあとで R や Python を使ったりしての
データ処理方法などが示されている。
(このあたりは、R の文法を知っていると理解が
深まると思う。)
さらに、 mixi などでどのように大量のデータから
有益な情報を抽出しているか、なども記されている。
それぞれの内容がトピック的になっているので、
きちんと理解するにはそれぞれの内容について
調べなおす必要があるが、キーワードなどを
ざっと知っておく、という点ではとても有益だと思う。 -
以下4章について印象に残った。
概念
・Rで統計解析をはじめよう
・データマイニングに必要な10のアルゴリズム
技術
・Fluentd入門
戦略
・データサイエンティストリテラシー
特にデータサイエンティストリテラシーのJリーグの選手の年俸から紐解くチーム力強化戦略が興味深かった。これまで分析手法を学ぶことはあったがその実践的な使い方を学ぶことはなかった。しかしながら本性においてはどのように分析して、その分析結果をどのように今後に活かすかが具体的に提示されていたので理解しやすかった。データサイエンスの入門書(教科書)的な存在だと思うので、必要に応じて繰り返し読みたい。 -
読み終えた.
読書感想文は,こちらのブログ
http://isseium.hateblo.jp/entry/2013/08/18/232140