戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニック

  • 149人登録
  • 3.77評価
    • (4)
    • (4)
    • (3)
    • (2)
    • (0)
  • 7レビュー
制作 : 竹田 正和(監訳)  古畠 敦  瀬戸山 雅人  大木 嘉人  藤野 賢祐  宗定 洋平  西谷 雅史  砂子 一徳  市川 正和  佐藤 正士 
  • オライリージャパン (2014年7月19日発売)
  • Amazon.co.jp ・本 (456ページ)
  • / ISBN・EAN: 9784873116853

この本を読んでいる人は、こんな本も本棚に登録しています。

有効な左矢印 無効な左矢印
クリス・アンダー...
ベン・ホロウィッ...
ジェームス W....
有効な右矢印 無効な右矢印

戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニックの感想・レビュー・書評

並び替え:

表示形式:

表示件数:

  • やっぱり、訳本より原著の方が読みやすいな。
    長ったらしい感じでわかりにくい。読み物ではなく、必要に応じて参考にする使い方が良いと思う。

    ということで、一部さらっと読んで、挫折。

  • この本には、巨大なデータマイニングジョブをHadoopクラスタ上で稼働させる最良の方法についての説明はありませんし、Hadoopが何かという説明や、Hadoopについて学ぶ必要性についての説明もありません。この本ではデータサイエンスの一般原則に焦点を当てます。10年経過すれば、現在流行の技術は移り変わっているか、現在の議論が時代遅れになるくらい進化しているでしょう。一方、基本原則は20年経過しても同じままであり、数十年経過してもあまり変わりません。

  • こういう本のタイトルにある「戦略的」はほぼ何も表していない。原題は"Data Science for Business"で、ビジネスへの適用を考慮に入れながら、データサイエンスの各手法を概観したもの。数式が満載というわけではない。しかしアルゴリズムの内容や、オーバーフィッティングを筆頭とする問題への対処法に踏み込んでいくため、読む上でデータサイエンスの素養は必要だ。ある程度学んだ人が全体の俯瞰や、適用にあたって注意すべき点を把握する本だろう。

    ビジネスへの適用における配慮としては、例えば本書には決定木など木構造のモデルが多く登場する。木構造のモデルは確かに表せることが少ない。しかし何よりも理解しやすいためにビジネス上は有益だ(p.87)。様々なモデルの中から適切なものを選択する際には、二乗平均誤差とかAICとかROCとかが使われる。どういう指標を用いるかも、何を最終目標にしているかに依存する(p.309)。「しかし、適切な指標を選ぶことについて、分析担当者があまり注意を払わないことはよくあること」(p.211)だ。例えばモデルの評価に期待値を使うとすれば、確率と掛け合わせる値の推定にはビジネスの理解が必要なことは明らかだろう(p.214-221)。ビジネス上、入手できないデータや取り得ない選択肢もある。重要なのは複雑なモデルの構築ではなく、そうした制約や仮定の発見だ(p.321)。

    データ分析の手法に対する個々の話はしっかり書いてある。クラスタリングやSVM、ランダムフォレスト、ベイジアンモデルなど主要なものは概観されている(ニューラルネット系はない)。データサイエンスにおける前処理の重要性(p.275-295)や、単純ベイズのメリット(オンライン学習の容易さ)とデメリット(確率が相対的比較でしかない)といった点(p.267)、Netflixのコンテストから読み解かれる、分散の大きいデータに対するアンサンブル手法の有効性(p.342)といった論点が面白い。

    「データはデータ収集システムを設計した人物の信念や目的、偏り、そして実用面での制約を含んでいる」(p.379)としてクワインの観測の理論負荷性テーゼが参照されている。ちょっと面白い。ただ、中で「経験主義と解析主義の二元論」とされている解析主義とは何だか不明。empiricismと対比される解析主義の原語はapriorismかな。

    多くの訳者で訳されている本なので、たまに語調の統一性に欠けている。「である」調と「だ」調が混ざっている箇所もある。改善してほしいと思ったのは、文中で参照される論文で「参考文献」に載っていないものがあること。

  • 推薦者 情報システム工学科 前田 康成 先生

    *図書館の所蔵状況はこちらから確認できます*
    http://opac.lib.kitami-it.ac.jp/webopac/catdbl.do?pkey=BB50104023&initFlg=_RESULT_SET_NOTBIB

  • 以下、気になったところ


    ・データサイエンスを知らなければ、有用な意見を吸い上げられない。もしくは、有用な手法をそもそも思い浮かばない。これに限らず、勉強一般に言えることだが。

    ・もしデータサイエンスがとても有用なものであるとすれば、ここに極限まで投資している競合には勝てない。これも、一般論だが。じゃあどれくらい投資すれば良いんだよって、凄い難しい課題だが。。。

    ・統計×ビジネスは相性が悪い(これまでは)。なぜならば、1データが集まらない2データを計算する手法がないからだ。だが2はだいぶ改善された。コンピュータの発達で、手計算はなくなった。よって、1さえやれば良い発見が出てくるかもしれない。ここではメインは2の方法を説明しつつ、1の必要性も書いてる。データさえあれば、Rのコマンド一発で見込みが予想できるわけだ。

    ・ビジネスも統計もちょっとだけわかる。そんな自分が、これまで習ったりした学術的な統計のどの方法が、ビジネスに使えるのか、そのマッチングができたのが大きかった。回帰、推定、期待値、類似、共起、クラスタリング、検定(=リフト)などである。


    ・例えば、ベイズ推定とかは参考になった。あるセミナーをやったとして、セミナーに来て、しかも受注する確率、まで、過去データから推定できる。データの総数にもよるけど。この確率の正しさ、まで出せる。だから、データを集めよう記録していこう、という話なのだが。。。実営業部隊より、プロモーション部隊が気にするべき内容ではある。期待値も出せる。

    ・クラウドだったら、バスケット分析とか、顧客利用用途or顧客業種×使われるサービスも出せるかもしれない。ECとWAFは一般よりも1.5倍とかさ。だったら、ECにはWAFを勧めるべき、となる。ISPやクラウドにはネタがたくさんありそうだな。ISPでは当然のジャンルなのだろうけれども。クラウドにも展開できそうだなあ。

    ・ネットフリックスのレコメデーションモデルを作るための社内コンテストとかすげーーーアイデアだな!データサイエンスを促進させる企業文化を作る試みだからだ。確かにこれを用意しておけば、従業員は最強のモデルを作り出す。凄いのは、その最強のモデルに価値があるはずだと見抜いており、しかも、最強のモデルが出てきそうな仕組みにまで落とし込んだ上層部である。

    ・オーバーフィットという概念は初めて知った。勉強になった。

    ・有益な属性(=影響の大きい変数)を洗い出す手法は初めて知った。勉強になった。

    ・じゃあ、競争優位を導くために何のデータを集めるか、がとても重要だ。で、これには、データサイエンスの専門家がいないと、そもそも設計できんのだ。独自のデータであり、しかも、ビジネスモデルにマッチしている必要がある。

    ・わかった。俺、ここをやりたい(学業でもやってきた)から、マーケ部のプロモーション部隊に行きたいんだわ

    ・例えば、俺が知りたいのは、あるIDにおける、売上上昇の曲線。ID取得後、最大になるのはいつなのか。逆に言うと、傾きが最小もしくはマイナスになるのは、いつなのか。これがわかれば、あと1ヶ月後に最大にするために必要なことが絞れるはず。少なくも、案件を取るとか作るじゃないよね、という共通の見解は生まれるはず。もしかしたら、出来る事は無いのかもしれない。その場合、無駄な打ち合わせがなくなる。

    ・そして、みんなが使える低コストな元データとして、オープンデータ、があるんだぜ!

    ・今後、IOTのデータ、も来るんだぜ!

    ・でも、今後はセキュリティ周りの課題があるよ!


    ・ちなみに、モデル作りのデータ集めには、クラウドソーシングがぴったりだよ

    ・13章もBIGRED社の事例とかヤバい。指摘のレベル高すぎる。IPAの試験でこれがでたらまあ解けない。

全7件中 1 - 7件を表示

戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニックを本棚に登録しているひと

戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニックを本棚に「いま読んでる」で登録しているひと

戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニックを本棚に「積読」で登録しているひと

戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニックの作品紹介

ビッグデータ時代とも言われる昨今においては、データ収集を行ってビジネスの全体像を把握し、適切なデータ分析を行って正確な予測をした上でビジネス戦略を決めることが求められています。本書は、データをビジネスに活かすために身に付けておくべき基本的な考え方と、データマイニングやモデリングの根底に存在するコンセプトについて、体系的に解説しています。データサイエンスの重要性とその威力を学べる一冊です。

戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニックはこんな本です

ツイートする