- Amazon.co.jp ・本 (320ページ)
- / ISBN・EAN: 9784478022214
感想・レビュー・書評
-
ビックデータはIT業界のエサであり、安易に食いつくなという指摘はなるほどなと。統計が万能ではなく、限界もあり、時には事実誤認する事もあるというのはわかったが、統計学を学んだ事がない自分にとっては後半の内容は結構細かく、専門的で、ホンキで勉強する気もない一般人がここまで理解する必要があるのか?すべきなのか?というのがよくわからない。
詳細をみるコメント0件をすべて表示 -
[読んだ理由]==================
日経の日曜日の本紹介の欄にあったのを見かけた。紹介文で引用のあった「これからの10年で最もセクシーな職業は統計家だろう」というフレーズに惹かれた。それだけこの学問に惚れ込んでる人の言い分を聞いてみたい、と。(このフレーズ自体は著書ではなくGoogleの何方かのものなんだけど)
[読んだ後の感想]==============
統計学が如何に強力か(⇒理屈抜きに因果関係が説明できる)から、統計学の肝(サンプリングと誤差、因果関係)の説明も分かりやすい記述で良かった。でもそれ以上に、統計学は複雑そうだけど基本は共通している点、社会調査法や心理統計学、データマイニングなどとの共通性など、学問の視野を広げてくれる説明が面白かった。全体を通して簡潔な書き方。例も身近で分かりやすいもので、読みやすかった。実際に統計学の手法を用いることがなくても、教養として知っておいた方が良い内容ばかりだったと思う。
[読書録]======================
■第一章:なぜ統計学が最強の学問なのか
原因不明の疫病を防止するための学問を「疫学」と呼ぶ。
本の50年ほど前までは、医者や科学者の中でも、タバコが健康に悪いことなのかどうか様々な説があり侃々諤々の議論が重ねられてきた。だが「がんを減らしたければとりあえず喫煙率を下げろ。以上!」といった疫学研究のシンプルな答えが侃々諤々の議論をぶっ飛ばしたことで、医学研究と健康政策の方針は変わり、50年前よりも我々の寿命は随分と伸びた。
早期教育については、4700名の3歳から4歳までの子供に読み書きと算数の早期教育を行った結果、たしかに3歳あるいは4歳の時点では、同年代の他の子供と比べて読み書きや算数の成績が明確に高かったものの、小学1年生になった頃に追跡調査を行なってみると両者の差は消失してしまった、という統計解析の結果が得られている。
Microsoft JobBlogの記事にある、テクノロジー分野で今後最もアツい3つの専門性:
・データマイニング、機会学習、人工知能、自然言語処理
・ビジネスインテリジェンス、競合分析
・分析、統計。特にウェブ分析、A/Bテスト、統計解析
■第二章:サンプリングが情報コストを激減させる
もちろん全数調査よりサンプリング調査のほうが精度が低いことは間違いない。だが問題となるのは、それによってどの程度精度が低下するのか、そしてその精度が低下した結果、実際に下すべき判断や取るべき行動にどのような影響があるのかということである。逆に言えば、判断や行動に影響しないレベルの精度は無意味で、そのためにかけなければいけないコストは無駄だ。
標準誤差:サンプルから得られた割合(例えば失業率)に対して、標準誤差の2倍を引いた値から標準誤差の2倍を足した値までの範囲に真の値が含まれている信頼性が95%、という値。
■第三章:誤差と因果関係が統計学のキモである
統計解析は3つの問いの全てに答えなければならない:
・問1:何かの要因が変化すれば利益は向上するのか?
・問2:そうした変化を起こすような行動は実際に可能なのか?
・問3:変化を起こす行動が可能だとしてそのコストは利益を上回るのか
実際のデータを使い、網羅的な比較を行うことで「何となくわかっていたこと」が具体的な利益につながる数字とともに裏付けられ、「今一番何をすべきだろうか」という戦略目標が明らかになる。
一時点のデータから因果関係の向きがわからないというのは、実はこの比較している集団が同じ条件ではない、つまり「フェアではない」というところに由来している。例えば暴力的なゲームと少年犯罪の関連性を見たいのであれば、「他の条件は全く同じだが、暴力的なゲームのプレーの有無だけが異なっている」という集団同士を比べれば理想的な比較だろう。だが実際には、ただアンケート調査を行っただけでは、この「他の条件」がしばしば大きく異なる。親の性格や考え方などを含む家庭環境も異なるかもしれないし、子供の元々の心理的傾向なども異なるかもしれないのだ。
■第四章:「ランダム化」という最強の武器
もしあなたかこれから失敗の許されない判断をするのであれば、何らかの形で適切なランダム化比較実験ができないだろうか、という可能性を検討してみてほしい。
社内のありとあらゆる「正解のない意思決定」について、正解がないのであればとりあえずランダムに決めてしまう、という選択肢の価値はもっと認められるべきだろう。ただ決定をランダムにすることと継続的にデータを採取することさえ心がければ、後で正確に「それが良かったのか」「どれくらいの利益につながったのか」が評価できるのだから、少なくともそちらのほうがより確実に「正しい判断」へと近づく道になることもある。
■第五章:ランダム化ができなかったらどうするか?
ランダム化比較実験が難しい状況なのであれば、比較的低予算でスピーディーにデータが収集できる疫学的手法を用いることが現実的には有用であるという場面は、我々の社会に数多くあるのだろう。
統計学の教科書は一般化線形モデルの扱いで2種類に分けられる。
回帰分析はそれ自体有用なツールでもあるが、そこから多くの統計学的手法穂「広義の回帰分析」として統一的に理解すれば、さらにその応用範囲は広がるだろう。
「色々手法はあるけど結局回帰分析みたいなことをしてるって言う点で、一般化して整理できるよね?」というのが、一般化線形モデルの意図する所。
・比較したいもの(結果変数)別:
・あり/なし等の2値:
・グループ間の比較:集計表の記述をカイ二乗検定
・連続値の多寡/複数要因で同時に比較:ロジスティック回帰
・連続値:
・グループ間の比較:
・2グループ間の比較:平均値の違いをt検定
・多グループ間の比較:平均値の違いを分散分析
・連続値の多寡で比較:回帰分析
・複数要因で同じ比較:重回帰分析
シンプソンのパラドックス:「フェアな比較」ができないことによってデータからの判断を誤りうる例の1つ。
■第六章:統計形の仁義なき戦い
因子分析:お互いに相関している複数の値から、それら全てとよく相関する新しい合成変数を生み出す
心理統計家は「心」や「精神」といった目に見えない抽象的なものを測定することを目指す。そのために自分の測定したい「抽象的な概念」が何なのかを定義する。例えば「仕事のやりがい」を「自分の仕事について社会に対する貢献や正当な社会評価がなされているという実感」と定義すれば、それと関連しそうな質問をいくつも考えられるだろう。
「おむつとビール」でバスケット分析
バスケット分析よりカイ二乗検定を:バスケット分析では改善度や支持度を見ながらあれやこれやと検討しなければいけなかったが、カイ二乗値を使ったものであれば誤差に騙されることなく自動的に関連性の強い商品の組み合わせを探すことができる。Amazonの商品レコメンドでもこうした相関分析が行われている。
予測それ自体がゴールなのであればデータマイニングは有効である。しかし元の説明変数と結果変数との関連性を簡単に把握するためには、単純なロジスティック回帰のほうが有効。
疫学者にとってはタバコががんのリスクになっているということが分かればよいのだが、「ではこのリスクの推定が正しいとした場合に、日本全体でどれだけの損失なのか」という演算を行うのは計量経済学者の仕事。
ベイズと頻度論のどちらが正しくてどちらが間違い、というものではない。限られた情報と過程を組み合わせる「効率の良さ」が求められるのならベイズを使えばいいし、「可能な限り間違う可能性を減らしたい」とか「十分なデータを利用できる」のであれば頻度論的にp値を求めたほうがいいだろう。
■終章:巨人の肩に立つ方法
アイザック・ニュートン:「私が遠くを見ることができているのだとすれば、それは巨人の肩に立っていたからなんです」
先人たちの積み重ねた知恵をきちんと学び、その上に立脚することが出来れば自分だけの頭を絞るよりもはるかに先を見通せるはずである。 -
いま話題の本を読了。実に面白かった。統計学を一通り勉強した人であれば、本書に出てくる統計的テクニックは常識の部類に入るだろう。それにも関わらず新鮮な感覚で読めるのは、通常のテキストでは触れることの少ない「統計学史」的な要素を織りまぜて説明したところではなかろうか。統計学のツールがそもそもどのような経緯で開発されたのか知ることで、1つ1つの意味がよく理解できた。最後の数章あたりは、やや難解に思えたが、それ以外のところは気軽に読めるので、数学嫌いの人にも大いに薦めたい。
-
「統計リテラシーがないことは現代を生きる我々にとって思いのほかヤバい状態なのだ。」
基本的に言いたいこと(タイトルは)全面的に賛成。だが、本としてのレベルは著しく低い。
第一章と終わりに、だけで主旨は十分だし、間の話は各論にしては中途半端だし、事例を紹介してるわりに主観が入り過ぎてて、客観性のない説得力にかけるストーリー。。
読者をバカにしながらあんたわかる?オレ頭イイっしょ的な視点でわかりやすさを装う書きぶりしてるわりに、話の結論ないし、これを読んで、統計学が必要っぽいのはわかっても、統計学とはなんぞやはわからない。
「終わりに」で書いているようなメッセージが、きちんと伝わる本であったら違う印象だったと思います。
筆者が購入者が目にしやすいタイトル、最初と最後だけに響くメッセージを残して、売上部数を伸ばしたいと考えてたなら、さすがの統計リテラシーですな。。 -
「全力を尽くす」と「最善を尽くす」、どちらが正しいだろうか?
もし、先人の試行錯誤の結果をもとに、考えられる「最善」があるなら、それを利用しないで「頑張った」というのは偽善ではないだろうか?
世の中には統計学によって、今考えられる「最善」の手があり、ちゃんと調べればそれを知ることもできる。
にもかかわらず、経験者の勘、専門家の意見を鵜呑みにして、自分で調べることを怠るのは、人として責任を果たしていない。多くの人に影響を与える大切な決断をするのであれば、「最善」を尽くすべきである。
そのような筆者の想いが随所に込められており、あとがきを読んでその背景もはっきり分かった。
ただ、この本を読んでも、統計学が理解できるわけではないし、統計的思考が身につくわけでもない。「これだけ分かっておけばよい」と、概略を説明してくれているものの、勉強した人にとっては良いまとめかもしれないが、基本知識がない私には飲み屋の会話にも使えない。
統計学の必要性については良く伝わった。後は巻末の参考図書を各自勉強しなさい、ということだろう。 -
とても刺激的でわかりやすくて勉強になった良著でした。
ビジネスにおいて重要な「データに基いて考える」ためには統計リテラシーが必要である。
おそらくビジネスの世界には絶対的な真理というものはなくて、演繹法的な考え方だけではすべてを説明できない。だからこそ統計学を使って帰納法的に説明することが重要なんだと思う。
今注目されているビッグデータは確かに素晴らしい技術革新の賜物で、それで得られるものは大きい。
だが実際、それほどすべての人にとってビッグデータ分析というのは必要にはならない。
一定のサンプル数を超えると、それ以上集めても標準誤差はあまり変わらなくなる。つまりスモールデータ(サンプル)を統計的に分析するだけで、ビッグデータ(全数)を分析するのと大きく変わらない結果が得られることは十分あるという。
大金を投じてまで、その小さな誤差を埋める必要があなたの会社にあるのか?ということ。
——
p37
データをビッグなまま解析することが、どれだけの価値を生むのかどうか、果たして投資するコストに見合うだけのベネフィットが得られるのか
p47
適切なサンプリングさえすれば、必要な情報を得るためのコストが激減する
にも関わらず、ビッグデータに関心のあるビジネスマンは、しばしばビッグデータをビッグなままで扱うことにしか目が行かないのだ
p51
(標準誤差とは)サンプルから得られた割合に対して標準誤差の2倍を引いた値から標準誤差の2倍を足した値までの範囲に真の値が含まれる信頼性が約95%、という値である。
p54
「まず正しい判断に必要な最小十分のデータを扱うこと」
p59
データをビジネスに使うための「3つの問い」
【問1 】何かの要因が変化すれば利益は向上するのか?
【問2】 そうした変化を起こすような行動は実際に可能なのか?
【問3】 変化を起こす行動が可能だとしてそのコストは利益を上回るのか?
p83
「意味のある偏り」なのか誤差なのかを確かめる解析手法に「カイ二乗検定」というものがある。
p84
誤差や偶然によってたまたまデータのような差が生じる確率のことをp値という。
このp値が小さければ(慣例的には5%以下)、それに基いて科学者たちは「この結果は偶然得られたとは考えにくい」と判断する
p100
ランダム化
p115
ランダムにすることで推定結果の誤差が制御できる
p116
ランダム化してしまえば、比較したい両グループの諸条件が平均的にはほぼ揃う
p154
データ間の関係性を記述する、あるいは一方のデータから他方のデータを予測する数式を推定するのが回帰分析という考え方
p156
我々が最も学ぶべきは、バラつきを持つ現象に対する理論的な予測がそれほどうまくいかないという点である
p164
(フィッシャーは)
「無制限にデータを得ればわかるはずの真に知りたい値」を真値と呼び、たまたま得られたデータから計算された統計量がどの程度の誤差で真値を推定しているかを数学的に整理することで、無限にデータを集めることなく適切な判断が下せるという考え方を示した。
単に一番もっともらしい値を推定するだけでなく、それが真値に対してどの程度の誤差を持っているかを考えれば、少なくとも間違った判断を犯すリスクは減らすことができる。
p166
回帰係数の推定値:真値を推定した結果
標準誤差:推定値の誤差の大きさ
95%信頼区間:p値が5%以下になる推定値の範囲
p値:5%を上回ると誤差と範囲される(低いほど正確)
p170
一般化線形モデルをまとめた1枚の表 -
この本を、これまで全く数学的な考えをしてない人が読んで果たして面白いと思えるのか?と疑問になったけど、統計学を学ぶモチベーションを挙げる効果はあるかと。エビデンスの集め方は為になった
-
こういった本は初めて。人気がありそうだったので読んでみた。
実際、ビッグデータが何たらっていう流れが来ているので、
こういった数字をどう扱い、ビジネスに結び付けていくかをしるきっかけにはなった。ただ、中盤の議論は専門的であまり理解できていない。もう二冊ぐらいこういった本を読めば、理解がきちんとできるの気がする。
メモ
ランダム化比較実験は一見成功しそうで、しかし結果が見えないものについて行い、倫理、感情、リスクが大きすぎる現実というフィルターを通すことも重要。
終わりの、聖書に書かれた、「過ちは人間の常、許すは神の技」というのは、考え深かった。
j-stage, google scholar