統計学が最強の学問である

著者 :
  • ダイヤモンド社
3.53
  • (332)
  • (795)
  • (768)
  • (216)
  • (52)
本棚登録 : 9189
感想 : 897
本ページはアフィリエイトプログラムによる収益を得ています
  • Amazon.co.jp ・本 (320ページ)
  • / ISBN・EAN: 9784478022214

作品紹介・あらすじ

あえて断言しよう。あらゆる学問のなかで統計学が最強の学問であると。

どんな権威やロジックも吹き飛ばして正解を導き出す統計学の影響は、現代社会で強まる一方である。「ビッグデータ」などの言葉が流行ることもそうした状況の現れだが、はたしてどれだけの人が、その本当の魅力とパワフルさを知っているだろうか。本書では、最新の事例と研究結果をもとに、今までにない切り口から統計学の世界を案内する。

感想・レビュー・書評

並び替え
表示形式
表示件数
絞り込み
  • 【感想】
    統計学はコンピューターの発達とともにその真価を発揮したが、逆に、コンピューターの発達によって統計学が「理解不能なもの」に変わっていったフシはある。解析能力の増加は扱うデータ量を飛躍的に増やした。それに伴い、統計学はいつしかデータサイエンティストしか触らないような高度なものと化し、一般人が実用のために使うことは少なくなっているように思える。

    本書は、そうした複雑化する統計学を基礎から教えてくれる一冊だ。私も統計学についてはずぶの素人だが、「統計学が最強の学問である」というタイトルに賛同し、この本を手に取った。
    統計学は論理を超越する。その分野の専門家でさえも、複数人集まれば自説が全くの逆方向を向いているということは多々ある。統計学はそうした「本当に正しいかわからない理屈」を数字の力でねじ伏せる。医学研究が特にそうであるように、大切なのは専門家の独自意見ではなく「科学的根拠」であり、その根拠の大部分を占めるのは統計学的な実証研究なのである。
    筆者の西内氏はダイアモンドオンラインのインタビューにこう答えている。
    ――「絶対的に正しいこと」を扱うのならば論理学や数学に任せればよいが、そんなものは理論的な世界の中にしか存在しない。そして「少しでも絶対的ではないこと」について言及しようと思えば、現状、統計学以外に記述したり議論したりする方法が人類にはない。誤差を限りなく小さくできる物理学実験でさえその誤差は0ではなく、たとえば1kgという重さを全人類の技術の粋を尽くして厳密に定義した後、それでも残る50μgほどの誤差は結局のところ統計学的に記述されているのだ。
    ―――――――――――――――――――――――――――
    私たち文系一般人が学ぼうとする「統計学」と、データサイエンティストが仕事で使う「データ分析」には、物凄い距離がある。本書で言えば序盤の「サンプリング調査」あたりは素人でも直感的に理解できるレベルだ。「選挙の出口調査」など、実際に使われている場面や使われ方を想像するのもたやすい。一方で、後半の「重回帰分析」「データマイニング」となると、一気にハードルが上がる。実際に何をすればいいのか見当がつかないからだ。多くの人にとって、統計学を学んで基礎を理解しても、「で、これどこで使えばいいの?」という疑問を解消するには程遠い。

    ただ一つ確実に言えるのは、「0.1でも知っている」ことは大違いということだ。回帰分析のやり方はわからなくても、「統計を使えればこんなことが求められるんだ」という事実を知っておくだけで、データへの意識の向き方が変わってくる。やり方はわからなくても、「これって統計学だな」という事実を認識することこそが、統計リテラシーを高めるための第一歩である。そういう意味で、統計学の「使われ方」を重点的に学べる本書は、ファーストステップとしてとても有益だと感じた。

    ――おそらく我々がすべきことの多くは、すでに文献やデータの上では明らかなのである。だがそれを現実のものとして実行するまでのギャップが我々を「最善」から遠ざけているのではないかと思う。(略)統計学の素晴らしいところはこうした「最善」への道を最も速く確実に示してくれるところではないかと思う。
    統計学によって得られる最善の道を使えば、お金を儲けることも、自分の知性を磨くことも、健康になることもずいぶんと楽になるだろう。だがそれはあくまで副産物である。統計リテラシーによって手に入る最も大きな価値は、自分の人生を自分がいつでも最善にコントロールできるという幸福な実感なのだ。
    ―――――――――――――――――――――――――――

    【まとめ】
    0 まえがき
    なぜ統計学は最強の武器になるのか?
    それは、どんな分野の議論においても、データを集めて分析することで最速で最善の答えを出すことができるからだ。統計データとその分析によって、科学的根拠のあるエビデンスを提示できるからだ。


    1 サンプリング調査
    市場調査において母集団全てを調査することは物理的に不可能だ。そんなときのためにサンプリング調査という手法がある。
    例えば10万人の顧客データから男女別割合を調べるとする。顧客に占める女性の割合が70%だったと仮定しよう。サンプル数が100名しかなければ標準誤差は4.6%にもなり、実際には「女性の割合が61%〜79%」になる。しかし、1000名いれば標準誤差は1.4%となり、「女性の割合が67%〜73%」、8000名を超えて標準誤差が0.5%となると「女性の割合が69%〜71%」ということになる。そして逆に、このあたりから先は、「サンプル数を倍に増やしてもあまり誤差が小さくならない」ということになっている。なお、1万名分使っても標準誤差は0.4%で、2万名分でも0・3%にしかならない。

    ビッグデータをビッグなまま扱おうとするのではなく、まずは、正しい判断に必要な最小十分のデータがどのぐらいなのかを見極めるべきだろう。解析はそれ自体に価値があるものではなく、それを活かして何を行い、どれだけの価値を得られそうかによって異なるのである。


    2 ただデータを取るだけでは価値がない
    世の中の多くのアンケートにおいて、「認知率」「延べ視聴者数」「キャンペーンサイトのアクセス数」「好感度」など、多くのプロモーション評価に用いられる指標が、実際の売上に繋がるかどうかはよくわからないまま使われていることが多々ある。

    データ分析において重要なのは、「果たしてその解析はかけたコスト以上の利益を自社にもたらすような判断につながるのだろうか?」という視点だ。顧客の性別や年代、居住地域の構成を見ると何%ずつでした、あるいはアンケートの回答結果を見ると「とてもそう思う」と答えた人が何%いました、といったデータの集計は、ただ意見を集めただけで、ビジネスにおける具体的な行動につながってこない。

    利益を上げるための具体的な行動を引き出すためには、少なくとも以下の「3つの問い」に対して答えられなければいけない。
    【問1】何かの要因が変化すれば利益は向上するのか?
    【問2】そうした変化を起こすような行動は実際に可能なのか?
    【問3】変化を起こす行動が可能だとしてそのコストは利益を上回るのか?
    この3つの問いに答えられた時点ではじめて「行動を起こすことで利益を向上させる」という見通しが立つのであり、そうでなければわざわざ統計解析に従って新たなアクションを取ろうとする意味はない。実際出したところで、「なんとなくわかった気になる」以上の価値はないのだ。

    「適切な比較を行うこと」と「ただの集計ではなくその誤差とp値についても明らかにすること」を理解したつもりでも、いざデータを分析しようとしたときにしばしば問題になるのは、「適切な比較」とは何か、あるいはもう少し具体的に言えば「いったい何と何を比較すればよいのか」という点である。その答えを一言で言えばごく簡単だ。「目指すゴールを達成したもの」と「そうでないもの」の違いを比較しさえすればいい。ビジネスマンでいえば「利益を上げること」だ。そしてその利益というゴールまでの道筋をもう少し細かく考えれば、顧客の需要が伸びるか社内の生産性が上がるか(ムダなコストをかけずに商品が産出できるか)、といった当たり前の要素に還元できる。ビジネスにおいて解析すべき指標は、直接的な利益か、あるいはそこに至る因果関係の道筋が明らかな何か、ということになる。


    3 ランダム化比較実験
    統計学の汎用性は、どんなことの因果関係も科学的に検証可能な「ランダム化比較実験」によって大きく支えられている。
    かつては、「小麦の発育」のような各個体に差が生じる要素は科学的実験の俎上に乗せられなかった。ここで出てきたのがランダム化である。諸条件をランダム化してしまえば、平均的に比較したい両グループ間で前提条件がある程度同じになるという性質を持つことがわかったのだ。顧客や従業員の年齢や性別、心理的特性といったものが仮に結果を歪める可能性があったとしても、「ある程度の数でランダム化してしまえば問題にならない」ということである。

    ただ、ランダム化も必ず行えるわけではない。次のような場合には実行する意味が無くなる/実行できなくなる。
    ①それを行うチャンスが数回しかない、または技術的に実施できないため、そもそも統計を取れない場合
    ②ランダム化実験による介入が明らかに有害、または仮にすべてが有害でなくても、明らかに不公平なレベルで有益と有害が存在することが明確な場合
    ③ランダム化の対象者が感情的に反発することが予想される場合

    ランダム化できない場合のデータのとり方の一つに「ケースコントロール研究」がある。性別・年代・社会階層・居住地域といったものについて、調査対象とした患者と同様の人間を集めて男女別や年代別で区切ったグループごとに比較(専門用語でこれを層別解析と呼ぶ)すれば、ランダム化をしなくても「フェアな比較」ができる。


    4 さまざまな分析手法
    ●用語
    ・回帰係数0:ある変数(Xの値)がどのような値を取ろうとも、回帰係数が0の場合Yには全く影響を与えない。逆に、回帰係数が0ではない時には、その変数(X)は応答変数(Y)に影響を与える因子である。
    ・標準誤差:回帰係数の誤差の大きさ
    ・p値:仮に回帰係数が0だった場合に、データのバラつきのせいだけでたまたまデータのような回帰係数が推定されてしまう確率。p値が0.05を下回った場合、有意差がある、つまり「回帰係数が0だと推定はできない」となる。
    ・95%信頼区間:さまざまな回帰係数を想定して、「ほぼこの範囲内に真値があると考えて間違いない」とする範囲。

    ●回帰分析
    データ間の関係性を記述する、あるいは一方のデータから他方のデータを予測する数式を推定するのが回帰分析という考え方であり、こうした数式で記述される直線のことは回帰直線と呼ぶ。回帰式を表現する数値は回帰係数と呼ばれる。
    現代的な統計学においては、実際に得られたデータ自体に「比較的大きな値を持つものもいれば小さな値を持つものもいる」というバラつきが存在しているだけでなく、得られた回帰係数自体にバラつきが存在していると考える。すなわち、仮に今後100回「たまたま得られたデータ」から回帰係数を計算したとしたら、「比較的大きな値となることもあれば小さな値となることもある」というバラつきを考慮しなければいけないのだ。
    フィッシャーは「無制限にデータを得ればわかるはずの真に知りたい値」を真値と呼び、たまたま得られたデータから計算された統計量がどの程度の誤差で真値を推定しているかを数学的に整理することで、無限にデータを集めることなく適切な判断が下せるという考え方を示した。

    ●重回帰分析
    単回帰分析が、一つの目的変数を一つの説明変数で予測したのに対し、重回帰分析は一つの目的変数を複数の説明変数で予測しようとするもの。生徒のテストの点数を予測するのに、性別の違いと高校の違いという複数の回帰係数を同時に推定するのが重回帰分析だ。

    ●ロジスティック回帰
    もともとが1か0かという二値の結果変数を変換し、連続的な変数として扱うことで重回帰分析を行なえるようにした、というのがロジスティック回帰。ロジスティック回帰では、回帰係数をオッズ比つまり「約何倍そうなりやすいか」で示す。

    これ以外にも、実験群と対照群との間に差異が出たとき、これが「意味のある偏り」なのか「誤差でもこれぐらいの差は生じるのか」といったことを確かめる解析手法に「カイ二乗検定」というものがある。


    5 強力なエビデンス
    ●系統的レビュー
    系統的レビューはあらかじめ「レビューする論文の条件」を決めたうえで、過去に公表された関連分野の文献すべてから条件に該当するものを選び出す。例えば少年犯罪とビデオゲームとの関連性について、「未成年 犯罪 ビデオゲーム」という単語を含み何らかの統計解析が行なわれた論文すべてを収集・分析し、その結果どういうことがわかるかという結論をまとめるのである。これはほとんど主観などが含まれない「現時点で最善の答え」となる。

    ●メタアナリシス
    系統的レビューの中で、複数のランダム化比較実験や観察研究の中で報告された統計解析の結果を、さらに解析してまとめあげる作業のことをいう。「解析に対する解析」だからメタアナリシスというわけである。
    エビデンスのヒエラルキーは、最下層に専門家の意見や基礎実験、その上に疫学・観察研究、さらにその上にランダム化比較実験、頂点に系統的レビューとメタアナリシスが位置づけられる。

  • 統計学を学ぶ前のイメージと言えば、データを収集してそれを解析するだけの学問というイメージであった。しかし、そのイメージはこの本によって劇的に変わった。統計学によって出来ることは、そのデータによって原因を推測し、あまつさえビジネスの方針すら決めることが出来るという夢のような学問である事が分かりとても面白い分野であると思った。この本は統計学の基本や原理を中心に扱ったものであるがこの本の後に出版された実践編も読んでいきたい。

  • 目を引くタイトルにつられて読んでみました。
    統計やデータについての考え方が紹介されています。
    「なぜ統計学が最強の学問なのか?」という説明に始まり、実際の分析手法の概要や分野による統計についての考え方の違いにも言及しています。

    一般化線形モデル(=広義の回帰分析)を1枚の表にまとめている箇所は、後で役に立ちそうだなぁ…と頭のすみっこにメモメモ。
    検定やら分析やら、いろいろな名前はつけられていますが、基本的には同じ手法なのだと思っているだけで、統計とも少し気楽に向き合える気がします。

    「統計学は、最善への道を最も速く確実に示してくれる」と著者は述べています。
    しかし、学生時代にちょっと統計をかじったくらいの身には、「最善の道」を見極めることができるようになるまでの道も長そうです。
    より実践的な分析についての本も読んでみなければ…。

  • 私には少し難しく、あまり理解できなかった。
    まとめると、最善は何かを考えて行動するために、統計学を使うといったことだと思う…

    ランダムサンプリング調査が驚くほど正確とのこと。ランダムにできない場合の対処法も書かれています。

    調査データは、何かの要因が変化すれば利益が向上するのか。そうした変化は実際に可能か。可能だとしてそのコストは利益を上回るのか。に役立てる。

  • 統計学初心者にも読みやすく、興味を惹く事例が紹介されており、オススメの本。
    政策やビジネスにおいて、何が正しい答えか判断する為に、(当たり前なのだが)勘に頼らず統計を活用するのが大切。

    以下、本書から抜粋。

    ・ナイチンゲールの統計
    戦争中、兵士の死因の統計をとった。傷自体が死因ではなく、その後の菌の感染による死者数が多いと示した。このデータで、「兵士の命を守りたかったら、清潔な病院を戦場に整備しろ」と国に求めた。

    ・疫学の父 ジョン・スノウ
    コレラで亡くなった人の環境を観察。同じ状況で、コレラを患った人とそうでない人の違いを比べる。大規模なデータを集め、発症の関連や感染経路を検証。

    ・278ページ ニュートンの言葉
    「私が遠くを見ることができているのだとすれば、それは巨人の肩に立っているから。先人の積み重ねた知恵をきちんと学び、見通すことが大切。」

  • とても良い本だと思うが、文系の自分には少し難しい内容だった。理系なら良かったんだけど。

    センテンスによっては統計学の考え方の説明があるので、そこは納得といった感じだった。

  • 1.ビジネスにおいて統計を取ることがいかに大切なのかを最近知りました。そこで、統計学の基本を学ぼうと思いました。

    2.統計学は過大視大して最速かつ最善の答えを導き出してくれます。そのため、最強の学問であると著者は述べています。ただ、完璧であるとも述べてはいません。そこで、統計を出すにあたり、1.要因を変化さえられれば利益が上がるのか、2.変化を起こすような行動は可能なのか?変化させるコストは利益を上回るのかの3つの問いを持ちながら分析していく必要があります。ビジネスで使う以上「自社の利益になるのか」が最重要課題となります。
    本書では、統計と向き合うにあたってのデータの集め方や各種統計学の特徴を述べており、どのシーンで使えるのかが解説されています。

    3.統計と聞くと難しいイメージが先行してしまい、ずっと避けてきました。現に、本書を読み終えた今でも完全に理解したとは言えません。ですので、今回は大枠だけつかむことを目的として読んだのですが、データを集める前の設定が重要だと思いました。
    現代は情報が氾濫しており、人間の脳では処理しきれないとまで言われています。そのなかでデータを分析しても「結局何が言いたいの?」と言われておしまいになる人がいるのではないでしょうか。ITが普及してもそれを使うのは人間であり、答えを出すのも人間です。本書では、統計について学んでいない日本人について警鐘を鳴らしているのだと感じました。

  • 統計学未経験者には難しいけど、統計学を入門でも勉強した人にとっては簡単な本。
    なるほどと思うこともあるが大変は当たり前のことが長々と記載されている印象で、どの層をターゲットにしているのかイマイチ感じ取れなかった。

  • 【感想】
    統計学は確かに大切だが、真っ先にAIに乗っ取られる分野な気がしたのは自分だけだろうか?
    というのも、データに基づいた処理というのはイチ人間が行なうよりもAIにやらせた方が確実だろうし、スピードも正確度も段違いだと思うからだ。

    どちらにしても、読んでいるだけで鳥肌が立つくらい難しい本でした。
    分析などをするにあたって統計学は必須だけど、結局そういう細やかな分析は自分には向いていないんだなーと実感。


    【内容まとめ】
    1.なぜ統計学は最強の武器になるの?
    ⇒「どんな分野の議論においても、データを集めて分析することで、最速で最善の答えを出すことができるから」

    2.EBM
    Evidence Baced Medicine
    「科学的根拠に基づく医療」
    医師の経験や勘だけでなく、きちんとしたデータとその解析結果、すなわちエビデンスに基づくことで最も適切な判断をすべきというのが、現代医学において主流の考え方である。

    3.統計解析の3つの問い
    ①何かの要因が変化すれば利益は向上するのか?
    ②そうした変化を起こすような行動は実際に可能なのか?
    ③変化を起こす行動が可能として、そのコストは利益を上回るのか?


    【引用】
    ・なぜ統計学は最強の武器になるのだろうか?
    一言で言えば、「どんな分野の議論においても、データを集めて分析することで、最速で最善の答えを出すことができるから」だ。


    p11
    ・「疫学の父」ジョンスノウの活躍
    この外科医が行ったコレラ対策はごくシンプルだ。

    1.コレラで亡くなった人の家を訪れ、話を聞いたり付近の環境をよく観察する。
    2.同じような状況下でコレラにかかった人とかかっていない人の違いを比べる。
    3.仮説が得られたら、大規模にデータを集め、コレラの発症・非発症に関連していると考えられる「違い」について、どの程度確かであるかを検証する。

    スノウの提案した解決策は、「とりあえずしばらく水道会社Aの水を使うのをやめる。以上!」であった。
    彼の助言に従って、コレラに汚染された水の使用をやめた町では、パッタリとコレラの感染が止まった。


    p16
    ・EBM
    Evidence Baced Medicine
    「科学的根拠に基づく医療」
    医師の経験や勘だけでなく、きちんとしたデータとその解析結果、すなわちエビデンスに基づくことで最も適切な判断をすべきというのが、現代医学において主流の考え方である。


    p65
    ・統計解析の3つの問い
    1.何かの要因が変化すれば利益は向上するのか?
    2.そうした変化を起こすような行動は実際に可能なのか?
    3.変化を起こす行動が可能として、そのコストは利益を上回るのか?


    p71
    意味のない解析結果など何の役にも立たないばかりか、虚偽報告である。
    「十分なデータ」をもとに「適切な比較」を行う。
    これが統計的因果推論の基礎である。


    p87
    「どのようにデータを解析するか?」
    そもそも、「どのようなデータを収集し、解析するのか?」
    この答えは、ごく簡単である。
    「目指すゴールを達成したもの」と、「そうでないもの」の違いを比較しさえすればいい。


    p126
    ・ランダム化の限界
    月へのフライトに限らず、「1回こっきりのチャンス」あるいは、あったとしてもせいぜい数回程度しかチャンスの与えられないものを取り扱うことに対して、ランダム化しようがしまいが統計学は無力である。
    要するに、一世一代の決断はランダム化することができないということだ。

    他にもランダム化には、「倫理の壁」や「感情の壁」などが障害となる可能性が高い。


    p214
    ・「IQ」を生み出した心理統計学

  • ITの統計学
    ・データマイニング、機械学習、人工知能、自然言語処理
    ・ビジネスインテリジェンス、競合分析
    ・分析、統計-特にウェブ分析、A/Bテスト、統計解析

    ・何かの要因が変化すれば利益は向上するのか?
    ・そうした変化を起こすような行動は実際に可能なのか? 
    ・変化を起こす行動が可能だとしてそのコストは利益を上回るのか?

    統計学の6つの分野
    1*実態調査を行う社会調査法
    2*原因究明のための疫学・生物統計学
    3*抽象的なものを測定する心理統計学
    4*機械的分類のためのデータマイニング
    5*自然言語処理のためのテキストマイニング
    6*演繹に関心をよせる計量経済学

全897件中 1 - 10件を表示

著者プロフィール

1981年、兵庫県生まれ。統計家。東京大学大学院医学系研究科医療コミュニケーション学分野助教、大学病院医療情報ネットワーク研究センター副センター長、ダナファーバー/ハーバードがん研究センター客員研究員を経て、2014年11月に株式会社データビークル創業。自身のノウハウを活かしたデータ分析支援ツール「Data Diver」などの開発・販売と、官民のデータ活用プロジェクト支援に従事。著書に『統計学が最強の学問である』(ダイヤモンド社)、『1億人のための統計解析』(日経BP社)など。

「2017年 『ベストセラーコード』 で使われていた紹介文から引用しています。」

西内啓の作品

  • 話題の本に出会えて、蔵書管理を手軽にできる!ブクログのアプリ AppStoreからダウンロード GooglePlayで手に入れよう
ツイートする
×