統計学が最強の学問である

著者 :
  • ダイヤモンド社 (2013年1月24日発売)
3.52
  • (333)
  • (797)
  • (769)
  • (218)
  • (53)
本棚登録 : 9219
感想 : 902
4

【感想】
統計学はコンピューターの発達とともにその真価を発揮したが、逆に、コンピューターの発達によって統計学が「理解不能なもの」に変わっていったフシはある。解析能力の増加は扱うデータ量を飛躍的に増やした。それに伴い、統計学はいつしかデータサイエンティストしか触らないような高度なものと化し、一般人が実用のために使うことは少なくなっているように思える。

本書は、そうした複雑化する統計学を基礎から教えてくれる一冊だ。私も統計学についてはずぶの素人だが、「統計学が最強の学問である」というタイトルに賛同し、この本を手に取った。
統計学は論理を超越する。その分野の専門家でさえも、複数人集まれば自説が全くの逆方向を向いているということは多々ある。統計学はそうした「本当に正しいかわからない理屈」を数字の力でねじ伏せる。医学研究が特にそうであるように、大切なのは専門家の独自意見ではなく「科学的根拠」であり、その根拠の大部分を占めるのは統計学的な実証研究なのである。
筆者の西内氏はダイアモンドオンラインのインタビューにこう答えている。
――「絶対的に正しいこと」を扱うのならば論理学や数学に任せればよいが、そんなものは理論的な世界の中にしか存在しない。そして「少しでも絶対的ではないこと」について言及しようと思えば、現状、統計学以外に記述したり議論したりする方法が人類にはない。誤差を限りなく小さくできる物理学実験でさえその誤差は0ではなく、たとえば1kgという重さを全人類の技術の粋を尽くして厳密に定義した後、それでも残る50μgほどの誤差は結局のところ統計学的に記述されているのだ。
―――――――――――――――――――――――――――
私たち文系一般人が学ぼうとする「統計学」と、データサイエンティストが仕事で使う「データ分析」には、物凄い距離がある。本書で言えば序盤の「サンプリング調査」あたりは素人でも直感的に理解できるレベルだ。「選挙の出口調査」など、実際に使われている場面や使われ方を想像するのもたやすい。一方で、後半の「重回帰分析」「データマイニング」となると、一気にハードルが上がる。実際に何をすればいいのか見当がつかないからだ。多くの人にとって、統計学を学んで基礎を理解しても、「で、これどこで使えばいいの?」という疑問を解消するには程遠い。

ただ一つ確実に言えるのは、「0.1でも知っている」ことは大違いということだ。回帰分析のやり方はわからなくても、「統計を使えればこんなことが求められるんだ」という事実を知っておくだけで、データへの意識の向き方が変わってくる。やり方はわからなくても、「これって統計学だな」という事実を認識することこそが、統計リテラシーを高めるための第一歩である。そういう意味で、統計学の「使われ方」を重点的に学べる本書は、ファーストステップとしてとても有益だと感じた。

――おそらく我々がすべきことの多くは、すでに文献やデータの上では明らかなのである。だがそれを現実のものとして実行するまでのギャップが我々を「最善」から遠ざけているのではないかと思う。(略)統計学の素晴らしいところはこうした「最善」への道を最も速く確実に示してくれるところではないかと思う。
統計学によって得られる最善の道を使えば、お金を儲けることも、自分の知性を磨くことも、健康になることもずいぶんと楽になるだろう。だがそれはあくまで副産物である。統計リテラシーによって手に入る最も大きな価値は、自分の人生を自分がいつでも最善にコントロールできるという幸福な実感なのだ。
―――――――――――――――――――――――――――

【まとめ】
0 まえがき
なぜ統計学は最強の武器になるのか?
それは、どんな分野の議論においても、データを集めて分析することで最速で最善の答えを出すことができるからだ。統計データとその分析によって、科学的根拠のあるエビデンスを提示できるからだ。


1 サンプリング調査
市場調査において母集団全てを調査することは物理的に不可能だ。そんなときのためにサンプリング調査という手法がある。
例えば10万人の顧客データから男女別割合を調べるとする。顧客に占める女性の割合が70%だったと仮定しよう。サンプル数が100名しかなければ標準誤差は4.6%にもなり、実際には「女性の割合が61%〜79%」になる。しかし、1000名いれば標準誤差は1.4%となり、「女性の割合が67%〜73%」、8000名を超えて標準誤差が0.5%となると「女性の割合が69%〜71%」ということになる。そして逆に、このあたりから先は、「サンプル数を倍に増やしてもあまり誤差が小さくならない」ということになっている。なお、1万名分使っても標準誤差は0.4%で、2万名分でも0・3%にしかならない。

ビッグデータをビッグなまま扱おうとするのではなく、まずは、正しい判断に必要な最小十分のデータがどのぐらいなのかを見極めるべきだろう。解析はそれ自体に価値があるものではなく、それを活かして何を行い、どれだけの価値を得られそうかによって異なるのである。


2 ただデータを取るだけでは価値がない
世の中の多くのアンケートにおいて、「認知率」「延べ視聴者数」「キャンペーンサイトのアクセス数」「好感度」など、多くのプロモーション評価に用いられる指標が、実際の売上に繋がるかどうかはよくわからないまま使われていることが多々ある。

データ分析において重要なのは、「果たしてその解析はかけたコスト以上の利益を自社にもたらすような判断につながるのだろうか?」という視点だ。顧客の性別や年代、居住地域の構成を見ると何%ずつでした、あるいはアンケートの回答結果を見ると「とてもそう思う」と答えた人が何%いました、といったデータの集計は、ただ意見を集めただけで、ビジネスにおける具体的な行動につながってこない。

利益を上げるための具体的な行動を引き出すためには、少なくとも以下の「3つの問い」に対して答えられなければいけない。
【問1】何かの要因が変化すれば利益は向上するのか?
【問2】そうした変化を起こすような行動は実際に可能なのか?
【問3】変化を起こす行動が可能だとしてそのコストは利益を上回るのか?
この3つの問いに答えられた時点ではじめて「行動を起こすことで利益を向上させる」という見通しが立つのであり、そうでなければわざわざ統計解析に従って新たなアクションを取ろうとする意味はない。実際出したところで、「なんとなくわかった気になる」以上の価値はないのだ。

「適切な比較を行うこと」と「ただの集計ではなくその誤差とp値についても明らかにすること」を理解したつもりでも、いざデータを分析しようとしたときにしばしば問題になるのは、「適切な比較」とは何か、あるいはもう少し具体的に言えば「いったい何と何を比較すればよいのか」という点である。その答えを一言で言えばごく簡単だ。「目指すゴールを達成したもの」と「そうでないもの」の違いを比較しさえすればいい。ビジネスマンでいえば「利益を上げること」だ。そしてその利益というゴールまでの道筋をもう少し細かく考えれば、顧客の需要が伸びるか社内の生産性が上がるか(ムダなコストをかけずに商品が産出できるか)、といった当たり前の要素に還元できる。ビジネスにおいて解析すべき指標は、直接的な利益か、あるいはそこに至る因果関係の道筋が明らかな何か、ということになる。


3 ランダム化比較実験
統計学の汎用性は、どんなことの因果関係も科学的に検証可能な「ランダム化比較実験」によって大きく支えられている。
かつては、「小麦の発育」のような各個体に差が生じる要素は科学的実験の俎上に乗せられなかった。ここで出てきたのがランダム化である。諸条件をランダム化してしまえば、平均的に比較したい両グループ間で前提条件がある程度同じになるという性質を持つことがわかったのだ。顧客や従業員の年齢や性別、心理的特性といったものが仮に結果を歪める可能性があったとしても、「ある程度の数でランダム化してしまえば問題にならない」ということである。

ただ、ランダム化も必ず行えるわけではない。次のような場合には実行する意味が無くなる/実行できなくなる。
①それを行うチャンスが数回しかない、または技術的に実施できないため、そもそも統計を取れない場合
②ランダム化実験による介入が明らかに有害、または仮にすべてが有害でなくても、明らかに不公平なレベルで有益と有害が存在することが明確な場合
③ランダム化の対象者が感情的に反発することが予想される場合

ランダム化できない場合のデータのとり方の一つに「ケースコントロール研究」がある。性別・年代・社会階層・居住地域といったものについて、調査対象とした患者と同様の人間を集めて男女別や年代別で区切ったグループごとに比較(専門用語でこれを層別解析と呼ぶ)すれば、ランダム化をしなくても「フェアな比較」ができる。


4 さまざまな分析手法
●用語
・回帰係数0:ある変数(Xの値)がどのような値を取ろうとも、回帰係数が0の場合Yには全く影響を与えない。逆に、回帰係数が0ではない時には、その変数(X)は応答変数(Y)に影響を与える因子である。
・標準誤差:回帰係数の誤差の大きさ
・p値:仮に回帰係数が0だった場合に、データのバラつきのせいだけでたまたまデータのような回帰係数が推定されてしまう確率。p値が0.05を下回った場合、有意差がある、つまり「回帰係数が0だと推定はできない」となる。
・95%信頼区間:さまざまな回帰係数を想定して、「ほぼこの範囲内に真値があると考えて間違いない」とする範囲。

●回帰分析
データ間の関係性を記述する、あるいは一方のデータから他方のデータを予測する数式を推定するのが回帰分析という考え方であり、こうした数式で記述される直線のことは回帰直線と呼ぶ。回帰式を表現する数値は回帰係数と呼ばれる。
現代的な統計学においては、実際に得られたデータ自体に「比較的大きな値を持つものもいれば小さな値を持つものもいる」というバラつきが存在しているだけでなく、得られた回帰係数自体にバラつきが存在していると考える。すなわち、仮に今後100回「たまたま得られたデータ」から回帰係数を計算したとしたら、「比較的大きな値となることもあれば小さな値となることもある」というバラつきを考慮しなければいけないのだ。
フィッシャーは「無制限にデータを得ればわかるはずの真に知りたい値」を真値と呼び、たまたま得られたデータから計算された統計量がどの程度の誤差で真値を推定しているかを数学的に整理することで、無限にデータを集めることなく適切な判断が下せるという考え方を示した。

●重回帰分析
単回帰分析が、一つの目的変数を一つの説明変数で予測したのに対し、重回帰分析は一つの目的変数を複数の説明変数で予測しようとするもの。生徒のテストの点数を予測するのに、性別の違いと高校の違いという複数の回帰係数を同時に推定するのが重回帰分析だ。

●ロジスティック回帰
もともとが1か0かという二値の結果変数を変換し、連続的な変数として扱うことで重回帰分析を行なえるようにした、というのがロジスティック回帰。ロジスティック回帰では、回帰係数をオッズ比つまり「約何倍そうなりやすいか」で示す。

これ以外にも、実験群と対照群との間に差異が出たとき、これが「意味のある偏り」なのか「誤差でもこれぐらいの差は生じるのか」といったことを確かめる解析手法に「カイ二乗検定」というものがある。


5 強力なエビデンス
●系統的レビュー
系統的レビューはあらかじめ「レビューする論文の条件」を決めたうえで、過去に公表された関連分野の文献すべてから条件に該当するものを選び出す。例えば少年犯罪とビデオゲームとの関連性について、「未成年 犯罪 ビデオゲーム」という単語を含み何らかの統計解析が行なわれた論文すべてを収集・分析し、その結果どういうことがわかるかという結論をまとめるのである。これはほとんど主観などが含まれない「現時点で最善の答え」となる。

●メタアナリシス
系統的レビューの中で、複数のランダム化比較実験や観察研究の中で報告された統計解析の結果を、さらに解析してまとめあげる作業のことをいう。「解析に対する解析」だからメタアナリシスというわけである。
エビデンスのヒエラルキーは、最下層に専門家の意見や基礎実験、その上に疫学・観察研究、さらにその上にランダム化比較実験、頂点に系統的レビューとメタアナリシスが位置づけられる。

読書状況:読み終わった 公開設定:公開
カテゴリ: 未設定
感想投稿日 : 2022年8月4日
読了日 : 2022年8月1日
本棚登録日 : 2022年8月1日

みんなの感想をみる

コメント 0件

ツイートする