統計的に有意(Statistical significance)は統計学を学んだ人なら必ず使用する言葉である。
母集団から標本を抽出し、帰無仮説と対立仮説を設定し、帰無仮説が正しいとして、正規分布(標本の数が多ければ中心極限定理から正規分布に従うだろう)から帰無仮説が「どの程度」離れているかを評価する。
よく95%信頼性が使われるが、これより確率的に起こりにくい場合(p値)に、95%の信頼性で帰無仮説が棄却される。
一般的にはこのようなステップを踏み統計検定を実施する。
科学論文でも同じような検定を行い、実験の信頼性を評価する。
筆者はこの検定方法に真っ向から反対する。
1)帰無仮説の設定方法が甘い
例えば、ダイエット方法の効果を検証する場合を考える。
このとき、例えば30人のモニタリング対象者を選定し、ダイエット方法前の体重とダイエット方法を1か月実施した場合の体重の変化量を比較する。ダイエット前後の平均値をAとBとすると、帰無仮説をA=B(つまりダイエット方法前後で体重が変わらなかった=効果がない)、対立仮説はA≠Bである。
そこから、検定をして有意性を示す。
しかし、この方法では問題点が2つある。
一つは、体重は基本的には連続量である(体重はとびとびの値ではなく、連続的な値であるということ)ので、平均A=Bはほんとうに起こりにくい。
(サイコロのように1から6までとびとびの値がでるわけではなく、1から6までの実数で適当に2つを選んでも一致することはない、ということ。A=BはA≠BにAlmost everywhereで被覆される。)
これで検定をかけても、A=Bは起こりにくい。
2)どれくらい効果があるかわからない
A=Bから検定を実施する場合に、どの程度ダイエット効果があるか統計的有意であることとはまったく関係がない。
やるのであれば、帰無仮説はA-B<X(Xがダイエット方法で達成したい効果量。例えば、ダイエット前後で2kg減量したい場合にはX=2kgである)と設定したほうが良い。
実務的には、Xをいろいろ値を設定して、各々に対してp値を算出したほうが良い。
X=1kgではp値が95%、X=2kgでは60%など。
とはいいつつ、必要性と十分性は気を付けるべきである。
3)N値の恣意性
上記1と2については記載した通りある程度解決策はある。
しかし、もっとも致命的な問題なN値である。
先ほどの例では被験者をN=30としたが、この値については何か科学的な理由があるのだろうか?
統計と聞くとNが大きければ大きいほど良いと思うかもしれない。少なくとも私はそう思っていた。
というのも、統計量の評価で
Z=μ/√S^2 x √n (μ:平均、S:不偏分散)
で与えれ、μ∝1/√nとなり、つまり、μ>ZxS/√nを示せれば統計的に有意である。
nを大きくすれば、どんどんこの式を成立させるμは小さくでき、統計的に有意であることが簡単に示せてしまうのだ。
(この場合、ダイエット前後で体重の平均値が小さくなっていくということを与える。つまり、たった100gしか変わらないのに統計的に有意であることが言える)
ということで、適切なnがあるはずである。
でもなんか変だ。いっぱいサンプリング数を増やせばいろいろな人の変化がわかるのに、この理論でいくと多すぎではいけないと言っているのだ。
という問題点を踏まえて筆者あベイズ推論による検定を提案する。
ベイズ推論は、上記の性質とは異なった性質、
1)研究仮説をもっと直接的な表現で説明できる。
検定では帰無仮説を棄却することによって、対立仮説が間接的に表現できる。
が、帰無仮説を棄却=対立仮説が正しいということではないことに注意が必要である。(必要性のみを示している)
2)nが大きければ大きいほど正確な評価ができる。
本書には詳しい方法論も記載されており、参考文献の紹介もあるので一読の価値は十分あり。
これを読んで統計検定をしないぜ、ということにはならないかもしれないが、使用する場合の注意点の気づきはできる。
- 感想投稿日 : 2021年1月17日
- 読了日 : 2021年1月17日
- 本棚登録日 : 2021年1月13日
みんなの感想をみる