異端の統計学 ベイズ

  • 草思社 (2013年10月23日発売)
3.83
  • (17)
  • (31)
  • (17)
  • (3)
  • (2)
本棚登録 : 396
感想 : 35
5

ベイズ統計の手法については概念的にはわかりやすい。事前の予想に対して新たに得られたデーターを反映させ予想を修正する。実験であるパラメーターを変化させて得られた結果からパラメーターの最適値を推測するというのは自然科学でも社会科学でも違和感はないだろう。しかしこれを確率としてとらえ、式にあてはめると少し分かりにくい。18世紀の聖職者トーマス・ベイズが発見した後打ち捨てられ、数十年後に偉大な数学者ラプラスが独自に再発見し完成させたベイズ統計の式は次のように表される。

まずべイズ統計の原理だがこれだ。
P(C/E)=P(E/C)/ΣP(E/C’) Pは確率、Cは原因、Eは結果として
P(C/E):Eという得られて結果に対して原因がCである確率
P(E/C):原因がCの場合に結果がEとなる確率
ΣP(E/C’):原因C1、C2・・・に対しそれぞれ結果がEとなる確率の合計

例えばサイコロを何回か振って合計が5の場合に2回ふった確率は?
P(E/C)は4/36
ΣP(E/C’)は1/6+4/36+6/216+4/1296+1/7776
P(C/E)=36% 手計算だが合ってるのか?(笑)

ラプラスが完成させた一般式はこうなる。
P(C/E)=P(E/C)xP”(C)/ΣP(E/C’)xP”(C’)
このときに P”(C)は事前に見積もった原因Cが正しい確率(事前確率)としている。
これだけ見ても何のことやらなのだが実際の使用例を挙げると少し雰囲気が分かる。

マンモグラフの乳がん検査の確率が補遺にある。
P(C/E):マンモグラフ検査が陽性の際の乳がんの確率
P(E/C):がん患者のマンモグラフが陽性になる確率=80%
P”(C):乳がんの確率=約0.4%
ΣP(E/C’)xP”(C’):(理由はどうあれ)マンモグラフが陽性の確率 
偽陽性の確率が10%あるため 99.6%x10%+0.4%x80%=10.28%
P(C/E)=80%x0.4%/10.28%=3.1%
マンモグラフは80%と比較的信頼性の高い検査なのだが、偽陽性も10%と高く出てしまうことと、元々乳がんの確率が0.4%と低いこともありマンモグラフを受けて陽性の場合に実際に乳がんである確率はわずか3%でしかなく、アメリカ政府の「乳がんスクリーニングに関する特別チーム」は2009年に40代の女性の大部分は1年に1回のマンモグラフは受けない方が良いと助言した。

ベイズの手法は実際には事前確率がはっきりしない場合にも適用されている。乳がんとは違い事前確率として有用なデーターがない場合には主観的な数字を入れて後から観測結果を元にデーターを更新するのがベイズ派のやり方だ。伝統的な頻度主義者(観測数/母数)の場合これまでに起こったことのない事故の確率を計算しろといわれてもお手上げだがベイズ派は例えばチャレンジャー号の事故について1/35という非常に高い事故確立を見積もっていた。エニグマの暗号解読にはじまり、保険業界が料率の決定にこの手法を取り入れ、資源保護、グーグルの機械翻訳などΣP(E/C’)のところの計算が非常に煩雑なため昔は役に立たなかった領域でもコンピューターの能力が上がりベイズ推定の使われる範囲はどんどん拡がっていった。

頻度主義であれば一定量のデーターがなければ統計的には信頼性が低いとするところをベイズの手法は漸近的な解を出すので意思決定をする際に少ないデーターで決断しなければならない場合に適用しやすい。例えばうなぎが減った原因は色々考えられるが稚魚の乱獲の確率をだし、漁獲量を制限した場合にどれだけ資源量が回復するかとか、原発の下の断層でこの先30年以内に大地震が起こる確率だとか。難しいのはその場合に事前確率をどう置くかで計算結果が変わってしまうところだ。反対派からはデーターを恣意的に選んでいるとの批判が出ることは簡単に予想できる。

1968年にアメリカの攻撃型原潜スコーピオン号が姿を消した際にはベイズの手法が力を発揮した。スコーピオン失踪の直前にある聴音装置が極めて深い海中でピンという不思議な音を観測していた。そこで海底の地形図、海流なども組み合わせ音の発生源をスタートにスコーピオン号がランダムに航行したというシミュレーションを繰り返して1万個の予想地点をプロットすると地図上の方眼に明らかに有望な場所とそうではない場所があらわれたのだ。当初探索が行われた場所からはなれた場所に不思議な金属片が見つかっており、このシミュレーションを元に探索結果を更新していくと発見予想地点はだんだんとこの金属片の場所に近づいていった。最終的にはシミュレーションの高確率セルと発見点は260ヤード離れていたが160平方マイルの探索域の中での260ヤードは上出来だ。このときに使われたランダム化手法のモンテカルロ法はコンピューター将棋などにも使われている。

人間は無意識にベイズのアプローチを使っているようだ。例えばパットの練習で全く同じ打ち方(といっても誤差がある)をしてホールからどれだけ離れているかを計算し方向と強さを合わせるという様なことは普通はしない。得られた結果を元に少しずつ方向と強さを調整し修正していっているはずでこれはベイズのアプローチと言える。方程式は理解していなくてもこのやり方が役に立つのはわかる。この本では正統的な統計学からは相手にされなかったベイズ統計が色々な現場で採用されていき、今では主流と言えるまでに拡がった様子が描かれている。

読書状況:読み終わった 公開設定:公開
カテゴリ: 科学
感想投稿日 : 2014年7月13日
読了日 : 2014年7月12日
本棚登録日 : 2014年7月12日

みんなの感想をみる

コメント 0件

ツイートする