シグナル&ノイズ 天才データアナリストの「予測学」

  • 日経BP (2013年12月2日発売)
3.62
  • (5)
  • (13)
  • (8)
  • (1)
  • (2)
本棚登録 : 137
感想 : 18
4

シグナルを見つけるのは比較的やさしい、ように見える。しかしそれがノイズだとしたら見分けられるのか。2012年にアメリカ大統領選の結果を完璧に当てて有名になったネイト・シルバーはpecotaと言う野球の分析ソフトの開発者でもある。

野球は比較的統計データーを活かしやすい分野だ。マネーボールでは統計データーを使ったセイバーメトリクス対伝統的なスカウトが対立軸として使われているが実際はどうか。pecotaは2006年の有望株の4番目にレッドソックスの名二塁手ダスティン・ペドロイアを挙げたがスカウト達の評価は低かった。「身体的に恵まれていない」と。4月.158だった打率は5月には3割を超え7月にオールスター、この年の優勝に貢献して新人賞、そして翌年MVPに選ばれた。

マネーボールのヒット以来ハーバードやエールで統計学とコンピューターを学び、普通だったら投資銀行で年収40万$で働く若者が、その1/10の年収でタンパやクリーブランドまでやって来て24時間喜んで働いてくれる。年収4万の若者はピークを超えた4000万のFA選手よりいい投資先になる。球団はFA市場で1勝当たり400万$を喜んで払う。とは言えソフトはスカウトより優秀だというような単純な話でもない。2011年シーズン、pecotaの予想したトップ選手100人はMLBで546勝を生み出した。対するベースボール・アメリカ誌の選んだ選手は630勝を生み出した。この差は86勝で3億4千万$に相当する。スカウトは統計データーも使い独自情報によるバイアスを修正することでより良い予測をすることができるのだ。

統計学の世界でノイズをシグナルと間違えることを過剰適合と呼ぶ。福島原発はM8.4には耐えられるようにできていたがM9.1には耐えられなかった。(モデルケースとしては少し単純化しすぎだが)グーテンベルクとリヒターの法則では、地震のマグニチュードと頻度は対数をとるときれいに直線に乗る。つまりマグニチュードが1大きくなると頻度は1/10になる。しかし東北の統計ではマグニチュードどが7を超えたあたりで傾きが変わり頻度が減少するように見える。この統計は1964年間からなので大地震はそもそもデーターの絶対数が少なく大地震のリスクが少なく見積もられていた=過剰適合だったかもしれないというのが著者の見解だ。過剰適合ではなく何らかの理由で地震の頻度が減っていたとした特性適合とした場合、M9の地震は1万3千年に1回、リヒター則なら300年に1回だ。マグニチュードが1増えるとエネルギーは32倍になり地震のエネルギーと被害の大部分は数少ない大地震によるものだ。同時期の世界の統計では大地震も含めリヒター則の方が適合している。地震そのものは予測できないとしても確立はそれなりの確かさで計算できる。GPS地震予測の村井教授に対しては本職の地震学者から批判があるが、新たなシグナルを手に入れられることは間違いない。

では具体的にどうやって予測するのかというのが後半のテーマでここでは主にベイズ確率を用いている。通常の統計ではデーターが少ないとシグナルとノイズの見分けが難しくあまり役に立たないが、ベイズ確率の考え方では事前確立(たとえヤマカンレベルでも)新たなデーターが得られるたびに修正していく。事件が起きてからシグナルを見つけるのは簡単だ。真珠湾攻撃や911を示すシグナルはたくさんあった。飛行機を使ったテロ計画はすでにあり、アルカイダの危険性やワールドトレードセンターが過去にテロの標的になったこと、そして極め付けは1ヶ月前に747機のシュミレーターを希望したイスラム原理主義者ムサウイが飛行機訓練学校の教官の通報で逮捕されている。テロの場合も地震と同様に極めて少ない大規模のテロが被害者の多くを占めている。もし911がM8級のテロだとすればM9級のテロの可能性はどう見積もるのか。1979年から20年間に起こったテロにべき乗則を当てはめると、今後10年間にNATO諸国で死者1万人を超えるテロが起こる可能性は10%、10万人なら3%、100万人なら0.6%となる。

地震もテロも計算の元となるデータを少し変えると大きく確立が変わる。しかし、被害が大きいのはそのごく少数のM8級以上の出来事なのだ。100万人が犠牲になるテロは1600年に1回だとしても年平均にすると625人が被害に会うことになる。ブラックスワンを無視すべきではない。もしムサウイの逮捕をベイズ確率の事前確立に織り込んでいれば被害を減少させることができたかもしれない。

読書状況:読み終わった 公開設定:公開
カテゴリ: 科学
感想投稿日 : 2015年10月4日
読了日 : 2015年9月29日
本棚登録日 : 2015年9月29日

みんなの感想をみる

コメント 0件

ツイートする