- Amazon.co.jp ・本 (248ページ)
- / ISBN・EAN: 9784815810030
作品紹介・あらすじ
統計学は実験や臨床試験、社会調査だけでなく、ビッグデータ分析やAI開発でも不可欠である。ではなぜ統計は科学的な根拠になるのか? 帰納推論や因果推論の背後に存在する枠組みを浮き彫りにし、科学的認識論としてデータサイエンスを捉え直す。科学と哲学を架橋する待望の書。
感想・レビュー・書評
-
存在論・意味論・認識論で統計を考える。
存在論は、統計が表そうとするものを。意味論は、統計に基づく結論がもたらす意味を。認識論は、統計手法がどのようにデータを認識するか。
検定、ベイズ統計、ディープラーニング、因果推論あれやこれやを哲学で考えたときに、何が分かりますか分かりませんかみたいな。
例えばベイズ主義と頻度主義を認識論で考えるときに出てくる課題。前者は推論に対する信念から内在的な認識を行うので、現実との一致を検証する必要性がある。後者は検定プロセスの妥当から外在的な認識を行うので、検定結果に現れないプロセスを検証する必要がある。
数式でなんとなく分かった気になってる統計学を論理的に整理すると、膝を叩くような観点がたくさんあった。詳細をみるコメント0件をすべて表示 -
アカデミックの世界にいると、どこかベイズ主義統計学が頻度主義統計学に勝っているかのよう考えられている風潮がある。
それはベイズ統計学を使えば不確実な事象が起きる確率を、不確実性を考慮に入れたまま調べることができるからだ。
しかし,ベイズ統計学的な解釈では、どこかの時点に何かしらの特異点が存在して、それまで1/6の確率で各目が出ていたサイコロが突然6の目しか出ない状況が発生しないとは言い切れない。
そういった異質な事例を排除するために、得られたデータがある特定の確率分布に独立に従っている(iidである)と共通の認識として措定することに頻度主義統計学の意味があるといった話はものすごく納得できた。 -
統計学を学んでいく途中でいつのまにか頭の中に出来上がっている世界観のひとつひとつに、哲学の単語が当てはめられていく感覚が心地よい。(と感じられる人には良い本だと思います。そうでない人には苦行かもしれない)
ただ、流石に専門外の分野の記述では読むスピードが明らかに落ちる。統計学か科学哲学、どちらかに対する知識は欲しいところ(両方とも初学だと途中で諦めてしまいそう。それでも第1章はスムーズに読めるかも)。 -
2階書架 : 417/OTS : https://opac.lib.kagawa-u.ac.jp/opac/search?barcode=3410167659
-
科学的思考の能力を高めるには、本書に書かれている内容は把握しておきたい。
-
科学と哲学が切り離せないことがよくわかる。
統計学は仮。仮に主観と客観を交えて議論することはそのまま哲学な視点を用いることになる。
入門でもなく、データサイエンティストのためでも哲学者のためでもなく、越境をポイントにしている点が新しい。
科学妄信気味時代に、意味論や認識論の方向性を与えて科学の歴史を辿り、
統計学の地位を見直す形。
経済学で数式を用いられた歴史と同様で、モデルの扱い方の意味性を呼びかけるのが新鮮。
著者の講義のまとめ集大成。
読み直すほどにはおもしろい。
統計学とはなんぞやで構えて読んだ立場としては、欲しい情報だった。
統計学の本ではむしろ手に入らない視点。
結局、どう選ぶかは主観なんだけどどこまでもっともらしいかを考えるのは
非常に科学的見解でもあり哲学的視点でもある。
科学は事実にどこまで立ち向かえるのか。
今後の統計学が10年で様変わりしそうで面白かった。
なお、著者の前振りの通りで、主観がふんだんに入っている点はご注意な上で。
あくまで一つの見解。今後も論文ベースに話が展開される未来の途中。 -
確率や統計に接していて常々疑問に思っていたことが、本書で述べられていた。本書の読了後、統計処理をしていていろいろと腑に落ちることが多くあった。
-
人間が不確実な未来に対峙するために統計学のような学問を発達させるのは
「”その人の中での信念の度合い”(空想)と”実際の起こりやすさ”(現実)の誤差を
できるだけ小さくするため」なんだなあと気づく.
統計学の発達は不確実な未来に対峙する人類の知の蓄積.ただしそこには哲学的な含意,問いが必ず潜んでいる.
「ロジカルに考えろ」,「ファクトを追求しろ」,「ゼロベースで考えろ」とったビジネスの場面でよく聞くワードも信念度合いと実際の起こりやすさの誤差をゼロに近づけるという目的をシーンに応じて言い換えているものではないかと思う.
また 自分の頭の中で理解が曖昧だった確率・統計の各概念とその意味,つながりを一段深く理解できたように思う.
哲学に興味がある人にも統計学に興味がある人にもおすすめな1冊.
ただしビジネス書を読む気持ちで臨むと心折れるので,そこだけ注意.じっくり読もう.
==================
哲学の縦糸
存在論、意味論、認識論
与えられたデータをもとに,まだみぬデータを予測することが統計の真骨頂
(過去の傾向から未来を推測)
■記述統計
データを我々に理解できるような形で記述し,要約するための技術の総称
=既存データを整合的に要約
■推測統計
与えられたデータをもとに,ミカン速の事象を予測,推定する技術.
統計における大文字=カテゴリ
変数Xは”教室にいる学生の身長”{x_1, x_2…x_n}
共分散
Cov(X,Y)= 1/n(sig(x_i-X_avg)(y_i-Y_avg))
xが増えれば(減れば)yが増える(減る)関係にあればCovはプラス
相関=Cov(x,y)/sd(x)sd(y)
sd(x) = xの標準偏差
回帰係数b = b_xy = Cov(X,Y)/Var(Y)
実証主義
科学的な言明は事実や観測に基づかなければならない.「原子」「力」も排斥対象.
↓
ヒューム「恒常的な連接」
ボール同士が衝突するビリヤードの盤面を見て「ボールの衝突が他のボールを動かした」ことの直接観測はできない.AのあとにBが起きるという連接を観測できるのみ.
自然の斉一性(uniformity of nature)
過去未来を通して自然は同じように働くという仮定.
帰納法の大前提
P(A|B) = Bが生じた上でさらにAという事象が起こる確率.
= P(A,B)/P(B)
ベイズ定理
P(A|B) = P(B|A)*P(A)/P(B)
仮説の説明力と前々から持つ確らしさをもとに証拠が与えられた後の確率をアップデートするためのルール
事後確率=尤度*事前確率(P(A))/P(B))
尤度=仮説の元でどれだけ証拠が得やすいか
事前確率=証拠が得られry前の段階で仮説はどれだけ確からしいか
事後確率=証拠が与えられた元手の確立の確らしさ
P(X=165) = 確率(確率変数X(身長)が165cmである要素の集合)
P(X=165) = P(165) = 0.03 : 威張られた人が165cmである確率は3%である.
母集団推計に用いたい標本集団は、同じ確立モデルに基づいて抽出されている→IID 独立同一分布
→自然の斉一性に具体的に内実を与える
確率モデル→標本や確立関数、確率分布などによって表現される「データの背後に存在すると仮定された世界の真なるあり方」
統計モデル→確率分布について我々が立てる仮説・仮構・制約→目的(帰納推論)を満たすために人間が用いる道具に
パラメトリック統計
一様分布
ベルヌーイ分布→二項分布→正規分布、多変量正規分布
ベルヌーイ分布も二項分布も試行数わ増やせば正規分布へ
→母集団がある分布族に従うと仮定できたら標本からパラメータ推計に使える
確率とは?→信念の度合い論・頻度論
ベイズ定理に当てはめたからと言って,得られた事後確率が現実の問題を解消する,少なくとも真理に近づいているというには適切な確率種やモデルが現実のデータ生成モデルに合致していることが必要.
ベイズ定理はその人の信念のアップデートには使えるが,それが客観的に正しいかどうかはベイズ定理の枠を超えた検証が必要不可欠.
反証主義
ある仮説を立て,その実効性を検証.検証にパスしても「仮説が正しい」とは言えない.
「今回のテストを生き延びた」と言えるだけ.逆に検証にパスしなかった場合は
「仮説が誤っていた」という事実を得ることができ,次なる仮説への布石・進歩への足跡となる.
仮設検定
検証したいある仮説(H_0, 帰無仮説)とそれに対立する仮説(H_1, 対立仮説)を用意.
得られたデータから帰無仮説を棄却すべきかどうか,棄却せず保持すべきかどうかを確認する.
第一種の誤り:偽陽性 帰無仮説が真なのに,それを棄却してしまうこと
第二種の誤り:偽陰性 帰無仮説が偽なのに,それを棄却しそこなう
P値=帰無仮説が正しいとした時のデータの「あり得なさ」
=小さいほど「帰無仮説が正しいという前提が疑わしい」=棄却できうる
内在的な認識論,外在的な認識論
知識(正当化された信念)の拠り所は主体の中だけにとどまるのか,主体の外部に依拠するのか.
回帰モデル
説明変数Xー>目的変数Y
求めるYが実数値の場合は回帰問題,離散値の場合は分類問題と称されることが多い.
赤池情報量基準(AIC)
一般に推論モデルは説明変数が多ければ多いほど既存データ内での適合精度は高まる.
ただモデルは未知の入力に対する予測の有効性を示さない.それどころか予測精度を妨害するまでに過度にフィットしてしまうこともある.(過学習)
赤池情報量AICは平均対数尤度の推定量にマイナス2をかけた値によって将来予測におけるモデルの優劣比較を提案.
モデルのパラメータの良し悪しに加え変数採用の良し悪しも比較可能に.
AIC : -2(logL(M) - k)
ウィリアムジェイムズ 「真理とは役に立つ観念に他ならない」 プラグマティズム 実用主義」「実際主義」「行為主義」
AICは実用的な落とし所見つけに「役立つプラグマティズムな道具.
深層学習はAICの対局
動物的知識→理屈はわからないが知っている、できる
反省的知識→なぜその知識があるのか説明できる
因果の認識
ヒューム 規則説
デヴィッドルイス 反事実条件説
「もし隕石が衝突してなかったら、恐竜はぜつめつしてなかった」→だから恐竜絶滅の原因は隕石 -
哲学者というのは99%は価値のない研究をしているが、数学や物理学(特に量子力学)を対象とするとなんかすこしカッコよい感じがする。まったくの勘違いなのであるが。
高度に抽象化された数学は哲学と同一視されるという暴論をよく聞くが、全くのお門違いであると言いたい。
本書は対象が確率である。なるほど、確率ほど数学が哲学チックになる分野はないね。
「明日の天気は30%の確率で雨です。傘を念のため持っていくと良いでしょう」とお天気キャスターはいう。
30%の確率で雨。
これはいったい何を主張しているのだろうか。
仮に明日を何回も試すと(数学では試行と呼ぶ)、10回中3回は雨になる、といっているのであろうか。
それとも、今日の気圧配置を時間発展させると(つまり時間依存の方程式を数値的に解く)100回のシミュレーションで30回は雨になりました、ということでしょうか。
哲学者が良く使う難解な言葉でけむに巻く論調。正直言ってもううんざりです。
そんな時間があるのであれば哲学よりも数学を学びましょう。 -