統計学が最強の学問である

著者 :
  • ダイヤモンド社
3.48
  • (254)
  • (636)
  • (661)
  • (187)
  • (47)
本棚登録 : 6926
レビュー : 747
  • Amazon.co.jp ・本 (320ページ)
  • / ISBN・EAN: 9784478022214

感想・レビュー・書評

並び替え
表示形式
表示件数
  • 最近、なんだかお気に入りの統計学。昨日も阪急の紀伊国屋でおじさんが統計学の本を大量買いしてました。
    この本は、統計学とはなんぞや→統計学の威力→統計学の理論→まとめって感じで進みます。

    A高校とB高校の同じ学年の生徒に対して同じ模擬試験を受験させた。
    男子生徒同士で比べるとA高校の平均点はB高校よりも5点高い
    女子生徒同士で比べるとA高校の平均点はB高校よりも5点高い
    ではA高校とB高校の平均点を男女全体で比較するとどちらが高い?

    何も考えずに回答するとA高校が5点高い?でも、なんだか違和感があって違うような気もする。前提が記載されていないんです、この問題。
    ちょっと待てよ!と思えるようになることが、この本の主旨です。

  • 【ありかと】
    本来は根本原理を突き止めることが学問であるとわたしは思いますが、複雑すぎて原理を突きつめるのに、時間がかかりすぎるときに統計学は有効であると思います。

    統計的な手法であれば、直接原理を突きつめる必要はないのでスピード感がちがいます。原理を突き止めたほうが精度はよい(というか100%)のですが、そこまでの精度は望んでいない、しかしスピードは必要という場合には最適です。

    がん細胞の発生メカニズムがわかれば、何が要因かはわかるでしょうが、実際にはさまざまな要因が絡んでくるので複雑になります。
    タバコを吸うと発がんするメカニズムがわかれば、タバコは良くないと簡単に結論付けることができます。しかし、タバコとがんを直接むすびつける要因をみつけるために、何十年もの時間が必要であるとなれば、統計的な考え方が有効になってきます。直接、解を求めるには複雑すぎて時間がかかるが、厳密に解を求める必要はない、傾向をつかめれば問題ない場合には統計学は最適です。

    人の行動パターンも複雑です。これも統計学を用いれば傾向はつかめます。根本原理になると「このようなものが出てきた場合は、脳がこういう動きをして・・・」とひとつひとつ捉えていく必要があり、人間の短い人生では解明できそうにありません。

    わたしがかかわっている流体もひとつひとつ分子の動きを計算すれば、正確な解が出ます。
    コンピュータが高速になったおかげで、流体の流れ解析ができるようになってきました。しかし、これもひとつひとつの分子の流れを捉えているわけではなく、ある程度の大きさでモデル化されたものを解析します。したがって、ある程度の誤差は生じます。厳密に解を求めるとなると膨大な時間がかかってしまうので、費用対効果を考えると得策ではなくなります。

    流体ひとつひとつの動きを捉えて高速で解を導くことができれば、天気予報も100%当たるということになります。(こうなると予報ではないが・・・)

    それから「営業の訪問回数と受注は比例する」これを統計的に確認してみます。

  • 統計学の中身ではなく、その歴史や有用性を解説している。答えが一つに決まらない場合、やってみてその効果が統計によって明らかになる。影響を与える要素が多すぎる場合、事前に効果を予測するのは困難だが、統計を用いれば結果がいかに有用であるかを確率的に確かめることができる。たしかに最強といえるかもしれない。

  • 統計学に興味はあるけどどこからはじめていいかわからない人向けの解説書。統計学の基本をわかりやすく説明している。最終的に統計は使ってみてトライ&エラーで調べながら学んでいくのが早いが取っ掛かりとして読む読み物としては苦手意識を持たさず、すんなり統計の世界にはいれる大きな通りやすい入り口のように感じた。

  • ビジネスの現場でも、あるいは教育政策においても、自分の経験や思い込みに基づいた議論が行われている。このような議論は確かに時間のムダである。過去にたまたま上手くいったからといって、次もうまくいくという根拠にはならないからである。このような不毛な議論の中で大きな力を発揮するのが「統計の力」である。統計の力は、適切なサンプルと方法の下に行われていれば、現実に起こっている現象に対し、限りなく近い答えを提示することができる。統計のリテラシーは、まさしくビジネスマンにも必要な力である。

    しかいし、実際にデータを用いて分析を行う際に陥りがちな罠としては、

    ・ランダム化比較、A/Bテストなどで収集したデータが単なる誤差であるケース(P値を考慮していない)
    ・実際に行動改善につながらない無意味な統計解析(直接的な利益につながり、因果関係の分かる統計解析)

    このような失敗に陥らないようにする必要がある。

    また、A/Bテストやランダム化比較実験は、何物についても因果関係を特定できる最高の手法である。インターネット企業でこれらが重視されている理由でもある。研究対象者・対象物をランダムに二組にわけて実験を行い、パフォーマンス・結果の比較を行えば、その因果関係を特定できる。ランダム化比較実験は、政治・教育・経営・スポーツなど、あらゆる場面で最善の答えを導くことが出来る。「実験」以外の要素は平均的なランダム要素として排除してしまえるから楽である。

    ありとあらゆる意思決定に際し、ランダム化比較実験は効果を発揮する。継続的にデータを採取し比較することさえできれば、答えがなかったものに答えを提示できる。アメリカの教育政策ではランダム化が行われるようになってきている。

    しかし、実際にはランダム化が難しい局面も存在する。倫理的問題、感情的問題などでランダム化が不可能な場合は、ケースコントロールが力を発揮する。例えば、分析したい要因の差異以外は、ほぼ同じ性質(年齢・性別・居住地域等)を持つ人間を集めて分析するのである。ランダム化比較には及ばないが、かなりの精度で実験結果を提示することが出来る。

    データ間の関連性を示し、それが誤差と呼べる範囲なのかどうかを検定する手法は全て回帰分析の一種である。回帰分析では回帰係数の誤差などバラツキを考慮する必要がある。つまり、t検定やカイ二乗検定による信頼区間・P値などを見て、データが信頼に足るものかどうかを判断するリテラシーが必要なのである。

    本来数値ではない2つのグループあるいは二値の変数を0か1で表現するやり方をダミー変数と呼ぶ。

    重回帰分析は、説明変数に影響する要因が複数ある状況へ拡張された回帰分析であり、フェアな比較を行うことが出来る統計解析である。政府のレポートや学者の論文においても、重回帰分析とそれを拡張したロジスティック回帰は良く用いられている。統計手法の王道である。
    重回帰分析は結果変数が連続値の場合、ロジスティック回帰は「ある・なし」などの二値において用いられる。
    回帰分析においては、変数間同士の交互作用は無視されているため、交互作用項を考慮するとさらに分析は複雑なものとなる。(そのような解析手法も存在する)
    例えば「傾向スコア」を用いてほぼ同質の集団同士の比較を行えば、複雑な変数の影響を考慮せず要素の比較ができる。

    因果関係=「AだからB」を表す
    相関関係=「Aが大きい(小さい)とBも大きい(小さい)」を表す

    一般知能という因子そのものは測定不能である。しかし、知能と相関する因子の測定は可能である。記憶力や計算能力、言語力など、相関する複数の因子の測定結果から合成変数を作り出したものがIQである。測定可能な相関する因子から抽象的な因子(モチベーションなど)を推定するのが因子分析である。なお、パス解析は心理的因子を含む変数間の関係性とその強さを表したものである。

    バスケット分析とは、データマイニングの一種であり、商品AとB間の同時購入の相関関係について、信頼度・改善度・支持度などの指標とともに分析したものである。だが、カイ二乗検定を使えば、バスケット分析よりも誤差に騙されることなく自動的に関連性の強い商品の組み合わせを捜すことが出来る。(アマゾンの関連商品などの相関分析)

    人工知能の分野でクラスター分析と呼ばれるものがある。例えばコンピュータが椅子が椅子であることを認識するためには、椅子とデータ的に似た類似性の高いグループに分類する必要があるが、そのための手法の1つがクラスター分析である(教師なし学習)。マーケティングでは市場のセグメンテーション・顧客のグループ化のために用いられる。

    「教師あり学習」とは、類似性によるグループ分けではなく、椅子が椅子であることをあらかじめ教えてやることである。そのために統計学ではロジスティック回帰を行う。しかし、データマイニングの世界では、ニューラルネットワークやサポートベクターマシンという手法を用いれば、曲線的な関係や交互作用も含め。最も識別力が高い分類を行うことが出来るとされる。曲線的で、複数の変数が絡む複雑な関係性がデータ間に存在しているのであれば、回帰モデルよりも性能は高い。データマイニングは予測には極めて力を発揮する。しかし、これらの手法は計算過程や関連性が複雑であり、実際に行動に移す際には回帰分析の方が役に立つこともある。

    テキストマイニングは、膨大な文章の形態素解析を行い、使われている単語の数などを統計学的に分析することである。営業日誌のテキストマイニングによって、成功事例と失敗事例の間の単語の使用頻度の違いを分析したもの、有価証券報告書の単語を分析し、倒産する企業としない企業の間の単語出現頻度を分析した例もある。アンケートや自由記述欄、SNSの分析から関係を見出すことも行われている。
    計量経済学は、統計学的な手法を用いて理論と実証の間を繋ぐ学問である。計量経済学の世界では、ロジスティック回帰よりもプロビット回帰という手法を用いている。また、傾向スコアに代えてトリートメントエフェクトモデルやHeckitと呼ばれる手法を用いている。

    帰納-個別の事例を集めて一般的な法則を導く(統計学的思考)
    演繹-ある事実や仮説に基づいて論理的推論により結論を導く(ニュートン的な思考)

    確率の考え方には、頻度論とベイズ論の二つがある。ベイズ理論では事前確率を設定し、それと実際のデータを計算し、事後確率を算出する。社会調査や心理統計は頻度論、計量経済学やデータマイニングの世界ではベイズ論の考え方が多く浸透している。十分なデータがあり、正確さが求められる分野においては頻度論が用いられ、多少の間違いはあっても迅速に効率的に結論を得たい場合はベイズ論が用いられる。

    エビデンス=科学的根拠が重要であるが、それにもレベルが存在する。専門家の意見や動物を用いた基礎実験はそのヒエラルキーの一番下に存在するものであり、すぐに一般に適用されるほど絶対のものでは決してない。実際の現実的なシチュエーションにおいて、ある程度の数の人間を分析した結果でなければエビデンスとは言えない。

    過去のこうした分析研究を複数まとめて自説を展開するのを系統的レビューといい、その内ランダム化比較実験や観察研究の中で報告された統計解析の結果をさらに解析してまとめあげる作業をメタアナリシスと言う。これらはエビデンスとしての信頼性が高い。このような論文は文献データベースからも簡単に探すことができる。日本語の論文よりも、英語の論文の方が良い資料が得られる。

    経験と勘に頼った議論から、早く脱却しよう。

  • いやぁ、参った(__,)/~~
    かなり数式は少ない本であるけど、理解が全般にわたってボンヤリしてるのは、自分が統計学の素養がないのか。
    もう一度精読すべき本だとおもう。

    内容は新しさありGJでした

  • どんなときにどの解析方法使うべきかを、分析軸(説明変数)と比較したいもの(結果変数)によって分類して1枚の表にまとめた、170ページの図表25「一般化線形モデルをまとめた1枚の表」が参考になる。

  • タイトルのドヤ感から避けてたものの、2013年話題の本!的な扱いをされていたため購入。お勉強したいと思っていた統計学の基本のキである“姿勢”について知る事ができる一冊。
    最終章として、エビデンスの大事さとそこへの接触の仕方を説いていることからも、著者が読者に対して「統計学を実践せよ」というアクションを求めていることが伝わってくる。
    じゃあ実際お仕事に活かすには?ってことを考えると、基本の計算方法等をもっとお勉強的に学ばなければな、と思う。
    実践編としてそういった点をフォローした新刊が出れば、有り難や。

  • 統計学の勉強本ではありませんが、統計学の手法が様々な分野で利用されていることを知りました。例えば、Amazonのオススメ通知とか。
    確かに筆者の言う通り、統計学の知恵があればどんな仕事でも応用できるし、一方で知らないと痛い目を見ることはあるのかな、と思いました。あとは、統計学による推定は、あくまで基本的に何らかの前提(仮定)の上で成り立つことを忘れてはならない、ということを再確認しました。つまり、その分野の背景を持たずにデータを語ることは理屈でしかなく、重要なのはそのデータをいかに活かすことができるのか、だということです。私は医療者ですので、根拠に基づいた医療(EBM)という言葉は良く目にしますが、このことについても全く同じことが言えるかと思いますし、医学部出身者(医師ではない?)彼の意見も同じでした。
    最後に、これが30歳そこそこの若者によって書かれている、ということが何より驚きでした。一読の価値はあるかと思います。

  • 統計学の凄さをひたすら語ってる本。読みやすくて入門書、統計学に興味を持ちたい人にはいい本。
    統計学とビックデータのからみは一番興味深く読めました。
    後半の回帰分析あたりからは一転して難しく読みづらくなってきた。
    序盤だけ読むというのもいいかも。

著者プロフィール

1981年、兵庫県生まれ。統計家。東京大学大学院医学系研究科医療コミュニケーション学分野助教、大学病院医療情報ネットワーク研究センター副センター長、ダナファーバー/ハーバードがん研究センター客員研究員を経て、2014年11月に株式会社データビークル創業。自身のノウハウを活かしたデータ分析支援ツール「Data Diver」などの開発・販売と、官民のデータ活用プロジェクト支援に従事。著書に『統計学が最強の学問である』(ダイヤモンド社)、『1億人のための統計解析』(日経BP社)など。

「2017年 『ベストセラーコード』 で使われていた紹介文から引用しています。」

統計学が最強の学問であるのその他の作品

西内啓の作品

ツイートする