統計学が最強の学問である

著者 :
  • ダイヤモンド社
3.48
  • (254)
  • (636)
  • (661)
  • (187)
  • (47)
本棚登録 : 6925
レビュー : 747
  • Amazon.co.jp ・本 (320ページ)
  • / ISBN・EAN: 9784478022214

感想・レビュー・書評

並び替え
表示形式
表示件数
  • 本当に統計リテラシーを身につけたいとなったら、独学ではなく誰かに教わったほうが良さそう。
    独学してみようと思ったこともあったけど、体系的に教えてくれる教材はなさそうだったし。

  • 経済学を学んでない者にも非常に優しく読みやすい本。アメリカの事例を多く取り上げているのは『学力の経済学』と似ているところ。
    ビッグデータの活用は①変化の要因をどう利益につなげるか②それは実行可能か③利益がコストを上回るかが大切。
    ランダム化非較実験は興味深い。特に「ミシン2台購入で一割引」キャンペーンの成功例はなるほどなぁーと思った。ただ現実、倫理、感情の壁はあるとのこと。
    あまり身に付いた感はないが統計学や計量経済学の有意さはある程度イメージできたので必要になればより勉強したいところ。

  • 厳密には要因や原因が分からないことに対して、帰納的にアプローチすることができるのが統計学。全量を解析しなくても、誤差についても加味することで、実用に耐えられる十分な精度が得られる。という点について解説されており、統計学の成り立ちや使い道がよく理解できた。ただ、後半はちょっと難しかったかな。

  • 統計学を学び始める前に準備として読んだら全体像がわかってとてもよい。

  • ビジネスの現場でも、あるいは教育政策においても、自分の経験や思い込みに基づいた議論が行われている。このような議論は確かに時間のムダである。過去にたまたま上手くいったからといって、次もうまくいくという根拠にはならないからである。このような不毛な議論の中で大きな力を発揮するのが「統計の力」である。統計の力は、適切なサンプルと方法の下に行われていれば、現実に起こっている現象に対し、限りなく近い答えを提示することができる。統計のリテラシーは、まさしくビジネスマンにも必要な力である。

    しかいし、実際にデータを用いて分析を行う際に陥りがちな罠としては、

    ・ランダム化比較、A/Bテストなどで収集したデータが単なる誤差であるケース(P値を考慮していない)
    ・実際に行動改善につながらない無意味な統計解析(直接的な利益につながり、因果関係の分かる統計解析)

    このような失敗に陥らないようにする必要がある。

    また、A/Bテストやランダム化比較実験は、何物についても因果関係を特定できる最高の手法である。インターネット企業でこれらが重視されている理由でもある。研究対象者・対象物をランダムに二組にわけて実験を行い、パフォーマンス・結果の比較を行えば、その因果関係を特定できる。ランダム化比較実験は、政治・教育・経営・スポーツなど、あらゆる場面で最善の答えを導くことが出来る。「実験」以外の要素は平均的なランダム要素として排除してしまえるから楽である。

    ありとあらゆる意思決定に際し、ランダム化比較実験は効果を発揮する。継続的にデータを採取し比較することさえできれば、答えがなかったものに答えを提示できる。アメリカの教育政策ではランダム化が行われるようになってきている。

    しかし、実際にはランダム化が難しい局面も存在する。倫理的問題、感情的問題などでランダム化が不可能な場合は、ケースコントロールが力を発揮する。例えば、分析したい要因の差異以外は、ほぼ同じ性質(年齢・性別・居住地域等)を持つ人間を集めて分析するのである。ランダム化比較には及ばないが、かなりの精度で実験結果を提示することが出来る。

    データ間の関連性を示し、それが誤差と呼べる範囲なのかどうかを検定する手法は全て回帰分析の一種である。回帰分析では回帰係数の誤差などバラツキを考慮する必要がある。つまり、t検定やカイ二乗検定による信頼区間・P値などを見て、データが信頼に足るものかどうかを判断するリテラシーが必要なのである。

    本来数値ではない2つのグループあるいは二値の変数を0か1で表現するやり方をダミー変数と呼ぶ。

    重回帰分析は、説明変数に影響する要因が複数ある状況へ拡張された回帰分析であり、フェアな比較を行うことが出来る統計解析である。政府のレポートや学者の論文においても、重回帰分析とそれを拡張したロジスティック回帰は良く用いられている。統計手法の王道である。
    重回帰分析は結果変数が連続値の場合、ロジスティック回帰は「ある・なし」などの二値において用いられる。
    回帰分析においては、変数間同士の交互作用は無視されているため、交互作用項を考慮するとさらに分析は複雑なものとなる。(そのような解析手法も存在する)
    例えば「傾向スコア」を用いてほぼ同質の集団同士の比較を行えば、複雑な変数の影響を考慮せず要素の比較ができる。

    因果関係=「AだからB」を表す
    相関関係=「Aが大きい(小さい)とBも大きい(小さい)」を表す

    一般知能という因子そのものは測定不能である。しかし、知能と相関する因子の測定は可能である。記憶力や計算能力、言語力など、相関する複数の因子の測定結果から合成変数を作り出したものがIQである。測定可能な相関する因子から抽象的な因子(モチベーションなど)を推定するのが因子分析である。なお、パス解析は心理的因子を含む変数間の関係性とその強さを表したものである。

    バスケット分析とは、データマイニングの一種であり、商品AとB間の同時購入の相関関係について、信頼度・改善度・支持度などの指標とともに分析したものである。だが、カイ二乗検定を使えば、バスケット分析よりも誤差に騙されることなく自動的に関連性の強い商品の組み合わせを捜すことが出来る。(アマゾンの関連商品などの相関分析)

    人工知能の分野でクラスター分析と呼ばれるものがある。例えばコンピュータが椅子が椅子であることを認識するためには、椅子とデータ的に似た類似性の高いグループに分類する必要があるが、そのための手法の1つがクラスター分析である(教師なし学習)。マーケティングでは市場のセグメンテーション・顧客のグループ化のために用いられる。

    「教師あり学習」とは、類似性によるグループ分けではなく、椅子が椅子であることをあらかじめ教えてやることである。そのために統計学ではロジスティック回帰を行う。しかし、データマイニングの世界では、ニューラルネットワークやサポートベクターマシンという手法を用いれば、曲線的な関係や交互作用も含め。最も識別力が高い分類を行うことが出来るとされる。曲線的で、複数の変数が絡む複雑な関係性がデータ間に存在しているのであれば、回帰モデルよりも性能は高い。データマイニングは予測には極めて力を発揮する。しかし、これらの手法は計算過程や関連性が複雑であり、実際に行動に移す際には回帰分析の方が役に立つこともある。

    テキストマイニングは、膨大な文章の形態素解析を行い、使われている単語の数などを統計学的に分析することである。営業日誌のテキストマイニングによって、成功事例と失敗事例の間の単語の使用頻度の違いを分析したもの、有価証券報告書の単語を分析し、倒産する企業としない企業の間の単語出現頻度を分析した例もある。アンケートや自由記述欄、SNSの分析から関係を見出すことも行われている。
    計量経済学は、統計学的な手法を用いて理論と実証の間を繋ぐ学問である。計量経済学の世界では、ロジスティック回帰よりもプロビット回帰という手法を用いている。また、傾向スコアに代えてトリートメントエフェクトモデルやHeckitと呼ばれる手法を用いている。

    帰納-個別の事例を集めて一般的な法則を導く(統計学的思考)
    演繹-ある事実や仮説に基づいて論理的推論により結論を導く(ニュートン的な思考)

    確率の考え方には、頻度論とベイズ論の二つがある。ベイズ理論では事前確率を設定し、それと実際のデータを計算し、事後確率を算出する。社会調査や心理統計は頻度論、計量経済学やデータマイニングの世界ではベイズ論の考え方が多く浸透している。十分なデータがあり、正確さが求められる分野においては頻度論が用いられ、多少の間違いはあっても迅速に効率的に結論を得たい場合はベイズ論が用いられる。

    エビデンス=科学的根拠が重要であるが、それにもレベルが存在する。専門家の意見や動物を用いた基礎実験はそのヒエラルキーの一番下に存在するものであり、すぐに一般に適用されるほど絶対のものでは決してない。実際の現実的なシチュエーションにおいて、ある程度の数の人間を分析した結果でなければエビデンスとは言えない。

    過去のこうした分析研究を複数まとめて自説を展開するのを系統的レビューといい、その内ランダム化比較実験や観察研究の中で報告された統計解析の結果をさらに解析してまとめあげる作業をメタアナリシスと言う。これらはエビデンスとしての信頼性が高い。このような論文は文献データベースからも簡単に探すことができる。日本語の論文よりも、英語の論文の方が良い資料が得られる。

    経験と勘に頼った議論から、早く脱却しよう。

  • いやぁ、参った(__,)/~~
    かなり数式は少ない本であるけど、理解が全般にわたってボンヤリしてるのは、自分が統計学の素養がないのか。
    もう一度精読すべき本だとおもう。

    内容は新しさありGJでした

  • どんなときにどの解析方法使うべきかを、分析軸(説明変数)と比較したいもの(結果変数)によって分類して1枚の表にまとめた、170ページの図表25「一般化線形モデルをまとめた1枚の表」が参考になる。

  • タイトルと発行部数の多さに見事にだまされた。

    統計学の基本的な考え方、手法が紹介されているものの、タイトルに書かれた「最強の学問」足りうる理由が具体的になんであるのかが伝わってこなかった。

    あらゆる学術的領域に活用可能であることがその理由であるならば、それは単に手法のことであり学問というレベルではないのでは?
    たとえば、既存の学問で考えられていた定説を統計学によって覆したといった事例がもっと多く記載されていれば良かった。

  • 統計学の概略について述べている印象でした。ある程度知識のある読者にとっては既知の内容も多いのかも知れないですが、エピソード的な知識は豊富にちりばめられていましたし、私のような門外漢にとっては統計学の凡そのフレームが見えてきたかな、という感じでしょうか。

  • ごめんなさい。
    半分まで頑張って読んでたんですが、途中から統計学の専門的なところに頭がついていかなくなり断念しました。

    序盤のあみだくじの統計結果からは入りやすかったけど、その後が理解不能でした。

    タイトルから見て、統計学の入門書として認識していたので残念でした。

    もう少し分かりやすく実生活に活かせる様な、簡単言い回しで書いて欲しかった。
    専門的なことを書くのならもう少しタイトルを考えてくれた方が良かったと思う。

全747件中 21 - 30件を表示

著者プロフィール

1981年、兵庫県生まれ。統計家。東京大学大学院医学系研究科医療コミュニケーション学分野助教、大学病院医療情報ネットワーク研究センター副センター長、ダナファーバー/ハーバードがん研究センター客員研究員を経て、2014年11月に株式会社データビークル創業。自身のノウハウを活かしたデータ分析支援ツール「Data Diver」などの開発・販売と、官民のデータ活用プロジェクト支援に従事。著書に『統計学が最強の学問である』(ダイヤモンド社)、『1億人のための統計解析』(日経BP社)など。

「2017年 『ベストセラーコード』 で使われていた紹介文から引用しています。」

統計学が最強の学問であるのその他の作品

西内啓の作品

ツイートする