統計学が最強の学問である [Kindle]

著者 :
  • ダイヤモンド社
3.68
  • (28)
  • (73)
  • (50)
  • (8)
  • (5)
本棚登録 : 791
感想 : 65
本ページはアフィリエイトプログラムによる収益を得ています
  • Amazon.co.jp ・電子書籍 (352ページ)

感想・レビュー・書評

並び替え
表示形式
表示件数
絞り込み
  • どの分野においても、仮説を立てたときに
    その仮説が正しいかどうか確かめるには
    実際に実験して、その結果を分析する必要があります。

    その時、少なからず統計学が必要です。

    本日ご紹介する本は、
    どの分野にも深く関係する統計学の
    考え方を紹介した1冊。


    ポイントは
    「解析コストと利益判断」

    何かの判断に、必ずしも最初からすべての解析を全データで行う必要はありません。
    データ分析で重要なのは、解析にかけたコスト以上の利益の判断につながるものかどうか?


    このような適切な判断をするためには、
    20世紀に発達した現代的な統計学の手法を使う必要があります。


    どんな分野でも、統計リテラシーは重要です。


    「ランダム化」

    高度な解析手法を用いれば、どの「原因」を制御すれば、
    どれだけ「結果」を左右できるかが予測できます。

    しかし、どうやっても解けない問題もあります。

    正解がないのであればとりあえずランダムに決めてしまう、
    という選択肢は何もしないより価値があります。


    「回帰分析」

    一方のデータから他方のデータを予測する数式を推定するのが回帰分析。

    回帰分析で得られた「因果関係を”よく表す代替え物”」を回帰モデルと言います。

    回帰分析で良い回帰モデルが得られれば
    たまたま得られた誤差を含むデータから知りたいことが予測でき、
    適切な判断が下せます。


    統計学は今はやりのAIに欠かせない学問でもあります。
    ぜひ、読んでみてください。

    ◆本から得た気づき◆
    ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
    どんな分野の議論においても、データを集めて分析することで最速で最善の答えをだすことができる
    科学的根拠のうち、重視されるものの一つが、統計データとその分析結果
    ほとんどすべての学問に関わる学者は統計学を使わざるを得ない
    「十分なデータ」をもとに「適切な比較」を行う
    データのうち何が、どのような関係で利益とつながっているのか
    いくら考えてもわかるわけがないことに対して、よく考えたり、話し合えばわかるようになると思うこと自体バカな思い上がり
    数回程度しかチャンスがないものに対して、統計学は無力。
    統計リテラシーがなければ、経験と勘だけの不毛な議論が尽きることはない
    ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

    ◆目次◆
    第1章 なぜ統計学が最強の学問なのか?
    第2章 サンプリングが情報コストを激減させる
    第3章 誤差と因果関係が統計学のキモである
    第4章 「ランダム化」という最強の武器
    第5章 ランダム化ができなかったらどうするか?
    第6章 統計家たちの仁義なき戦い
    終 章 巨人の肩に立つ方法
    ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

  • 【所感】
    ・このような本を読んで概観や専門家からの活きているメッセージを取得するのも大切だが、統計検定等でベースとなる統計知識を体系だって先に取得した方がより、理解度が増すと思われる。
    ・世の中最後の違いを創り出すのは美意識だと言われているけれど、これまで美意識(=定性的な判断)領域だと思われていた部分がどんどんDSにより定量化出来るようになっている。DSの学習により美意識に頼らないjudgeが可能になっていくのでは。
    【各論】
    ・自身が個人的な経験がある領域(ヘルスケア、教育)には、なんらデータに基づいておらずただ自身の経験のみから意見をする人がしばしば散見される。
    ・全数調査よりサンプリング調査の方が精度が落ちるのは間違いないが、判断や行動に影響しないレベルの精度に拘るのは無意味。
    ・標準誤差の上下2倍に95%の確立で収まる。
    ・トースト(落とすとバターの面が床につく)や傘(勝った瞬間に雨やむ)と同様に、ビジネス上の成功法則も、ほんの数例程度の偏った成功体験を過剰に一般化したものとは言えないだろうか。
    ・p値が5%以下なら、「この結果は偶然得られたとは考えにくい」と言える。
    ・統計的な裏付けがないのに、それが間違いだとか正しいと決めつけることが間違い。

  • ▼本書を選んだ理由
    私自身の目下の業務には今のところ絡んでいないのですが、個人的に最近、AI・機械学習のセミナーに参加しました。その講師の先生が「専門家以外の人がAIや機械学習を学ぶ場合でも、統計学の基本だけは押さえておくべき」と言っていたため、本書を手に取りました。

    ▼「なぜ統計学が最強の学問」と言えるのか?
    その理由として・・・”統計学は、データを集め分析することで最速で最善の答えを出すことができる。このことは、どんな分野で議論をするにしても不可欠なプロセスとなるからだ” と本書では言っています。
    また、統計学を知っているかどうか?が結果を分ける事例として、本書の中に「あみだくじで買い出し当番を決める」と言う筆者の研修者時代の経験が出てきます。あみだくじについて私はこれまで、選んだところによってたどり着く結果がどこになるかは、どれも等価だと思っていました。詳細は本書を見て欲しいのですが、実はあみだくじの結果はランダムではなく偏りがあるということを本書では明確に示しています。このことから、本書は、統計を知らないと(自分は運が悪いんじゃないか・・・)と間違った思い込みで済ましてしまう事にもなると話しており、私もこれを見てはっとすることが多々ありました。

    ▼どんなところが役に立ったか?
    中盤からはビッグデータやデータサイエンスについての考え方についても書かれています。例えば、AI・機械学習を学ぶとまず最初に「回帰分析」の話が出てきます。そもそも回帰分析とは何か?何のために扱うのか?が分かっていないと参考書を見てもなかなか頭に入ってきません。その点本書の第5章には、回帰分析の考え方を数式を使わずに分かりやすく解説しています。私が機械学習の学習を進める上で大きな助けになりました。また、統計学にも、多くの分析手法があり、どれを使って分析すればいいか分からない。あるいは、分析結果を見てどう判断すればいいのかも分からない、といった初学者故の悩みもあります。そんな人のためにも分かりやすく解説してあったのも良かったです。

    本書は全体的に、数式など難解な部分を上手に省いて説明しています。その意味で本書はあくまで統計の素養を会得するための「きっかけ」の1冊と言えます。

  • 統計学というあらゆる学問を横断するツールを本格的に学びたいと思い始めたので、少し前にネットで話題になっていて本書を手に取った。評判のとおり、全体を俯瞰するにはちょうど良い一冊だった。小難しい数式もあまり出ないので初学者もアレルギーを起こさず通読できる。自分は「実験計画法」をまず学びたいので、フィッシャーのいろいろな功績とか背景が述べられているのは大変参考になった。統計学を学ぶと各種検定が出てきてどう使い分けるのかがイマイチよく分からないが、本書では「一般化線形モデルをまとめた1枚の表」というもので明瞭に示されていてパッと見通しが良くなった。

  • 統計学

    原因不明な問題に取り組もうとしたら、やるべきことら慎重かつ大規模なデータ収集と適切な統計解析

    ランダムサンプリング

    標準誤差の2倍の範囲に含まれる確率が95%
    0.5%ならば、前後1%にほぼ収まる

    クロス集計では、誤差を考えた試算をしなければ、差が優位なものなのか、誤差の範囲なのかわからない。
    カイ二乗けんていでp値5%以下を目指す。

    ランダム化、対象を無作為に選んで比較することで、条件を揃えた比較対象を作る難しさを払拭できる。一回こっきり、倫理感情の壁がなければ理論上なんでも分析できる

    ランダム化されていないことで、捉えきれていない条件が存在する可能系は確かに否定できないが、大きな危険がわかっているものをあえて避けないことは愚かな判断といえる。

    データの関係性を示す、一方のデータから他方のデータを予測する数式を推定するのが回帰分析

    親と子の身長の関係は平凡への回帰を示す

    一般化線形モデルという枠組み

    演繹のけいりょうけいざいがくと帰納の統計学

    エビデンスの4階層
    1. メタアナリシス、系統的レビュー
    2. ランダム化比較実験
    3. 疫学・観察研究
    4. 専門家の意見・基礎実験

  • 統計学を勉強し直す

  • 「統計的に物事を考えよう」という気持ちにさせてくれる本。語り口も軽妙で読みやすい。
    統計学の詳細な知識は、この本だけでは全然足りないが(後半になると「第x章で学んだ〜〜」といった記述が度々あるが、正直半分も理解してなかった)、巷の似非統計学みたいなものに騙されないようにしよう、という心意気はできた。
    データがあっても、それを使って何をしたいのか、を考えられる人間がいないと意味がないということも教えてくれる。統計学はあくまでも道具であり、道具に使われるような本末転倒な事態に陥ってはならない。
    私はもっと詳しく統計学を知りたいので、統計検定の勉強でもしてみようかなと思ってます。

  • あえて断言しよう。あらゆる学問のなかで統計学が最強の学問であると。

    挑戦的なカバーの文に恥じない内容だった。
    統計学の重要性を、身近な例(あみだくじ)や過去の実例(コレラなど)をもとに分かりやすく説明。そもそもデータを分析する目的は何か、正しい分析手法を用いることが出来ているのか、どこまで精度を求めるのかなど見つめ直すべきポイントがクリアになった。内容的にはさらっと触れるものなので、初心者におすすめ。中級者は物足りないかも。

    ①何かの要因が変化すれば利益は向上するのか
    ②そうした変化を起こすような行動は実際に可能か
    ③変化を起こす行動が可能だとしてその利益はコストを上回るのか

  • 途中までは、わかりやすく統計学が最強の学問であることがわかったが、後半の具体的な理論の話は正直、予備知識がない人にはわからない。

  • 何も残らない。

  • 統計学・データ分析に興味がある方の導入として良い本だと考える。
    なぜ統計学が現代において必要・重要なのかというそもそも論から解説され、統計学のランダム化や各種推定のざっくりとした全体像を掴むのに最適だった。

    本書より「エビデンスは議論をぶっ飛ばして最善の答えを提示する」とあるが、理論や議論をすっ飛ばしてデータから結論をいきなり導き出せるツールとして、目まぐるしいスピードで変化する現代社会を生き抜くためこの本をきっかけに統計学とデータ分析を使用していきたい。

  • 統計学がITの進歩により急速に発展し、どんな分野においても最速で最善の方法を見出すことができるようになったため、最強の学問となったと。統計学の基礎も全く学んだことがない私には後半の具体的計算方法は頭に入らなかったが(というより私は統計学が学びたいのではなく統計学が導き出した結論だけ知りたいことに気づいた)、この本のメッセージは非常に納得した。この著者は他により実践的なシリーズ本を出しているようなのでそちらを読んでみようと思う。

  • 有名な本だけど今更ながら読了。良い書籍だった。統計学の手法に触れつつそれがどういった意味を持つのか説明してくれる。入門には大変良いと思う。

  • 統計学について数式などを使わずに統計で何を知ることができるか,身近な例を用いて説明がなされており,統計を学ぶ最初の一冊としておすすめです.
    ビックデータやITの発展が近年目覚ましく,今度必要となるITリテラシーや情報の判断根拠なども学ぶことができる本です.また,いくつかのシリーズ(数学編,ビジネス編,実践編など)にも分かれており,読み応えのある本です.

    中央館3F
    OPAC : https://opac.lib.niigata-u.ac.jp/opc/recordID/catalog.bib/BB11506250

  • 東大医学部出身の生物統計学の専門家による統計学の話。学術的にまとめられておらず体系的ではないが、トピックス的にさまざまな知識がちりばめられており、統計学の概要を理解できた。大事な点は、「誤差」と「因果関係」と「ランダム化」であると理解した。

    「誤差と因果関係が統計学のキモである」p57
    「(p値)実際には何の差もないのに誤差や偶然によってたまたまデータのような差が生じる確率のことをp値という」p84
    「ランダム化してしまえば、比較したい両グループの諸条件が平均的にはほぼ揃う」p116
    「倫理的にも予算的にも許されるものである限り、ごちゃごちゃ理屈を唱えるよりもとりあえず研究参加者をランダムに分けて、異なる状況を設定し、その差を統計学的に分析してしまえばいいのだから、これほどわかりやすく強力な研究方法はない」p116
    「人間が「無作為らしく」あるいは「テキトーに」出した数字は、しばしばそれほどランダムではなかったりする。択一式の試験問題の正解を何にするか、出題者は「テキトーに」決めているはずだが、なぜかAが正解である確率よりも、Cが正解である確率のほうが偶然とは考えにくいレベルで高かったりする。また、Aという文字とBという文字をランダムに3つ並べると、「AAA」もしくは「BBB」という同じ文字が3連続するのは8パターン中2つ(25%)もある。一方で、Aという文字とBという文字を「3つテキトーに」並べてくださいというと、人間はしばしば「3文字続くと不自然かな?」と、よくわからない配慮でこのパターンを避けがちだ」p123
    「統計学はそれ自体最強の学問だが、その最強さをさらに盤石なものにするためには、ありとあらゆる統計学の考え方に対してオールラウンダーになることが求められる」p276
    「現場の実務者や専門家である研究者がその成果を実証せず、彼らの仕事を批判する評論家や政治家がろくに論文も読まず、無責任な意見を述べる。一方、彼らの仕事を評価すべき市民側にそうした現状への問題意識がない」p297

  • あみだくじで無作為に横棒を設定する場合、真下につながる可能性が一番高い

    ビジネスインテリジェンス:ビジネス領域における統計学を応用したソリューション

    EBM(Evidence-based medichine)科学的根拠に基づく医療 
     →その一つが統計データとその分析結果

    標準誤差:サンプルから得られた割合に対して、標準誤差の2倍を引いた値から標準誤差の2倍を足した
    値までの範囲に真の値が含まれている信頼性が訳95%となる値
    →まずは正しい判断に必要な最小十分のデータを

    A/Bテスト :デザイン・機能など、すべてのパターンを試して比較する
    (=ランダム化比較実験)

    カイ二乗検定:意味のある偏りor誤差でもこれくらいの差は生じるのか
                        →誤差が生じる確率P値
    →誤差を理解し、誤差を考慮したうえでも意味がある結果といえるかどうか

    ビジネスにおいて解析すべき指標
    →直接的な利益orそこに至る因果関係の道筋が明らかな何か


    誤差へのアプローチ
    ・仮説のみの理論
    ・うまくいったものだけ提示
    ・ランダム化を用いて因果関係を確率的に表現する
     →ランダムは意外と難しい(でたらめということではない)

    回帰分析:データ間の関係性を記述・一方のデータから他方のデータを予測する数式を推定する
         →この数式で記述される直線を回帰直線という

    たまたま得られた計算値からどの程度の誤差で真偽を推定しているかを数学的に整理すれば、
    無限にデータを集めることなく、適切な判断が下せる
    p値:回帰係数が0の時にデータのばらつきのせいで回帰係数が推定されてしまう確率
       (0.05を上回ると厳しい)
    95%信頼区間:p値が5%超のありえない数値とはならない範囲≒ほぼこの範囲に真値がある

    ダミー変数:2つのグループ・変数を0 or 1で表す方法
    →回帰分析もt検定と同じ計算で実行でき、結果も同じになる


    重回帰分析:層の違いにより結果が平均的にどれくらい異なるのかを複数同時に推定
          →互いに相乗効果が無いという仮定の下、説明変数(分析軸)が結果にどの程度影響を与えるかを示す

    ロジスティック回帰:0or1の2値の結果変数を変換し、もともと連続値でないものを連続値として扱うことで重回帰分析を行えるようにする

    統計学の6分野
    1.社会調査   :ランダムサンプリングによる正確な推定値 →偏りがないか、すべての場合に当てはまるかを重視

    2.疫学・生物統計 :ランダム化による妥当な判断  → 誤差に基づき原因・関連性を見つけることを重視

    3心理統計学   :抽象的なものの測定を目指す → 因子分析 ex IQなど

    4.データマイニング:マーケティングの現場で生まれた  →予測事態が目的なら有効 ⇔ 今後何をすべきかは回帰モデルの方が役立つ

    5.テキストマイニング:自然言語で書かれた文章を統計学的に分析する →形態素解析など(Googleの検索技術など)

    6.計量経済学 :演繹によってより多くの情報を推計・導くことを重視 ⇔ 疫学・生物統計学は帰納重視で原因が分かればよい、誤差を認識し推計は少ない方が望ましい


    確立自体の考え方の対立
    ・頻度論者:確立を頻度でとらえ、事前には何も確立を想定しない  → 保守的・間違いは許されない(新薬の承認など)
    ・ベイズ派:事前確率とデータに基づいて算出された確率(事後確率)をまとめる → 効率的・迅速にある程度の確率で正解を得たい(迷惑メールの判別など)

    エビデンス  系統的レビュー・メタアナリシス>ランダム化比較実験>疫学・観察研究>基礎研究・専門家の意見
    系統的レビュー:論文の条件を決めて、条件に当てはまるもの全てを収集・分析し、どういうことが分かるか結論をまとめる
    メタアナリシス:系統的レビューの中で、複数のランダム化比較実験や観察研究の結果を更に解析してまとめあげる方法


    統計学は、最善の道を最も早く確実に示してくれる

  • 概要書。実務応用には向かない。

  • 内容が難しく苦戦した。
    統計のベースがあることで意味のある議論ができると思う。

    誤差の考え方は冷静に数字を見る上で参考となりそうだった

  • 2021/04/26 Sさんに紹介してもらった

  • 統計学の6つの分野を紹介している第6章が興味深かった。社会調査法、疫学・生物統計学、心理統計学、データマイニング、テキストマイニング、計量経済学、それぞれの特徴を説明している。

    コロナウイルス関係で巷に溢れる情報からディープラーニングなどのホットトピックまで、統計学が基礎になっていると考えると、やはり「最強の学問」といっても過言ではない気がしてくる。

全65件中 1 - 20件を表示

著者プロフィール

1981年、兵庫県生まれ。統計家。東京大学大学院医学系研究科医療コミュニケーション学分野助教、大学病院医療情報ネットワーク研究センター副センター長、ダナファーバー/ハーバードがん研究センター客員研究員を経て、2014年11月に株式会社データビークル創業。自身のノウハウを活かしたデータ分析支援ツール「Data Diver」などの開発・販売と、官民のデータ活用プロジェクト支援に従事。著書に『統計学が最強の学問である』(ダイヤモンド社)、『1億人のための統計解析』(日経BP社)など。

「2017年 『ベストセラーコード』 で使われていた紹介文から引用しています。」

西内啓の作品

  • 話題の本に出会えて、蔵書管理を手軽にできる!ブクログのアプリ AppStoreからダウンロード GooglePlayで手に入れよう
ツイートする
×