データは騙る 改竄・捏造・不正を見抜く統計学

  • 早川書房 (2019年2月20日発売)
3.70
  • (8)
  • (20)
  • (15)
  • (2)
  • (1)
本棚登録 : 222
感想 : 24
サイトに貼り付ける

本ページはアフィリエイトプログラムによる収益を得ています

本 ・本 (384ページ) / ISBN・EAN: 9784152098412

作品紹介・あらすじ

アメリカの失業率は実質ゼロ%? 毎朝1ポットのコーヒーを飲めば長生きするが、一日2杯のコーヒーは発がん率を高める? 様々な事例をもとに、各種データから巧妙に導き出されるトリックを明かし、騙されないための極意を伝授。ビッグデータ時代の必須教養

感想・レビュー・書評

並び替え
表示形式
表示件数
絞り込み
  • スティーヴン・レヴィットのベストセラー『ヤバい経済学』の目玉の章である、ニューヨークの犯罪減少の最大要因が中絶の合法化、という内容が否定され、かつ、レヴィット自身がそれを認めていたのが、大変衝撃的だった。

    他の内容は大体統計の面白本でよんだことがあるよう内容だったけど、筆が鮮やかでとにかく読みやすい。

  • 背ラベル:417-ス

  • 数字というものは実に力強い。

    数字で表現すると他者との比較が可能になるし、過去との比較が可能になるし。相関性についても、ほら相関係数が1に近づいています、というとなるほど確かに、などと思ってします。

    ところが、ところが、実は数字だって怪しいものがある、しかも相当ある、というのが本書の主張するところです。

    ・・・
    本作、19章に渡って、これはおかしい、あれはおかしいとまくし立てております。夫々、なるほどと思うことがあります。

    分かったり分からなかったりしましたが、印象深かったものを以下に記したく存じます。

    ・・・
    <生存者バイアス>

    第二章で図入りで解説されています。

    英国空軍が帰還飛行機の被弾状況を見て、どこを補強すれば生還率が上がるかという話。

    A:「コクピットやエンジン、燃料タンクよりも、被弾が多かった翼と後部部分を補強」
    B:「コクピット、エンジン、燃料タンクを更に補強」

    答えはBでした。

    コクピットやエンジン・燃料タンクに被弾した飛行機は撃ち落されてそもそも帰還できず観察されなかった。一方、帰還した飛行機の被弾状況を見ると「これは被弾している翼部分や後部を補強すればよい」と考えてしまうわけです。つまり生き残っているものだけをみてはいけない。

    帰還率を上げるには、墜落の原因になったコクピット・エンジン・燃料部分を補強すること、というのが結論になり、実際うまくいったという話。

    同じような誤りを、かの有名な「ビジョナリーカンパニー」も犯していると主張。

    今生き残っている優秀企業(のみ)から成功の源を探るものですが、同じ特性を持っていても途中で潰れた会社もあるわけです。正しい分析をするのならば、同じ特性を持つ企業をピックアップし、そこからアウトパフォームできるかを(つまり生存者バイアスを除いて)将来に向けて確認する必要がある、という主張です。

    ・・・
    <相関関係は必ずしも因果関係ではない>

    第三章の例で、ビールの消費量と結婚者数がグラフで書かれています。どちらも右肩上がり。これを見て、「アルコール消費量が増えると結婚するカップルが増える」という結論が演繹したとします。

    もちろん、これは間違い。

    背後に人口が増加しているというベースストーリがあるとすれば、応じてビール消費量もカップル数も増加して全くおかしくありません。

    計算上は、アルコール消費量とカップル数は相関性が見いだせるということ。故に改めて確認するべきは、相関性が因果を示すわけではない、ということ。

    ・・・
    <パターンを見て理論がないもの(テクニカル分析)>

    米国だとスーパーボール(アメフトの日本シリーズみたいなもの)の勝ち負けで株価が上がる下がるなどとまことしやかに言います。筆者はこれを偶然と言い、同様のことを株式のテクニカル分析にも指摘します。

    パターンがあって、そこに理論(説明)を当てはめただけで、ある現象の説明を仕切れていないという主張です。

    こちらについては16章に詳しいです。

    ・・・
    <その他>

    ・理論を立ててから、合致するデータを持ってくるもの(不整合なデータの切り捨て)

    ・データを集めて当てはまるところを取り上げるもの

    ・グラフを拡大し大きな上下に見せかけるなど

    こうした事例を多く示していましたが、科学に従事する人であろうと、見たいものしか見たくないという心の状況がデータの欠落(意図的か偶然かによらず)につながっているということなのかもしれません。

    因みに最終章(19章)はまとめのような形であり、時間がない方は先ずこちらを読むと概ね内容が分かるかと思います。

    ・・・
    ということでデータの見せ方のお話でした。
    非常に参考になりました。

    数字を使って流麗に説明されると、感覚的におかしいなと思っても説明・反論ができないとそのまま会議でも流されてしまうことが多々あります。

    そういう「もやもや」を言語化をする上で本書は有用だと思います。数字だって使い方がおかしければ、やはり正しくないのです。

    数字をベースに仕事をされたい方、投資を良くされる方、ギャンブルと確率について関心のある方等には参考になると思います。

  • 世の中にあふれる一見もっともらしい数字や調査結果。それにどう向き合えばいいのか? データの見極め方を、各種事例を交えて説く。


    1章 パターン、パターン、パターン
    2章 ゴミを入れれば真理が出てくる
    3章 リンゴとプルーン
    4章 おっと、失礼!
    5章 見た目の罠
    6章 常識の力
    7章 交絡因子を探る
    8章 負ける気がしないのは気のせいか
    9章 回帰
    10章 プラスマイナスゼロ
    11章 テキサスの狙撃兵
    12章 人生最後の先延ばし
    13章 重大な省略
    14章 空虚な理論に腐ったデータ
    15章 心はもう決まっている
    16章 理論なきデータ
    17章 虎の子を投資するなら
    18章 データなき理論
    納得するとき、疑うとき

  • データドリブンを装う理論や研究成果も、十分に疑ってかかるべきということを、様々な類型と実例で示した書籍。
    ランダムサンプリングしたつもりでも自己選択バイアス(ある選択をした者に共通する傾向。A大学とB大学の卒業率を比較する時、入学時の学生の特性そのものが異なるため慎重に比較検証すべき)や生存者バイアス(帰還した戦闘機から被弾箇所の傾向をみようとしない。致命的な場所に被弾した戦闘機は帰還しない)でデータはすでに偏っているかもしれない。
    交絡因子(結果に影響する別の因子の偏り)が検証結果に影響を及ぼしているかも知れない(コーヒーを飲む者の癌になる確率は高いが、これは喫煙率が高いためで、コーヒーに発ガン性があるわけではない)。
    自然選択の結果、人間はあらゆる事象に法則性を見いだしてしまう癖がついていることに由来する誤りもある。
    平均への回帰はシンプルに確率の問題だが、何らかの意味があると勘違いしてしまう。
    大数の法則の誤った解釈で、これまでの試行結果の偏りが次の独立した試行の結果に影響すると思い込んでしまう。単なるランダムな偏りにも人は法則性を見いだしてしまう。
    これに加えて、研究者は新たな理論とその統計的に有意な検証を求める強いインセンティブがあり、都合の良いデータを求めてしまったり、データをこねくり回して何らかの(実際にはランダムな偏りの一つに過ぎない)法則性を見つけてしまったり、果ては捏造したりする。
    受け手として留意すべきことは、不自然なデータの取り方は疑ってかかり、常識的におかしい説は疑い、理論を見つけたデータとは異なるランダムな新データで検証されたものを求めなければならない。

  • 統計データのゆがみについて
    最後の章にまとめがあるので引用
    パターンの誘惑
    間違った、あるいはバイアスのかかったデータ
    怪しいグラフ・データの省略
    よく考えずに計算する
    交絡因子がないか
    絶好調の波vs大数の法則の誤解
    平均への回帰
    テキサスの狙撃兵(たくさんデータを集めて都合のよい部分だけ抜き出す)
    理論なきデータvsデータなき理論

  • おもしろい〜
    読み終わって、数字は嘘をつかないけど、嘘をつく人は数字を使うって言葉を思い出した。



    意味のないパターンでも、何かの効果の根拠であると言われればすぐに意味があるものと受け止めてしまう。人間の弱点は、世界を理解したいという欲求から生じている。
    認知ミス1.パターンとそれを説明する理屈の魅力にかんたんに屈してしまうこと。
    認知ミス2.自分の考えを裏付けるデータにとびつき、矛盾する証拠を無視すること。


    データ•グラビング
    有意性を示すために、公表する結果を選別したり、データを強引に探し出したりするやり方
    自己選択バイアス、たまごとにわとり。
    生存者バイアス、データから理論を引き出す危険性。ビジョナリーカンパニーの無意味さ。目に見えないデータの方が重要な意味を持つこともある。

    元になる数字が小さいとき、比較のために規模を調整するがその調整のせいでおかしなことになることもある。時間の経過以外に共通点のないものを比べるときは、りんごとプルーンを比べるようなものだ。
    チャートジャンク、テキストジャンク

    ジョン•メイナード•ケインズ 
    長期的には、われわれはみんな死んでいる。嵐吹き荒れる季節に経済学者たちが言えるのが、いずれあらしは過ぎ去って時間がたてば海はふたたび静かになります、というだけなら、それはあまりにも仕事として簡単すぎるし役立たずすぎるだろう。

    アインシュタインが即答した最も重要な概念は複利。

    第19章の総まとめはすごく助かった。
    パターンは理にかなった説明がなければただのパターン。理にかなった理論は新しいデータで検証しなければならない。
    交絡因子、自己選択バイアス、
    チャートジャンク、
    考えずに計算、比較する、サイズ、時間の経過による意味、無関係なデータ比較。
    見えないデータに意味がある
    平均への回帰
    大数の法則
    テキサスの狙撃兵、これはおもしろかった!適当に打って集中的に当たったところに的を書く!不自然なグルーピング、
    除外されたデータ
    信じたいものを信じる人がいる
    理論なきデータ、宝くじをあてるコツ、スーパーボウルの結果による株価の行方、



  • わたしも論文を書いたときに、たくさんの論文を読んだけれど、多くは過去を振り返ったデータや、母数の少ないもの。そもそも、学生を対象にしたものばかりで、それを一般的な社会人にも当てはまるかのように説かれたものが多くて、信頼に当たらないと感じるものが多かった。学生を選んだのは調査費や労力を鑑みてのこととしか思えなかったからだ。もちろん、それが学校教育に関するものであれば、最適だが、多くはそうではない。

    この尖った本を鵜呑みにするのも良くないとは思うが、バイアスは気づけばかかるものなので、一読して損はないと思う。ただ、気付けないほどひどくかかってる人もいるし、急に考えが変わる人もいるだろう。


    ただ、読み進めていくと、「あなたは間違ってるんです!」って技術者に何度も何度も何度も何度も何度も何度も何度も何度もあの手この手を尽くして怒られている気持ちになってくるw


    一言でいうと
    「データやグラフを鵜呑みにしちゃいけないよ。詳細はこの本で」
    以上です。

全24件中 1 - 10件を表示

ゲアリー・スミスの作品

  • 話題の本に出会えて、蔵書管理を手軽にできる!ブクログのアプリ AppStoreからダウンロード GooglePlayで手に入れよう
ツイートする
×