ナンバーセンス ビッグデータの嘘を見抜く「統計リテラシー」の身につけ方 [Kindle]
- CCCメディアハウス (2015年1月29日発売)
- Amazon.co.jp ・電子書籍 (291ページ)
感想・レビュー・書評
-
Kindleの日替わりセールで購入。ヤバい統計学も読んでおきたいところなんだがまだ。
詳細をみるコメント0件をすべて表示 -
ある(2018/09/26)
-
データ分析あるある集のような内容で、自分も似たケースに出会ったことのあるものばかりだったから面白く読むことができた。ただ、逆にいうと自分にとっては目新しいものは特になかったという印象を受けた。
-
証拠がないことは、証拠がないことの証拠にならない
主張のために色々なデータを集めているときによくこの問題にぶち当たります。それで検討は十分なのか、漏れはないか。
フレームワークがあるものならある程度答えられます。ただ、どこまで検討したら十分なのかわからないようなものに対して、正にどこまで検討したら良いのかわかりません。
言ってしまえば、それを言った人の満足度ではないかと思います。しかし、それではとても客観性を担保しているとはいえないと思います。
例えば、他社特許対策。いつもやりながら、どの母集団が全体か、どこまで検討すれば十分と言えるのか、もやもやしながら進めています。
統計学である程度学術的に言えないか模索中です。100%の解ではなくとも、せめて自分にとっては胸を張って客観性を担保しているいえるものにしたいと思っています。 -
最近話題のビッグデータについて警鐘を鳴らす一冊。
ビッグデータとは多量のデータから多変量解析を用いて(一見自明でなさそうな)相関関係を導く手法をさすが、導かれた結論は往々にして説明ができない(たとえば、ハリケーンの前にはイチゴ味のキャンディーの売り上げが上がるそうだが、なぜかはわからない)。
データはただ相関係数を計算するだけで、その因果までは説明してくれないのだ。
それが原因で起こるエラーがやっかいである、というのが本書の主張。
なぜならば、データから計算された結果の検証ができない(または非常に困難)ため、それを鵜呑みにして受け入れてしまうことが起こってしまうためである。
なぜこのようなことが起こるのかというと、データのサンプリングに恣意性があったり、結果を自分のバイアスにかけてしまい「合理的」と受け入れてしまうためである。
(上記の例も、なぜイチゴ味のキャンディーが売れるのか自分なりのストーリーを作って納得してしまってませんか?)
これを回避するためにはセンスを磨くしかないと、身もふたもない結論であるが、これはエンジニアリングの世界でも通じるものがある。
エンジニアリングも様々な方面で計算ソフトウェアによってほぼ自動化されている、基礎となる数学をもはや知らなくてもInputさえ与えればあとは計算ソフトが自動で計算してくれる。
しかし、Outputをみて「あれ?なんかおかしいぞ」と感じるそのセンスがエンジニアの腕の見せ所なのです。
InputとOutputの整理なら大学生でもできるのです。
このセンスを磨くためには、ベースとなる理論を良く知ること、そして経験を積むことしかない。前者は努力により得ることができるが、後者は時間がかかる。
センスとは継続して取り組む努力なのかもしれない。
ちなみに、本書後半(2/5くらい)は書くことがなかったのか、アメリカンフットボールのチーム編成の合理性についてダラダラと書かれている。無意味かと思う。しかも、最後は更なる検討が必要。で終わっているし。