データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)

著者 : 久保拓弥
  • 岩波書店 (2012年5月19日発売)
4.30
  • (27)
  • (22)
  • (6)
  • (2)
  • (0)
  • 本棚登録 :407
  • レビュー :25
  • Amazon.co.jp ・本 (272ページ)
  • / ISBN・EAN: 9784000069731

作品紹介

現象を数理モデルで表現・説明するのに慣れていない人のために、章ごとに異なる例題を解決していく過程を通して、統計モデルの基本となる考えかたを紹介する。前半では、応用範囲のひろい統計モデルのひとつである一般化線形モデルの基礎を、後半では、実際のデータ解析に使えるように、階層ベイズモデル化する方法を、RとWinBUGSの具体例を用いて説明する。

データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)の感想・レビュー・書評

並び替え:

表示形式:

表示件数:

  • 統計の理論式は必要最小限に抑え,ややこしい計算もRの関数を呼び出して計算するという方針により,統計モデリングのエッセンスがきれいにまとまっている本.タイトル通り入門によいと思うが,逆に初級者ではなくても,詳しくない部分の把握や知識の整理に役立つと思う.脱入門と,次のステップへつながる参考文献が書かれているのもよい.
    一般線形モデル(GLM)から,実用で表れる(人間には測れないという意味での)個体差・場所差を入れる一般線形混合モデル(GLMM)への展開や,GLMとベイズの対応の後にGLMMと階層ベイズを対応させる展開が興味深かった.空間を考慮した階層ベイズは乱数生成の応用の一種だと思うけど.
    ちなみに,ソースコードを書きながら読み進めていく類いの本.

  • 良本.

    難しそうな感じ(というよりも表紙から見て取れる盛りだくさん感)があったので,積読本となっていたが,ふと手にとって読み進めてみるとスラスラと読めてしまい,いつのまにやら読了.

    統計モデルの設計者が辿る思考過程が,非常に明快に書かれており,統計モデルを使う心構えを学ぶことができる.
    特に,行間がほとんどなく,素直に,一歩一歩,理解を進めることができた.

    個人的には目からウロコな説明に感動したのだが,BishopのPRMLなども読んでいたことにも起因するかも知れないので,初学者にオススメできるのかは正直分からない.ただ,確率統計を学んだ上で次の一冊として非常に良いものだと思う.

    ただし,ベイズ理論の導入,MCMCによる推定,といったところでの説明不足間は否めない.

    導入部分(特に8.2から8.3あたりへの流れ)に関して,おそらく初学者は「なぜ急にパラメータを確率変数として扱う前提になっているんだ」と思う気がする.これに関しては8章の順序立てで解消できるような気もするのだが,現状分かりにくいと思う.

    またMCMCに関して,8.4節あたりで説明があるが,「MCMCは尤度の値を重みとした確率分布(定常分布)からのサンプリング」であり,このサンプリングは一般に事後分布からのサンプリングとはならないと書かれている(本書からは,パラメータの事前分布として無情報事前分布を指定するならば両者は一致する,とまでしか読み取れない.)

    なので,後半,階層ベイズモデルなどで,「事後分布からのサンプリングをするためにMCMCを〜」といった記述を読むたびに,「階層事前分布とか使っちゃってるのに,ホントにこれで大丈夫なのか?」となった.

    その部分を詳説する本ではないことは承知しているが,せめて「実はこれでちゃんと事後分布からのサンプリングになるんですよ」ぐらいのことを注釈で書いておいてほしかった.

  • 04/07 長谷川さんから秋月に貸し出し

  • 前に読んだ統計学の啓蒙書に触発されて、一般化線形モデル(GLM)を取り扱った書籍を読むことにした。久保拓弥『データ解析のための統計モデリング入門』(岩波書店、2012年)は生態学分野における統計モデルの作り方をRやWinBUGSなどのソフトウェアの使い方と合わせて丁寧に解説した本で、めちゃくちゃおもしろい。

    私が統計学の本と聞いて思い浮かべる章立ては、確率空間から始まる初等的な確率論を学習したあとで標本理論を学習し、点推定・区間推定・検定をやって、最後に回帰分析(最小二乗法)を扱う――みたいなものだ。

    本書はまったく違って、現実的なデータ解析のためには線形モデルでは不十分という認識から出発している。架空の植物において体の大きさや肥料の有無が種子の性質にどのような影響を与えるか、という仮設例を設け、その解析を進めていく中で統計モデルの手法を学べるようになっている。

    Ch.2ではポアソン分布を使った最尤法の導入で、観測値への当てはまりの良さの尺度として尤度を紹介する。続くCh.3がGLMの導入で、線形予測子やリンク関数などの用語から、Rを使った推定方法までを取り扱う。Ch.4はモデル選択の話題で、良いモデルとは過去のデータへのフィットではなく将来の予測に資するものだという。予測の良さの尺度として平均対数尤度を紹介し、基準としてAIC(赤池情報基準)を導入する。

    Ch.5は尤度比検定を端緒とした検定の枠組みの話。検定とは、ある仮説(帰無仮説)の下で評価対象(検定統計量)がその値になる確率(P値)は低すぎるので、仮説は撤回(棄却)すべきだろう――という筋書きを狙う行為である。そのためには検定統計量の分布が必要で、とはいえそれを得るのは大変だから、近似的な分布として私たちはt分布やカイ二乗分布を使ってきた。

    本書では近似の前に、(パラメトリック)ブートストラップ法を導入する。これは、得られた標本から復元抽出によって同サイズの疑似標本を作り統計量を生成することを数千回繰り返すことによって、検定統計量の分布をシミュレーションする方法である。もちろん手計算では不可能なので、Rを使った例が出る。

    Ch.6はGLMの一般論である。ポアソン分布には上限がないが、カウントデータには上限があるものも存在する。仮設例で言えば、「種子の数」に上限はないが、「生きている種子の割合」となると、ポアソン回帰ではうまくいかない。同書では二項分布を用いたロジスティック回帰を導入し、合わせてオッズ比などの概念を紹介している。そのほか、説明変数に交互作用がある場合の処理や、オフセット項の使い方について説明を行っている。GLMの理解だけなら、ここまで読めば目的を達せられる。

    Ch.7は、GLMを拡張してGLMM(一般化線形混合モデル)を導入する。GLMMは、GLMの説明変数では説明できない何らかの変動要因(個体差)を取り込んだモデルである。個体差をモデルに取り込むと母数の数が固体数だけ増えてしまい、そのまま最尤推定できない。Ch.7では回避方法の1つとして、各固体の尤度の期待値を使用する方法を紹介している。

    一方、Ch.10では別法として、GLMMをベイズ統計の枠組みで考える階層ベイズモデルを紹介している。これは、固体差の変動を事前分布としてモデルに組み込んだものだ。この最尤推定も人間業では不可能で、MCMC(マルコフ連鎖モンテカルロ法)という手法を用いる。こちらを説明したのがCh.8とCh.9である。WinBUGSは、MCMCが行なえるソフトウェアである。Ch.11は、階層ベイズモデルを空間情報に応用している。

    以上、駆け足で本書の内容を書いてみた。私は生態学など完全に門外漢だが、たいへん面白く読めた。若干の不満は、(1)説明の難易度に妙な差がある(たとえばp.52のワルド信頼区間の解釈は誰向けの話なのか)ことと、(2)不必要な脚注が多いことだが、内容と比べれば何ということもない。生態学とは無関係な分野にいる人でも、同書を読むことで個別の知識要素に別の側面から光を当てることができ、たいへん有益なのではないかと思う。

  • 一般化線形モデルの入門的な教科書。非常にわかりやすいし、混合モデルまで扱っているので幅広く学べる。厳密な正しさよりもわかりやすさを優先して書かれている感じ。久保さんはウェブサイト上の情報も有益。

  • 繰り返し読む価値あり。

  • 配架場所: 開架図書(3階) 請求記号: 417//Ku11

全25件中 1 - 10件を表示

この本を読んでいる人は、こんな本も本棚に登録しています。

有効な左矢印 無効な左矢印
北川 源四郎
マーク・ピーター...
有効な右矢印 無効な右矢印

データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)はこんな本です

データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)を本棚に登録しているひと

ツイートする