- Amazon.co.jp ・本 (392ページ)
- / ISBN・EAN: 9784873113647
作品紹介・あらすじ
本書は現在注目を集めている「集合知」をテーマにした書籍です。機械学習のアルゴリズムと統計を使ってウェブのユーザが生み出した膨大なデータを分析、解釈する方法を、基礎から分かりやすく解説します。本書で紹介するのは「購入・レンタルした商品の情報を利用した推薦システム」、「膨大なデータから類似したアイテムを発見し、クラスタリングする方法」など。del.icio.us、eBayなどが公開しているWeb APIを使用した解説も本書の大きな特徴です。本書のサンプルコードは可読性に優れたPythonを使用していますが、他の言語のプログラマでも理解しやすいようにアルゴリズムを解説しています。日本語版ではYahoo!日本語形態素解析Webサービスを利用した日本語テキスト処理について加筆しました。
感想・レビュー・書評
-
2009年くらいの本。大量のログデータからいわゆる機械学習の手法を中心に使って、推薦システムや各種クラスタリングをどのように行うかなどをサンプルコードベースで説明しているのでわかりやすい。アルゴリズムの解説も難しい数式などがないしとっつきやすい。NMFの章で行列計算がでてくるが、そこでも行列とはみたいなとこから解説してるので知らなくてもいける。ニューラルネットワークを使って検索エンジンを作る章では入力層から出力層へ電波していく過程が図になっててわかりやすい。プログラマで機械学習に興味はあるけど具体的に何をしたらいいかわからない人には実際に手を動かして外観を掴みながらできるこの本が良い気がする。
詳細をみるコメント0件をすべて表示 -
初めてPythonという言語を知った本でありなつかしい。
主にレコメンドシステムなどで集合知を説明してある。
1章 集合知への招待
省略
2章 推薦を行う
Amazonのサイトで行われている推奨システムに使われている手法を説明
強調フィルタリングとはユーザーと好みが似た集団をみつけその集団が好きなものをユーザーに推奨する。このとき似た集団を類似性スコアで測る。
3章 グループを見つけ出す
データクラスタリングの話。ブロガーの文書を分析して似通ったグループに分けていく。
4章 検索とランキング
クロール手法について説明
5章 最適化
旅行の最適化について最小コストを求める方法(何がコストかはユーザーの要求によって異なる)
遺伝アルゴリズムの説明もある。
6章 ドキュメントフィルタリング
Eメールのスパムフィルタリングについて説明。
単純ベイズ分類器の構築。SQLiteへデータ保存についても説明がある。
7章 決定木によるモデリング
決定木でユーザーが優良顧客になるか予測する。
学習する。
8章 価格モデルの構築
ワインの価格を近傍法で予測する
9章 高度な分類手法:カーネルメソッドとSVM
省略
10章 特徴を発見する
ニュースの語彙から特徴を抽出氏文書のカテゴリを分類する。
11章 進化する知性
遺伝プログラミングについて、省略
12章 アルゴリズムのまとめ
今までの技術のまとめ
今から振り返ると衰退した手法、発展した手法があり、まったくこのときはまったくなかった手法などもある。 -
懐かしい。輪読して読むには内容として最適な書でした。
-
数学的な説明はそれほどないがチュートリアルのような感じで実際にスクリプトを組んで行くので非常に面白い。
どのようなデータに対してどういったアプローチをするのが良いかが説明されているので実践的。 -
データマイニング系の本は始めて。ざっと読んだが、飲み込みきれていないので後でもう一度読む予定。
-
2009/02/07読了
-
展示期間終了後の配架場所は、開架図書(3階) 請求記号 007.64//Se16
-
後期かけて真剣に読みたい
-
レコメンドエンジンの実装や人工知能のプログラミングがしてみたいと思い手にとる。
テーマは推薦エンジン、ユーザの相関、ニューラルネットワーク、SVMなどなどを実装できるようになっている。
コードや参考URLも多いので普段からpythonでモノづくりをしている人にはいい本であると思う。
しかしpythonを理解していなくてもいいと書かれてるが、まったくそれは難しいと思う。
とにかくコードにも間違いが多いので、キチンと理解するまで心が折れるかもしれないです(折れかかりました)