数式を使わないデータマイニング入門 隠れた法則を発見する (光文社新書)
- 光文社 (2006年5月17日発売)
本棚登録 : 567人
感想 : 92件
本ページはアフィリエイトプログラムによる収益を得ています
Amazon.co.jp ・本 (216ページ) / ISBN・EAN: 9784334033552
感想・レビュー・書評
-
数式を使わないデータマイニング入門
隠れた法則を発見する
著:岡嶋 裕史
紙版
光文社新書 255
統計分析は、情報が高コストであった時代に確立された学問体系です
それは、できるだけ小さい情報量から、世界の姿を知ろうとする試みだと換言できます
一方、現代は巷に情報があふらかえっています
その差が指し示すのは、分析対象が深度を増すことであり、従来は分析対象にしなかった/できなかった情報も対象にできる
すなわち、対象の幅が広がることでもあります
本書は、社会システムの運用に欠かせない存在となったデータマイニングがどのようなものなのか、概要を説明する入門書です
気になったのは以下です
・データマイニングは行為の総称であって、そこで行われる分析手法は複数存在し、分析目的によって選択される
回帰分析
決定木分析
クラスタ分析
ニューラルネットワーク
・データマイニングでは、圧倒的な情報量を用いて分析を行う
・従来型の統計分析の弱点の一つに、分析を思い立ってからデータを収集しはじめなければ、ならない点があった
その過程で情報のスクリーニングが行われるし、そもそも情報収集に時間がかかり、タイムラグが発生してしまう
・すぐに役立つ情報でさえ保存できないのに、いつ役立つかもわからない情報を残しておく余裕はないのである
しかし、社会の急速な情報化によって情報機器がくまなく普及し、情報の保存コストは幾何級数的に低下した
一見無駄と思える情報を電子媒体上に取っておく余裕ができた
・こうして、企業をはじめ各組織体には、すぐに役立つか分からない情報、が蓄積されはじめた
・予測もしなかったデータ蓄積の増大は、分析家には朗報となった
すなわち、自由に使える情報が飛躍的に増大し、しかも、それをリアルタイムで入手できるようになったのである
・情報量と演算能力は車の両輪であり、どちらが欠けても適切な情報の利用ができないが、現代はその両方を安価に入手できる時代である
・従来型の統計分析が、規定した法則の事後検証を指向しているのに対し、データマイニングは多分に未来予測指向である
これも、利用できる情報の量と質が向上したことが大きい
・データマイニングにおけるマイニングは2段階のプロセスに分かれる
①大量の情報から隠れた法則を見つけ出すこと
②そこで見つかった法則のなかから、使えるものを探し出すこと
・さらに注意しておかなければならないのは、データマイニングはどんな局面にどのような法則が存在しているかを発見してくれはするものの、その原因を説明してはくれないことだ
・売れ筋商品と死に筋商品を峻別することで、不良在庫と欠品をなくす
・データウェアハウスの構築は、データマイニングの最初の一歩である
・ただ存在していればよいというものではない
きちんと整理され、すぐに取り出せる状態に維持しておく必要がある
・チラシをまく場所を変更したり、駐車場を拡充して顧客の定着をはかるなどの手段を講じることができる
・データの集め方
①行いたいデータマイニング用に、データを収集する
②現状で持っているデータを、データマイニング用に転用する
・そもそも、データ南下取っていない、という組織や人はとっても多いのである
・一般的にデータマイニングを行う場合、いかに多くのデータを取り込むかに意識が傾注される
それももちろん正しいのだが、どこで見切りをつけるのかも、同様に重要であることを理解しておきたい
・何が必要で何が不要なのかは、データマイニングを行う際の永遠のテーマである
・データマイニングは、おびただしい情報のなかから規則や法則を見つけ出してくれるが、そのほとんどは、役に立たない法則か、意味のない法則だと考えておいた方がよい
・各分析手法の得意な局面は、おおむね次のとおりである
分類 クラスタ分析、決定木分析、自己組織化マップ
関連発見 連関規則
予測 回帰分析、ニューラルネットワーク
・決定木を育てすぎると過学習になる
育ちすぎた決定木は、情報に過敏に反応してしまい、かえって正確な予測ができなくなってしまうことがある
・分けることは分かること
・先生が教えてくれるのが、教師あり分類
自分で考えるのが、教師なし分類
・クラスタ分析:あるデータのなかから、意味ありげなまとまりを見つけ出し、グループ化すること
・連関規則 Aが起こると、Bが発生する
Aの方を、ルールヘッド
Bの方を、ルールボディ と呼ぶ
・OECDプライバシガイドラインは、次の8原則から構成されている
①収集制限の原則
②データ内容の原則
③目的明確化の原則
④利用制限の原則
⑤安全保護の原則
⑥公開の原則
⑦個人参加の原則
⑧責任の原則
・情報を保有することが資産ではなく、リスクになってしまった
目次
まえがき
第1章 隠れた法則を見つける技法
第2章 ビジネスで使われるデータマイニング
第3章 データマイニングの手順
第4章 落としどころを探る―回帰分析
第5章 効率的に判断する―決定木
第6章 分けることは分かること―クラスタ分析
第7章 複雑な分類―自己組織化マップ
第8章 買い物かごの中身は?―連関規則
第9章 神経をまねしてみる―ニューラルネット
第10章 データマイニングと情報管理
第11章 監視社会とデータマイニング
参考文献
ISBN:9784334033552
出版社:光文社
判型:新書
ページ数:216ページ
定価:700円(本体)
発売日:2006年05月20日初版第1刷詳細をみるコメント0件をすべて表示 -
メルカリ売却
-
データマイニングの具体的手法がざっくりわかった。
-
蔵書整理で手放すので、再び出会い読む日もあるか
-
データマイニングというのは、ま、情報の採掘、みたいな意味かな。マーケティング用語で、混沌の中から法則を見つけだすための手法。の入門書です。
数式が掲載されている書物というのは何割方だか売上が落ちるんだそうで(笑)、その考え方というか原理原則を教えるという意味でも「数式を使わない」というのはわかるんですが、そのために喩え話とか脱線話が多くなってよく掴めない本になっちゃってます。私の読解力のせいもあるとは思いますが…。
ところでこの本のユニークなところは、その「混沌」の方にも思いを馳せていることですね。
インターネット(Web2.0)時代、基本的にはどんな情報にもアクセスできるようになっていて、多すぎる情報は情報がないのと同義っていうくらい、これはもう「混沌」なわけです。
でもそこでデータマイニングの手法を知っていれば、「情報格差」どころではない、見つける者と見つけられる者の格差が生まれる、ということに著者は警鐘を発しています。
思えば個人情報…名簿や機密情報、Winnyなどを介してのあんなことやこんなこと、Nシステムや監視カメラの情報…。どこで何が取得されちゃってるかわからないけど、そこから「意味」を読みとろうとする悪意のヤカラがいたとしたら?
背筋が凍るような社会が、既に到来しているのです、ということに改めて気づかせてくれる辺りも含めて、変な本でした。 -
んー、数式を使わないとなんか薄っぺらくなる。
説得力がないと言うか、例題も苦しい例題だった。
最後は結局データマイニングについて何が言いたいのかまとまっていない。
-
アナログにデータマイニングを行う手順を紹介する新書。
独特のユーモアある書きっぷりで、とっつきにくいデータマイニングについての初歩が学べた。
データから「何が読み取れるのか」という点と「そもそも読み取るにはどういったデータが必要なのか」という点がよく理解できる内容でした。
不得意な分野なので機会を見て再読したい。
https://twitter.com/prigt23/status/1057615655543857152 -
【要約】
・
【ノート】
・「グーグル・アマゾン化する社会」の関連本宣伝で -
少ないデータから世界を知ろうとする統計分析であり、それ対して膨大なデータから従来分析できなかった世界を知ることができるようになったのがデータマイニングだとして、回帰分析、決定木、クラスタ分析、自己組織化マップ、連関規則、ニューラルネットなどを全く数式を使わないで説明する。本書は2006年の発表なので機械学習という言葉は全くでてきませんが、考え方は同じものが多々あります。以前はビッグデータ処理といわれていたことが最近では人工知能と称される理由がよく分かります。ビッグデータがバズワードで登場したのは2011年ごろだったので、2006年の出版当時はかなり先進的な本だったのではないでしょうか。ちなみにおむつとビールの話は本書に既に書かれてます。
-
-
ざっくりとしたデータマイニング手法の説明。知識が浅い人には嬉しいかも。
-
情報系でいつもわかりやすい岡嶋さんの本だったので購入。騒がれているデータマイニングについて、独特の吹き出しを使ったわかりやすい絵で説明されており、人に説明するときとか参考になる言い回しが多かったです。
-
グーグル、アマゾン-Web2.0時代に必須の技術を、本質から理解する。
-
2015/11/15
-
再読。初読のときよりもちょいとスキルが上がっているからか、面白く読めた。例のシュールなユーモアは、好き嫌いがあるだろうが僕は好き。
-
初歩の初歩
-
データマイニングの基本的な考え方が網羅されていて参考になった。例もわかりやすくてよい。
-
データマイニングに関する基本的な本。2006年の本ということでそこまでビッグデータが騒がれていなかった時代。実際ビッグデータという用語は出現していなかった(はず)。入門ということで広く浅い内容。クラスタリング、ニューラルネットワーク等の専門的な内容も出てくるが、難しい数式は使わず解説している。データマイニングの非万能性や因果と相関の違いなど基本的な知識を再確認するきっかけとなった。
-
データマイニングの解説書は非常に多く出ているがどうもどれも少し難しいと感じていた。
本書は、まさに求めていた一冊という感じで非常にすっきりと読めた。
ただ、最後の監視社会云々のところは、無理矢理著者の専門もくっつけたというのが否めず、はっきり言って余計かとも思う。
ここが無ければ、もう少し高い評価がつけられたのに。 -
データマイニングって何だろうという疑問に新書レベルで平易に答えてくれる。なかなかよい本。なぜデータマイニングというものが重要になってきたのか、それによって分かることは何か、人々が過大な期待をしているが実際にはできないことは何か、そしてデータマイニングという考えが広まっていく上での危険性は何か。こうした事柄が書かれている。
著者はデータマイニングの位置づけについて、高層建築とエレベーターにたとえている(p.11)。高層建築ができたとしても、エレベーターが無ければ使いにくいし、高層建築のよさを十分に発揮できない。データマイニングはWeb2.0に対するエレベーターのようなものであって、データマイニングなくしてはWeb2.0はその真価を発揮できないのである。
情報の質と量が以前とは大きく変わったからこそ、データマイニングということが意味を持ってきたのだ(p.10,171-174)という位置づけは納得が行く。つまりストレージなどの価格低下、インターネットの普及によるユーザ情報の氾濫と結合、並列処理を始めとする処理能力の向上によるデータ分析力の向上。ここには確かにやや質的に違うものが生まれている(と考えるのは「ビッグデータ」というバズワードに踊らされているだけかはいつも考察が必要だが)。さらに、データマイニングで分析された結果はあくまで相関であって因果ではないし、そうした相関のなかでも使えるものを選り分けるのは依然として人間の仕事であると注意をされている(p.28-35,68)。雨が降ることと傘が売れることの相関を分析しても意味が無い。
この本が面白いのはデータマイニングの手法や概念について、非常に簡単なレベルで書いてあることだ。分析するためにどういうデータを集めるかが難しいことであり、try&errorで進めていくしかないこと。そのときの異常値の取り扱い(p.71-74)など。回帰分析と最小二乗法のアイデア(p.85f)、決定木と過学習への注意(p.100-104)(ここにオッカムの剃刀が出てくるのは意外だった)、クラスタ分析(k-means法)のアイデア(p.112-119)などはよく書けている。他には自己組織化、連関規則(バスケット解析)、ニューラルネットなどのアイデアが平易に書かれている。
こうしたデータマイニングの手法を手軽に(一般教養レベルで)知るにはなかなか良い本。逆に言えば、そうした知識のある人は、知らない人への解説の仕方として参考になるだろう。
著者プロフィール
岡嶋裕史の作品
