数式を使わないデータマイニング入門 隠れた法則を発見する (光文社新書)
- 光文社 (2006年5月17日発売)
- Amazon.co.jp ・本 (211ページ)
- / ISBN・EAN: 9784334033552
作品紹介・あらすじ
グーグル、アマゾン-Web2.0時代に必須の技術を、本質から理解する。
感想・レビュー・書評
-
数式を使わないデータマイニング入門
隠れた法則を発見する
著:岡嶋 裕史
紙版
光文社新書 255
統計分析は、情報が高コストであった時代に確立された学問体系です
それは、できるだけ小さい情報量から、世界の姿を知ろうとする試みだと換言できます
一方、現代は巷に情報があふらかえっています
その差が指し示すのは、分析対象が深度を増すことであり、従来は分析対象にしなかった/できなかった情報も対象にできる
すなわち、対象の幅が広がることでもあります
本書は、社会システムの運用に欠かせない存在となったデータマイニングがどのようなものなのか、概要を説明する入門書です
気になったのは以下です
・データマイニングは行為の総称であって、そこで行われる分析手法は複数存在し、分析目的によって選択される
回帰分析
決定木分析
クラスタ分析
ニューラルネットワーク
・データマイニングでは、圧倒的な情報量を用いて分析を行う
・従来型の統計分析の弱点の一つに、分析を思い立ってからデータを収集しはじめなければ、ならない点があった
その過程で情報のスクリーニングが行われるし、そもそも情報収集に時間がかかり、タイムラグが発生してしまう
・すぐに役立つ情報でさえ保存できないのに、いつ役立つかもわからない情報を残しておく余裕はないのである
しかし、社会の急速な情報化によって情報機器がくまなく普及し、情報の保存コストは幾何級数的に低下した
一見無駄と思える情報を電子媒体上に取っておく余裕ができた
・こうして、企業をはじめ各組織体には、すぐに役立つか分からない情報、が蓄積されはじめた
・予測もしなかったデータ蓄積の増大は、分析家には朗報となった
すなわち、自由に使える情報が飛躍的に増大し、しかも、それをリアルタイムで入手できるようになったのである
・情報量と演算能力は車の両輪であり、どちらが欠けても適切な情報の利用ができないが、現代はその両方を安価に入手できる時代である
・従来型の統計分析が、規定した法則の事後検証を指向しているのに対し、データマイニングは多分に未来予測指向である
これも、利用できる情報の量と質が向上したことが大きい
・データマイニングにおけるマイニングは2段階のプロセスに分かれる
①大量の情報から隠れた法則を見つけ出すこと
②そこで見つかった法則のなかから、使えるものを探し出すこと
・さらに注意しておかなければならないのは、データマイニングはどんな局面にどのような法則が存在しているかを発見してくれはするものの、その原因を説明してはくれないことだ
・売れ筋商品と死に筋商品を峻別することで、不良在庫と欠品をなくす
・データウェアハウスの構築は、データマイニングの最初の一歩である
・ただ存在していればよいというものではない
きちんと整理され、すぐに取り出せる状態に維持しておく必要がある
・チラシをまく場所を変更したり、駐車場を拡充して顧客の定着をはかるなどの手段を講じることができる
・データの集め方
①行いたいデータマイニング用に、データを収集する
②現状で持っているデータを、データマイニング用に転用する
・そもそも、データ南下取っていない、という組織や人はとっても多いのである
・一般的にデータマイニングを行う場合、いかに多くのデータを取り込むかに意識が傾注される
それももちろん正しいのだが、どこで見切りをつけるのかも、同様に重要であることを理解しておきたい
・何が必要で何が不要なのかは、データマイニングを行う際の永遠のテーマである
・データマイニングは、おびただしい情報のなかから規則や法則を見つけ出してくれるが、そのほとんどは、役に立たない法則か、意味のない法則だと考えておいた方がよい
・各分析手法の得意な局面は、おおむね次のとおりである
分類 クラスタ分析、決定木分析、自己組織化マップ
関連発見 連関規則
予測 回帰分析、ニューラルネットワーク
・決定木を育てすぎると過学習になる
育ちすぎた決定木は、情報に過敏に反応してしまい、かえって正確な予測ができなくなってしまうことがある
・分けることは分かること
・先生が教えてくれるのが、教師あり分類
自分で考えるのが、教師なし分類
・クラスタ分析:あるデータのなかから、意味ありげなまとまりを見つけ出し、グループ化すること
・連関規則 Aが起こると、Bが発生する
Aの方を、ルールヘッド
Bの方を、ルールボディ と呼ぶ
・OECDプライバシガイドラインは、次の8原則から構成されている
①収集制限の原則
②データ内容の原則
③目的明確化の原則
④利用制限の原則
⑤安全保護の原則
⑥公開の原則
⑦個人参加の原則
⑧責任の原則
・情報を保有することが資産ではなく、リスクになってしまった
目次
まえがき
第1章 隠れた法則を見つける技法
第2章 ビジネスで使われるデータマイニング
第3章 データマイニングの手順
第4章 落としどころを探る―回帰分析
第5章 効率的に判断する―決定木
第6章 分けることは分かること―クラスタ分析
第7章 複雑な分類―自己組織化マップ
第8章 買い物かごの中身は?―連関規則
第9章 神経をまねしてみる―ニューラルネット
第10章 データマイニングと情報管理
第11章 監視社会とデータマイニング
参考文献
ISBN:9784334033552
出版社:光文社
判型:新書
ページ数:216ページ
定価:700円(本体)
発売日:2006年05月20日初版第1刷詳細をみるコメント0件をすべて表示 -
メルカリ売却
-
データマイニングの具体的手法がざっくりわかった。
-
蔵書整理で手放すので、再び出会い読む日もあるか
-
データマイニングというのは、ま、情報の採掘、みたいな意味かな。マーケティング用語で、混沌の中から法則を見つけだすための手法。の入門書です。
数式が掲載されている書物というのは何割方だか売上が落ちるんだそうで(笑)、その考え方というか原理原則を教えるという意味でも「数式を使わない」というのはわかるんですが、そのために喩え話とか脱線話が多くなってよく掴めない本になっちゃってます。私の読解力のせいもあるとは思いますが…。
ところでこの本のユニークなところは、その「混沌」の方にも思いを馳せていることですね。
インターネット(Web2.0)時代、基本的にはどんな情報にもアクセスできるようになっていて、多すぎる情報は情報がないのと同義っていうくらい、これはもう「混沌」なわけです。
でもそこでデータマイニングの手法を知っていれば、「情報格差」どころではない、見つける者と見つけられる者の格差が生まれる、ということに著者は警鐘を発しています。
思えば個人情報…名簿や機密情報、Winnyなどを介してのあんなことやこんなこと、Nシステムや監視カメラの情報…。どこで何が取得されちゃってるかわからないけど、そこから「意味」を読みとろうとする悪意のヤカラがいたとしたら?
背筋が凍るような社会が、既に到来しているのです、ということに改めて気づかせてくれる辺りも含めて、変な本でした。 -
んー、数式を使わないとなんか薄っぺらくなる。
説得力がないと言うか、例題も苦しい例題だった。
最後は結局データマイニングについて何が言いたいのかまとまっていない。
-
アナログにデータマイニングを行う手順を紹介する新書。
独特のユーモアある書きっぷりで、とっつきにくいデータマイニングについての初歩が学べた。
データから「何が読み取れるのか」という点と「そもそも読み取るにはどういったデータが必要なのか」という点がよく理解できる内容でした。
不得意な分野なので機会を見て再読したい。
https://twitter.com/prigt23/status/1057615655543857152 -
【要約】
・
【ノート】
・「グーグル・アマゾン化する社会」の関連本宣伝で -
少ないデータから世界を知ろうとする統計分析であり、それ対して膨大なデータから従来分析できなかった世界を知ることができるようになったのがデータマイニングだとして、回帰分析、決定木、クラスタ分析、自己組織化マップ、連関規則、ニューラルネットなどを全く数式を使わないで説明する。本書は2006年の発表なので機械学習という言葉は全くでてきませんが、考え方は同じものが多々あります。以前はビッグデータ処理といわれていたことが最近では人工知能と称される理由がよく分かります。ビッグデータがバズワードで登場したのは2011年ごろだったので、2006年の出版当時はかなり先進的な本だったのではないでしょうか。ちなみにおむつとビールの話は本書に既に書かれてます。