カルチャロミクス;文化をビッグデータで計測する

  • 草思社
3.70
  • (8)
  • (19)
  • (16)
  • (3)
  • (0)
本棚登録 : 270
感想 : 21
本ページはアフィリエイトプログラムによる収益を得ています
  • Amazon.co.jp ・本 (352ページ)
  • / ISBN・EAN: 9784794221872

感想・レビュー・書評

並び替え
表示形式
表示件数
絞り込み
  • ビッグデータを用いた言語解析を(ほぼ)はじめに実現した若き研究者の奮闘記。
    彼らが新しい研究分野に果敢に挑んでいく様子が、真面目にときにユーモラスに、
    そして、まだまだ学者としてはひよっ子なので...と言った感じで謙虚に綴られていて、大変楽しく読むことができました。

    いかにして著作権法の壁を回避しながら解析を進めるか、
    ビッグデータの供給元であるGoogleにどうやって協力を仰ぐか、
    研究資金を確保するためにどんなプレゼンをしたら良いのか、
    様々な協力者とのコラボレートの工夫など、
    知的好奇心の種から実を生み出すためのアイデアが満載でした。

    また、実際の研究成果についても、英語限定ながら、大変に興味深いものばかりであるとともに、言葉の集積からいかにして文脈を読み取るか、まだまだアイデアの出しがいのある研究分野だとも感じました。

  • 面白かった!
    当たり前と言えば当たり前だけど、流行の言葉、今起きてる関心ごとは本の中の「単語」の数として反映される
    nグラムデータおもしろい!

  •  文化を定量的に把握する試み。古今東西の書籍のなかから、特定の語彙 (N-gram) の出現回数をたどってゆく。各時代において話題となったキーワードはより多く出現するだろう。それは完ぺきではないけれども、おおよその傾向をとらえているはずだ……。

     ざっくり言ってしまえばこのようなことなのだけど、実現はとても難しかったようだ。著作権などの法的な問題、そしてOCR(光学的文字認識)などの技術的な問題は一研究者に解決できる問題ではなかった。それで著者らははじめ、対象を一部の書籍に限定して、それでも何百冊という書籍を自力で読み、そのなかで語彙の出現頻度を地道に数えていった。なんと驚くべき仕事。

     そんな著者らにとって、世界中の書籍を電子化するグーグルのプロジェクトはまさに視野を一気に広げる「新たな望遠鏡」に欠かせない材料だっただろう。それはガリレオの望遠鏡のように、世界から革新的な発見をするかもしれない。

     このビッグかつロング(時間的に)なデータは、3000万冊以上、これまでに出版された本の四分の一以上という、およそ人間では処理しきれない量の情報を対象にとらえることができる。最初に述べた通り、それは世の中の傾向をおおよそで捉えるものにすぎないけれども、その精度は飛躍的に上がったことは間違いがない。

     私が面白いと思ったのは、語彙の出現回数をたどるこのやり方は、当然言葉の使い方の変化をはっきり示すというところ。新たな単語の登場から滅亡(死語)、用法の変化。私たちを悩ませる不規則動詞は、そうした変化のなかで生き残ってきた単語だったが、いつかは死滅するかもしれない。また、辞書は実際に語彙を吸い上げているのか、という問題。もはや人間が一から用例採集をする必要もないのだろうか。

     著者らの取り組みは文化全体を対象に入れることができるのかもしれないが、やはり言葉の未来を考えたくなった。

  • ジップの法則(べき乗則):両対数グラフで右下がりの直線関係

  • 新しい「レンズ」は科学の境界を広げる。原題こそ、まさにこの本を表している。「Uncharted: Big Data as a Lens on Human Culture」

  • 本書はテキストマイニングに関する一般書である。所々参考になるところがあったものの、大半が本質とは関係ない事例の話であり、本質的なところもそこまで驚くべきものでもなければ、それがなぜ重要なのかというところもいまいちわからず、終始so what感が否めなかった。

  • 170107 中央図書館
    google docsを元に、個人情報を再現できないように単語でバラバラにし、しきい値以下の稀頻度ワードをオミットした単語リスト「nグラム」を用いて、各年代別にワードの頻度を調べるというbig dataならではの手法で、「文化」とその変化をある種の切り口で定量化する試み。
    ・不規則動詞drive drove driven等は、[ed]: デンタル・サフィックス規則に抗って「母音交替」を保存することができている頻出動詞であるが、長い歴史の流れの中で何れ淘汰される運命
    ・名前の登場頻度で「名声」を定量化
    ・ナチスや天安門事件に関する中国のアクションなど、言論弾圧の痕跡も明々白々
    ・新らしい言葉が生まれ、流行り、忘れられていく軌跡は、半減期こそ異なれ、パターンは皆同じ
    など、面白い証拠がたくさん。
    飯間浩明さんはこの本を既に読んでいるのかな?

  • 貸し出し状況等、詳細情報の確認は下記URLへ
    http://libsrv02.iamas.ac.jp/jhkweb_JPN/service/open_search_ex.asp?ISBN=9784794221872

全21件中 11 - 20件を表示

著者プロフィール

エレツ・エイデン(Erez Aiden)
2010年にハーバード大学とマサチューセッツ工科大学(MIT)で博士号取得。数年間、ハーバード大のソサエティ・オブ・フェローズ、Google社の客員研究者をつとめた後、ベイラー医科大学とライス大学の助教に就任し、そこでゲノム・アーキテクチャー・センターを率いた。2009年にはMITテクノロジー・レビュー誌が選ぶTR35(最もイノベーティブな35歳以下の35人)のひとりに選ばれた。2012年には、合衆国政府が若手研究者に与える最高の栄誉であるPECASE賞を、ホワイトハウスより受けた。この賞は、共同研究者と共にゲノムの三次元構造を調べる技術を開発したことに対して与えられたもの。ヒューストン在住。

「2019年 『文庫 カルチャロミクス』 で使われていた紹介文から引用しています。」

エレツ・エイデンの作品

  • 話題の本に出会えて、蔵書管理を手軽にできる!ブクログのアプリ AppStoreからダウンロード GooglePlayで手に入れよう
ツイートする
×