データサイエンス入門 (岩波新書)

著者 :
  • 岩波書店
3.25
  • (15)
  • (21)
  • (46)
  • (15)
  • (5)
本棚登録 : 491
感想 : 52
本ページはアフィリエイトプログラムによる収益を得ています
  • Amazon.co.jp ・本 (192ページ)
  • / ISBN・EAN: 9784004317135

感想・レビュー・書評

並び替え
表示形式
表示件数
絞り込み
  • データサイエンス入門
    著:竹村 彰通
    岩波新書 新赤版 1713

    アメリカの主な大学には統計学科が存在する。中国でも最近は同様の状況である
    これに対して、日本の大学には統計学部や統計学科がなかった。
    日本におけるデータサイエンティスト育成には、初等中等教育における統計教育やデータサイエンス教育の充実からはじまって企業内人材の再教育まで、あらゆるレベルの教育が必要である。

    ビッグデータと統計について、広く紹介する書と理解しました

    気になったのは、以下です。

    ■ビッグデータの時代

    ・データサイエンスの3要素とは、①データ処理、②データ分析、③価値創造 である
    ・科学的研究のパラダイム
     第1)自然を経験的に理解する研究方法 天動説
     第2)理論と実験との組み合わせによる研究方法 ニュートン力学
     第3)コンピュータの発展によるシミュレーションよる研究方法
     第4)ビッグデータから新たな、科学的発見を見出す研究方法 データ中心科学、データ駆動型化学

    ・2つの通信技術 高速な5Gと、低速なLPWA(IoT向け)

    ・データサイエンティストの台頭の背景
      データ処理とデータ分析手法の進展
      機械学習や人工知能の進展
      ⇒質の良いデータが大量に得られるいることが条件

    ・ビッグデータを支えるのは、大数の法則

    ・フィッシャー 統計的モデル 正規分布などの確率分布をもちいて、データのばらつきや誤差を定型化する手法 データにあうパラメタを選ぶことをパラメタの推定とよび、機械学習では、モデルの学習という

    ・フィッシャー 実験計画法 

    ・日本では工業製品の品質向上に、統計的管理や、実験計画法がつかわれた

    ■データとは何か

    ・時間をおって計測されるデータ 時系列データ
    ・1時点でさまざまな個体に関して得られたデータ クロスセクションデータ
    ・表計算ソフトのシートに入力、整理できるデータ 構造化データ
    ・テキスト、音声、画像、動画 シートに入力できないデータ 非構造化データ

    ・非構造化データは、生のままでは処理できないので、元のデータから特徴のある数値を求めるか、決めなければならない

    ・データの中で不要と考えられ部分 ⇒ ノイズ
    ・データの中に含まれる傾向やパターン ⇒ シグナル

    ・観測しにくいデータを観測するには、コストがかかるが、そのコストに見合うだけの価値があるかが問題

    ・ウェブページのA/Bテスト デザインA、デザインBの2つを用意して、デザインをランダムに表示することで、どちらがクリック率がいいかなどのテストをするもの インターネットマーケッティングの代表的手法

    ・データのばらつき ⇒ ヒストグラムで表したもの分布、その曲線を密度関数、確率密度関数という

    ・2変数間の傾向 ⇒ 相関 ⇒ 直線であらわしたもの 回帰直線 ⇒ 回帰

    ・予測を目的として統計的モデルをたてること 予測的モデリング という

    ・人を層別に分類することを、セグメンテーションという
    ・さらに個人ベースまで細分化すること パーソナライゼーションという

    ・不確実性を扱う理論 確率論
     ⇒起こりうる結果が最初から網羅されている
     ⇒それぞれの結果の確率が与えられている の2条件がなり立てば有効

    ・大量のデータ解析から何らかの有用な知見が得られられないかを探索することを、データマイニングという

    ■データに語らせる

    ・BIツールで、データを可視化したら、地図データと組み合わせて表示する

    ・データを分析する前に、整理する作業を、データクレジングという
     データの表記の揺れ 2021/1/1、2021年1月1日 などを書式統一すること
     異常値、外れ値の排除
     欠測値 データがはいっていない
     項目の定義の変更 など

    ・データの分析、モデリング
     回帰分析
     判別分析
     クラスタ分析

    ・機械学習 目的変数がある場合を、教師あり学習といい、ない場合を、教師なし学習という

    ・分析ツール エクセルをはじめ、R,SAS,Python
    ・ビッグデータの処理 Hadoop 分散処理フレームワーク
    ・非構造化DB NoSQL

    ・深層学習 DNN 深層学習用のマイクロプロセッサ NVIDIAが出しているGPU
     現在の深層機械学習をつかった、AIの中心である

    目次

    はじめに

    Ⅰ ビッグデータの時代
     1 データサイエンスの登場
     2 台頭するデータサイエンティスト
     3 統計学の流れ
     4 コンピュータとインターネットの発展

    Ⅱ データとは何か
     1 定義と種類
     2 コストと価値
     3 ばらつきと分布
     4 相関と因果、回帰
     5 データに基づく意思決定と不確実性
     6 取り扱い上の倫理

    Ⅲ データに語らせる──発見の科学へ向けたスキル
     1 データサイエンスのスキルの学び方
     2 データ処理と可視化
     3 データの分析とモデリング
     4 ビッグデータの処理と分析
     5 人工知能とデータサイエンス

    付録1 統計学の歴史の概要
    付録2 コンピュータの歴史の概要
    おわりに
    あとがき
    参考文献

    ISBN:9784004317135
    出版社:岩波書店
    判型:新書
    ページ数:192ページ
    定価:880円(本体)
    発売日:2018年04月20日第1刷

  • 総務省|報道資料|データサイエンス・オンライン講座「社会人のためのデータサイエンス入門」の開講
    https://www.soumu.go.jp/menu_news/s-news/01toukei09_01000062.html

    データサイエンス入門 - 岩波書店
    https://www.iwanami.co.jp/smp/book/b355594.html

  • もともと全く興味がない分野であり、統計学も苦手なので、全然頭に入ってこなかった。もう少し初級編からトライしたい。

  • データサイエンスという言葉は最近良く耳にするようになりました。人々の行動に関する様々なビッグデータを解析してマーケティングなどに役立てる、というようなとらえ方をしていました。

    この本では、データサイエンスがコンピュータ、インターネット分野と機械学習の発展により重要性を増していることを強調していますが、質の良いデータが提供される状態にあることが前提になっています。

    米国のみならず、日本でも政府が種々データの公開をWebで行っていることを知りました。参考:(http://www.data.go.jp/?lang=japanese)。

    統計学やデータサイエンスに関連して、ウェブデザインのA/Bテストや、自動車保険のテレマティクス, 平均への回帰、交絡因子、確証バイアスと後知恵バイアス、といった事項も紹介され、自分の蒙が啓かれた感じがしました。

    筆者は日本における無料のオンライン口座MOOCであるgacco.orgで、統計学やデータサイエンスに関する講座にも携わっていると記しており、早速同サイトに登録してみました。

    データサイエンスや統計には仕事で関わることも少なく、あまり馴染みがありませんでした、本書で現在の動きを大雑把に把握することができとても役に立ちました。

  • なぜ読もうと思ったのか
    ・データサイエンスという言葉の意味を知りたかった
    ・調査項目やデータ分析設計に携わる機会があり、データとは何かを改めて知りたかった

    ・データサイエンスの基礎は「情報学」と「統計学」+「数学」。基礎の学び方は講義を聞いたり本をじっくり読むなど伝統的なやり方が良い。基礎に関しては『統計検定2級』の受講も効果的
    ・データサイエンスを情報学、統計学、価値創造の3つの要素を統合する分野と位置付ける。

    感想
    ・データサイエンスとは何かといった概要を知れる本。実用書ではない。
    ・統計に仕事で携わっているが、統計の歴史については無知であった。統計の起源や日本での統計調査の歴史を知れ、通常の仕事に深みが出そう。

  • 【貸出状況・配架場所はこちらから確認できます】
    https://lib-opac.bunri-u.ac.jp/opac/volume/706090

  • データサイエンスについて何も知らない状態で読んだので、内容は少し難しく感じたが、「データ」「情報」の定義なども記されていて大変勉強になった。
    図書館で借りて読んだが、何度も読みたいので購入。

  • データサイエンス周りについてなんか話す本
    それらしいこと言ってるけど面白くない。情報も必要そうなことは言ってるのだけどまとめ方が下手すぎでは。実用ではなく学問として知りたい人向け

  • 統計よりだけど、基本的なことが書かれてあってわかりやすかったし良かった。

  • 私などのような「データサイエンスとはなんだ?」と思う人向けの格好の入門書。

全52件中 1 - 10件を表示

著者プロフィール

滋賀大学 学長

「2023年 『応用基礎としてのデータサイエンス AI×データ活用の実践』 で使われていた紹介文から引用しています。」

竹村彰通の作品

  • 話題の本に出会えて、蔵書管理を手軽にできる!ブクログのアプリ AppStoreからダウンロード GooglePlayで手に入れよう
ツイートする
×