図解即戦力 ビッグデータ分析のシステムと開発がこれ1冊でしっかりわかる教科書

著者 :
  • 技術評論社
3.71
  • (8)
  • (11)
  • (13)
  • (1)
  • (1)
本棚登録 : 187
感想 : 14
本ページはアフィリエイトプログラムによる収益を得ています
  • Amazon.co.jp ・本 (232ページ)
  • / ISBN・EAN: 9784297108816

作品紹介・あらすじ

近年はビッグデータを分析し、ビジネスに活かすのは当たり前の時代となりました。今後IoTやAIなどの活用が期待される中、データを分析するだけではなく、データを集める・溜める・活用することが重要になってきています。本書は一般的なインターネット事業を展開する企業において、ビッグデータ分析システムをしっかり本番システム化する基本知識を図とともにわかりやすく解説しています。

感想・レビュー・書評

並び替え
表示形式
表示件数
絞り込み
  • 良書 わかりやすかったです
    本書は一般的な企業において、ビッグデータを分析する本番システムを作るための教科書であるといっています。
    企業の現状をリアルタイムに知ること、あるいは、優れたAIシステムをつくるためには、質のいいビッグデータが必要になります。
    そのための方法論を、豊富な図表と、分かりやすい表現で表しています。

    ビッグデータを処理するための、データ分析システムを概説しています。

    <処理>
    データの生成 データを生成する仕組みをつくる、データソースに出力
    データの収集 データソースを入力して、データレイクに、構造化データと非構造化データを収集する
    データの蓄積 データウェアハウスに、構造化データとして収集したデータのうち必要なデータを蓄積する
    データの活用 データウェアハウス、もしくは、部門のために抽出されたデータマートを分析・グラフなどに可視化してデータを活用する

    <データの収集手段>
     ストリームデータ収集 ブラウザのクリックタイミングなどイベントごとにデータの収集していく手法
     バッチデータ収集 Webサーバなどに蓄積されたデータを、バッチ(一括処理)する手法

    <ビッグデータの処理>
    膨大なデータを処理するために、分散処理を行うがそのときの注意事項、
     性能問題、ボトルネック
     ・ディスクがネック
     ・CPUがネック
     ・ネットワークがネック
     ・メモリがネック
    ⇒分散処理をするための提供するアーキテクチャー Hadoopプロジェクト
     ・HDFS:分散ストレージ
     ・MapReduce:Map関数とReduce関数の2つをつかった分散計算の手法
     ・Hive:MapReduce上で動くSQLエンジン

    <データの収集> 
    データの収集には、ストリーム処理と、バッチ処理とがある
     ①ストリーム処理とは、Webブラウザの履歴の収集など。分散キューという方法でデータを収集する。
     ②バッチ処理とは一括してデータを収集する方法。この場合は、ETL:Extract,Transform,Load という

    <データの蓄積>
     ①収集されたデータをデータレイクといって、構造化されているものと、されていないものがある

     これを一次加工をして、データウェアハウスにする
     ・不要なデータを削除したり、データを修復(クレンジング)したりして、その後の分析で使用できるように、構造化する
     ②この結果まとめられたものが、データウェアハウスである。

     データウェアハウスとしては、
     ・Teradata
     ・Amazon Redshift
     ・GCP BigQuery
     ・Snowflake  等がある。

    <データの活用>

     構造化された、データウェアハウスもしくは、特定目的のために抽出されたデータ:データマートを対象として
     分析し、その結果を分かりやすく加工するのがデータの活用です

     データ活用のシステムをBI(Business Intelligence)といいます。

     ・AWS QuickSight
     ・GCP Googleデータポータル
     ・Tableau
     ・PowerBI

     などがあります。

    <メタデータ管理>

    データ分析の過程で、データレイク、データウェアハウス、データマートなどのさまざまなデータを管理する必要がありますが、
    個別のシステムではなく、システム全体でデータを一元的に管理する手法が、メタデータ管理です。

    データ辞書といって、名前や、属性、長さなどを統一したり、名前規約を設けるものです。名前管理、MDMといっています。



    目次

    はじめに

    1章 ビッグデータ分析の全体像
     01 ビッグデータと分散処理
     02 非構造化データの増加と機械学習
     03 ビッグデータ分析システム
     04 企業のビッグデータ活用段階
     05 ビッグデータ分析を活用するための三つの役割
     06 エンジニアリングの希少価値

    2章 ビッグデータ分析システムのアーキテクチャ
     01 アーキテクチャの全体像
     02 データの生成・収集
     03 データ蓄積
     04 データ活用

    3章 分散処理の基礎
     01 ボトルネック解析
     02 ボトルネック以外の性能問題考慮点
     03 分散ストレージ
     04 分散計算
     05 分散システムのネットワーク
     06 リソースマネージャ
     07 分散処理の作り方
     
    4章 機械学習の基礎
     01 機械学習
     02 データの準備と前処理
     03 モデル推定とシステム化
     04 本番リリースとエンハンス
     05 ディープラーニング
     06 機械学習ツール
     07 サイエンスとエンジニアリングの役割分担

    5章 ビッグデータの収集
     01 バッチデータ収集とストリームデータ収集
     02 ファイルデータ収集とファイルフォーマット
     03 SQLによるデータ収集
     04 データ出力や更新ログ同期によるデータ収集
     05 APIデータ収集とスクレイピング
     06 バッチデータ収集の作り方
     07 分散キューとストリーム処理
     08 ストリームデータ収集における分散キュー
     09 プロデューサー,分散キュー,コンシューマー
     10 データ構造変更対応

    6章 ビッグデータの蓄積
     01 データレイクとデータウェアハウス
     02 アナリティックDB
     03 列指向フォーマット
     04 SQL on Hadoop
     05 DWH製品

    7章 ビッグデータの活用
     01 データマート
     02 アドホック分析
     03 アドホック分析環境の構築
     04 データ可視化
     05 データアプリケーション

    8章 メタデータ管理
     01 全体像と静的メタデータ
     02 動的メタデータとメタデータ管理実現方法
     03 データ構造管理
     04 データリネージ管理
     05 データ鮮度管理

    ISBN:9784297108816
    出版社:技術評論社
    判型:A5
    ページ数:232ページ
    定価:2180円(本体)
    発売日:2019年11月20日初版第1刷発行

  • ビックデータとは何を指すのか?
    ただ闇雲にデータを貯めるのがビックデータではなく、本来は経営に活かすための意志を持って貯めて使い倒す。それが本来の姿と言わんばかりに良いこと書いてます。と平読みしただけの私は感じました(笑)

    データレイク、分析手法、サーバ構築、運用管理など様々な視点できれいにまとまっていると思います。
    ちなみに部署内での回し読みに購入。(自己啓発ではない(笑))

  • 刊行から時間が経過しているにも関わらず、本書の内容は今日の技術環境にも十分通用し、理解しやすい構成となっています.

    今でいう”データ分析”の概念を、豊富な図解と無駄のない説明で解きほぐしている点が特に印象的です。"図解即戦力"の名に恥じない、視覚的にも理解しやすい構成が魅力的です.データ分析に必要な用語やプロセスが網羅的に扱われており、初心者から既に利用している人まで幅広い読者が知識を深めることができるでしょう.

    本書はITエンジニア向け(≠データ閲覧者・利用者向け)です.一通り読むと全体像を理解することができます.また、最終章では、ITエンジニアが見落としがちな、実際のビジネスシーンでの利用方針についての概要が提供されており、実務における全体的な流れやアドバイスが含まれています.

    情報量は多いですが、時折見返し、全体像を意識するのに最適です.

  • 著者はリクルートテクノロジーズでデータ分析基盤などを担当する方。データサイエンス的な話は少なく、DBやデータ収集的な話が多い。

  • ・データ利活用の段階
    ・分析、応用のためのデータ基盤開発
    ・データの応用方法
    について書かれた本。

    1年目はなにもわからなかったけど、レコメンドを通してだいぶ肌感が湧くようになった。この本に関しても1番の大枠の部分はほぼ理解できるようになった。成長を感じる。

    あとは企画者として、全体のアーキテクチャへの理解を深めるのと、出口の応用部分の引き出しを貯めることが大切。

  • 桃山学院大学附属図書館蔵書検索OPACへ↓
    https://indus.andrew.ac.jp/opac/book/651285

  • 全体をざっと見通すにはよい本。インデックス。

  • 情シス向けな本かもしれない。ビックデータをweb広告分析に使う感じで、ちょっと私の使いたいイメージと違ったかな。
    わかりやすい部分はあると思う。

  • ビッグデータ基盤とデータ管理の概要を掴んで概念整理するには充分よくまとまっている.説明に無駄がなく分かりやすい.分散処理環境についてはコレを読んだあとにより専門的な書籍にあたったほうがよい.

  • 最初から最後まで書かれている。AIだけじゃだめで、その前後が説明されている本はなかなか見つけられない。

全14件中 1 - 10件を表示

著者プロフィール

渡部徹太郎(@fetarodc) 東京工業大学大学院 情報理工学研究科にてデータ工学を研究。株式会社野村総合研究所にて大手証券会社向けのシステム基盤を担当し、その後はオープンソース技術部隊にてオープンソースミドルウェア全般の技術サポート・システム開発を担当。その後、株式会社リクルートテクノロジーズに転職し、リクルート全社の横断データ分析基盤のリーダーをする傍ら、東京大学での非常勤講師やビッグデータ基盤のコンサルティングを実施。現在は、株式会社MobilityTechnologies(旧JapanTaxi株式会社)にてMLOpsやデータプラットフォームを担当している。著書に「図解即戦力 ビッグデータ分析のシステムと開発がこれ1冊でしっかりわかる教科書」がある。

「2021年 『実践的データ基盤への処方箋〜 ビジネス価値創出のためのデータ・システム・ヒトのノウハウ』 で使われていた紹介文から引用しています。」

渡部徹太郎の作品

  • 話題の本に出会えて、蔵書管理を手軽にできる!ブクログのアプリ AppStoreからダウンロード GooglePlayで手に入れよう
ツイートする
×