AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門
- テッキーメディア (2020年7月9日発売)


- Amazon.co.jp ・本 (377ページ)
- / ISBN・EAN: 9784910313016
作品紹介・あらすじ
「データレイク」は、大量データ分析/生成データの活用を視野に入れた新しいデータストアのかたちです。従来のデータベース/データウェアハウスの範囲に収まらない多様なデータを大量に保管し、高度な統計分析や機械学習に役立つ情報基盤を作ることが可能です。
本書ではデータレイクの概念や特徴、必要とされる機能などを基本から解説し、さらにAmazonが運営するパブリッククラウドサービスAWS(Amazon Web Services)で実現する方法を解説します。
従来では想定しえなかった大量のデータを確実に保管するため、データレイクの世界ではクラウドのようなサービス型インフラストラクチャの活用が注目されます。さらにAWSではオブジェクトストレージS3上のデータを直接分析するAmazon Athena、データウェアハウスのAmazon Redshift、機械学習を実現するAmazon SageMakerなど、データレイクを支えるさまざまな仕組みが存在します。
本書ではそれらの活用の指針を解説するとともに、後半ではシステムの構築例を具体的に解説していきます。ビジネスデータ分析とログなどの生成データ分析を例に、システム構築の流れを詳しく紹介し、機械学習や統計分析をビジネスの現場で活かせる仕組みの技術的なヒントを数多く提供します。
感想・レビュー・書評
-
詳細をみるコメント0件をすべて表示
-
ハンズオン部分はもちろん良いが、序盤のデータレイクの概念とデータ分析の課題など背景的なところの説明が知りたかったところなので非常に役に立った。
ハンズオン部分はやっていないので評価なしの意味で星4。 -
『ビッグデータを支える技術』が理論を提供する本であれば、こちらは実践を提供する本である。SparkやHadoopを自前で運用するのは難しく、ビジネス要求からすれば本質ではない。本質はデータ解析である。であれば、AWSのマネージドサービスを利用するほうが良い。
ハンズオンは基礎編と応用編に分かれている。基礎編ではQuickSight, Redshift, Athena, Glue を取り扱うが、QuickSightとRedshiftはこれまで業務で縁がなかったためハンズオンで大いに学ぶことができた。AthenaとGlueは業務で少しやればこのハンズオン以上の知識が既に入っている、というようなレベル感だ。
応用編はログ分析の基盤を作るハンズオンでかなり重量級である。やり抜けば即実戦投入とはいかなくても、ログ分析周りの技術に知見がない状態から脱し、自社での応用を考えるところまではいけるだろう。 -
ハウツー
-
AWS DASの勉強の為に手に取った
2章までしか読んでないが、ハンズオンがとても良くサービスの概要を学ぶのにとても役に立った -
AWSを用いた分析環境作りを行う上での教科書
考え方やベストプラクティスが参考になる
●基本的なデータの流れ
①各部署やツールに散在しているデータ
②データレイク(真のデータ・生データの保管)
③DWH(目的を満たす分析データの格納)
④データマート(BIに食わせる前のデータ)
・②→③が目的志向で加工した(でも最小粒度)のデータの格納がキモ。事業目的は変化するので難易度が高い。
著者プロフィール
上原誠の作品





