Apache Spark入門: 動かして学ぶ最新並列分散処理フレームワーク
- 翔泳社 (2015年10月1日発売)
- Amazon.co.jp ・本 (308ページ)
- / ISBN・EAN: 9784798142661
作品紹介・あらすじ
Apache Sparkは多数のコンピュータを並列で動かして高速処理を実現する技術です。大量データのバッチ処理や機械学習など、ビッグデータの分野での活用が期待されるOSS(Open Source Software)です。
Apache SparkはUCバークレイで提唱されたRDD(Resilient Distributed Dataset)というデータモデルを採用し、メモリを上手に活用した効率的な処理を実現します。これにより、並列分散処理において高いパフォーマンスが期待できます。また、分散処理フレームワークHadoopとの高い親和性を有しており、YARNやHDFSなどのHadoopシステムの枠組が利用できます。
本書はApache Sparkの概要からRDDによる処理の仕組み、導入やアプリケーション開発までを解説します。また、「SQLインターフェイス」「機械学習」「ストリーム処理」「グラフ」などApache Spark周辺のライブラリの活用についても説明します。
話題のApache Sparkの仕組みとその利用方法を理解することにより、データ処理の新しい潮流を知ることができます。
感想・レビュー・書評
-
請求記号 007.6/E 64
詳細をみるコメント0件をすべて表示 -
scalaのインストール方法から解説されていたり、一口にSparkと言っても何種類か用途の違うAPIがあるので、それらが丁寧に解説されていて役立ちました。
-
読了。19冊目。
Apache Spark を使ってビッグデータを活用した機械学習とか、やってみたい。とはいえ環境を整えるにはそれなりのリソースがいるなあ。