Apache Spark入門: 動かして学ぶ最新並列分散処理フレームワーク

著者 :
  • 翔泳社
3.50
  • (1)
  • (3)
  • (1)
  • (0)
  • (1)
本棚登録 : 65
感想 : 5
本ページはアフィリエイトプログラムによる収益を得ています
  • Amazon.co.jp ・本 (308ページ)
  • / ISBN・EAN: 9784798142661

作品紹介・あらすじ

Apache Sparkは多数のコンピュータを並列で動かして高速処理を実現する技術です。大量データのバッチ処理や機械学習など、ビッグデータの分野での活用が期待されるOSS(Open Source Software)です。

Apache SparkはUCバークレイで提唱されたRDD(Resilient Distributed Dataset)というデータモデルを採用し、メモリを上手に活用した効率的な処理を実現します。これにより、並列分散処理において高いパフォーマンスが期待できます。また、分散処理フレームワークHadoopとの高い親和性を有しており、YARNやHDFSなどのHadoopシステムの枠組が利用できます。

本書はApache Sparkの概要からRDDによる処理の仕組み、導入やアプリケーション開発までを解説します。また、「SQLインターフェイス」「機械学習」「ストリーム処理」「グラフ」などApache Spark周辺のライブラリの活用についても説明します。

話題のApache Sparkの仕組みとその利用方法を理解することにより、データ処理の新しい潮流を知ることができます。

感想・レビュー・書評

並び替え
表示形式
表示件数
絞り込み
  • 請求記号 007.6/E 64

  • scalaのインストール方法から解説されていたり、一口にSparkと言っても何種類か用途の違うAPIがあるので、それらが丁寧に解説されていて役立ちました。

  • 読了。19冊目。
    Apache Spark を使ってビッグデータを活用した機械学習とか、やってみたい。とはいえ環境を整えるにはそれなりのリソースがいるなあ。

全5件中 1 - 5件を表示

著者プロフィール



「2015年 『Apache Spark入門 動かして学ぶ最新並列分散処理フレームワーク』 で使われていた紹介文から引用しています。」

猿田浩輔の作品

  • 話題の本に出会えて、蔵書管理を手軽にできる!ブクログのアプリ AppStoreからダウンロード GooglePlayで手に入れよう
ツイートする
×