- Amazon.co.jp ・本 (168ページ)
- / ISBN・EAN: 9784774180540
感想・レビュー・書評
-
・P50:
まず、データ収集はストリーミング処理とバッチ 処理に分けられます。
ストリーミング処理は、主にログの収集に使いま す。代表的なツールには、拙作の Fluentd、または Logstash、Apache Flume などがあります。伝統的な syslogd もこの中に入ります。
バッチ処理は、主にマスタデータの収集や、用途 の異なるデータベースの間でデータを移動するため に使います。代表的なツールには、同じく拙作の Embulk、または Apache Sqoop、Kettle、Talend な どがあります。mysqldump や rsync もこの中に入り ます。
・P51:バッチ処理の技術的難しさ(レジューム, 増分ロード...etc)
・P59:
Embulk は、オープンソースのバルクデータ転送ツールです。ストリーミングデータ収集に特化した Fluentd とは異なり、Embulk はバッチ処理でのデー タ転送に特化しています。
その適用範囲は、データ ベースからデータ分析・検索システムへのデータ転 送、レガシーシステムから新システムへのデータ移 行、オンプレミスとクラウドサービスの間でのデー タ同期、遠隔システム間のデータ統合など、多岐に わたります。
・P62:Embulkのアーキテクチャ詳細をみるコメント0件をすべて表示 -
新しい連載も多く、なかなか内容の濃かった号でした。
-
Railsで簡単なwebApをつくる流れが書いてあり、新人向けには丁度いい
-
新人研修の章、エンジニアの担当領域が洗い出されていてキャリア形成に役立つと思います。
linuxコマンドの解説でfindだけ1章割いて重要な使い方を紹介しているのが実践的です。 -
データ収集が非常二参考になった。特にストリーミング処理技術に関する部分はすぐにでも業務で応用したい内容であった