初めてのaws elastic map reduce

Post on 14-May-2015

702 Views

Category:

Documents

9 Downloads

Preview:

Click to see full reader

TRANSCRIPT

2013/6/21 JAWSUG-Osaka

AmazonElastic

MapReduce玉川竜司

13年6月25日火曜日

軽く自己紹介

Sky株式会社でいろいろやってます。兼業翻訳やってます。tamagawa_ryuji@twitter / Ryuji Tamagawa@FB

13年6月25日火曜日

初心者向けのElastic MapReduce?

そもそも無茶な話です気づいたら無茶振りされてました・・・

13年6月25日火曜日

ビッグデータとHadoopエコシステム

✤ 始まりはGoogle

✤ スケールアップは限界に来つつあった

✤ たくさんマシンを並べて性能アップ = スケールアウト

✤ 大量のデータを処理して、ビジネス上の価値を取り出す

13年6月25日火曜日

Hadoop/EMRの使いどころ

✤ I/O(特にランダムアクセス)が制約になるようなケース

✤ 多台数の処理(スケールアウト)が必要で、障害対策がいるケース

✤ 構造化されていないデータをそのまま貯めておくケース

13年6月25日火曜日

Elastic MapReduceってなに?

✤ 一言で言えば、AWS上でHadoopクラスタを構築し、使いたいソフトを自動でインストーしてくれるサービス。

✤ Hadoop, HBase, Hive, Pig, MapRがすぐに使える

✤ 基本の入出力はS3を使う。ノードは普通のEC2

✤ 作業領域はEC2インスタンスのエフェメラルディスク

✤ スポットインスタンスを有効活用する機能がある

✤ 秋には本が出ます(英語)日本語訳が出せるかな?

13年6月25日火曜日

エコシステム

分散ストレージ:HDFS (MapR) / S3

データ処理フレームワーク:MapReduce高速ランダムアクセス

HBase

SQLフロントエンド:Hive

データ処理のツール:Pig

エンドユーザーのプログラム

13年6月25日火曜日

Elastic MapReduceのいいところ

✤運用が楽!✤ Hadoopエコシステムは開発が活発

✤ちゃんと動く組み合わせを構築し、メンテナンスするのが非常に大変

13年6月25日火曜日

ただし・・・

✤ 200x年代は、物理メモリが一台あたり数10GB程度だった

✤ 201x年代に入って、100GB以上の物理メモリを持つマシンが使えるようになってきた

✤ スイートスポットが変わってきた。既存のRDB技術の限界が引き上げられている

13年6月25日火曜日

Questions?and to the RedShift...

13年6月25日火曜日

top related