20120303 _jaws-ug_summit2012_エキスパートセッションemr編

37
1 エキ Elastic MapReduce 2012/03/03 @JAWS SUMMIT 2012 発表資料 http://www.velc.co.jp ヴェルク株式会社 津久井浩太郎(@quarterkota)

Upload: kotaro-tsukui

Post on 10-Jun-2015

1.202 views

Category:

Technology


1 download

DESCRIPTION

2012年3月3日のJAWS-UG SUMMIT 2012のエキスパートセッションElastic MapReduce編です。デモベースのセッションのため資料だけでは伝わりにくい部分があります。ご了承ください。

TRANSCRIPT

Page 1: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

1

エキスパートセッションElastic MapReduce

2012/03/03 @JAWS SUMMIT 2012発表資料

http://www.velc.co.jp

ヴェルク株式会社津久井浩太郎(@quarterkota)

Page 2: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

2

自己紹介

■所属• ヴェルク株式会社 取締役/アーキテクト• JAWS-UG東京⽀部 コアメンバー• ⼀般社団法⼈クラウド利⽤促進機構 技術アドバイザー

■好きなAWSサービスEMR:何よりも⼿軽さがスゴイRDS:イケてるバックアップに命を救われたことがある

■経歴ITコンサル(フューチャーアーキテクト)

→ インターネット広告系ITベンチャー(サイテック)→ 独⽴して現在2期目

津久井浩太郎 @quarterkota

Page 3: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

3

はじめる前に質問があります。

Page 4: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

4

Question

Hadoopをオンプレミス環境でセットアップして使った経験のある方、挙手をお願いします。

Page 5: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

5

Question

EMRを触ったことのある方、挙手をお願いします。

Page 6: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

6

EMRを触ったことは無いが興味はあるという方、挙手をお願いします。

Question

Page 7: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

7

本日のAgenda

1.EMRとは?

2.EMRのメリット

3.EMRを触ってみる

4.EMR使用上のご注意

5.最後に

Page 8: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

8

1.EMRとは?

Page 9: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

9

EC2とS3のIaaSレイヤを基盤としてHadoopエンジンを取り入れて拡張させたPaaSレイヤの分散処理基盤

AmazonS3

AmazonEC2

Apache Hadoop

Streaming / Hive / Pig /Custom JAR / Cascading

IaaS

PaaS

Page 10: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

10

言い換えると・・・好きな時に好きなだけ使える

クラウド型Hadoop基盤

++++

Page 11: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

11

本日のAgenda

2.EMRのメリット

Page 12: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

12

Hadoop自体はOSSで自由に使える優れた分散処理技術

Page 13: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

13

しかし、Hadoopが有効に稼働するオンプレ環境を作るには・・・

少なくとも数十台規模のサーバが必要

イニシャルコスト・メンテナンスコスト大

バッチ用途が中心になるため、「リソースの空き時間」が発生しがち

Page 14: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

14

実際に導入できるのはリソースが潤沢な一部の企業のみ

Page 15: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

15

しかし、AWSのIaaSであるEC2・S3を処理基盤にする事で手軽にHadoopが利用可能に!

Page 16: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

例えば・・・

m1.largeを20ノードで3時間の処理

$0.46 x 20 x 3 = $27.6≒ 2346円(85円/$)

Page 17: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

17

3.EMRを触ってみる

Page 18: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

18

EMRはユーザからの指示に基づいてジョブフローを生成

ジョブフロー

Hadoopクラスタ(EC2インスタンス群)

処理内容Hadoopクラスタのサイズなど

Page 19: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

19

今回はSQLライクに分散処理を制御できるHiveベースのジョブフローをご紹介します。

Page 20: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

20

それでは実際にジョブフローを作成してみます。

Page 21: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

21

1.GUI(マネジメントコンソール)からの作成

2.CLIからの作成

ジョブフローの作り方は2パターン

Page 22: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

22

1.GUI(マネジメントコンソール)からの作成

Page 23: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

23

2.CLIからの作成

Page 24: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

24

それでは実際にHiveでジョブフローを操作してみましょう

Page 25: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

Amazon S3

25

マスタノード上で直接SELECTを実行し

結果を標準出力させます

入力データ

HDFS

Hadoopクラスタ

中間データ出力データ

Page 26: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

Amazon S3

26

Hiveでのデータのやり取りはS3を入出力の口として

行うのが一般的です

入力データ

出力データ

HDFS

Hadoopクラスタ

中間データ

Page 27: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

EMR+Hiveの組み合わせによりHadoopの敷居がグッと下がる

Page 28: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

4.EMR使用上のご注意

Page 29: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

EMRには向き不向きがある!低レイテンシを求められるシステムに単独で用いるのは厳しい

Page 30: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

SPOFを考慮すべし!万が一マスタノードに障害が発生した場合

全ての処理結果が失われる

Page 31: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

データ設計に細心の注意を!例えばHiveの場合JOINを連発するとパフォーマンスが急激にダウン

Page 32: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

遊びの時間を極力減らす!ジョブフローが「Wait」状態は課金だけ発生するのでもったいない

Page 33: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

5.最後に

Page 34: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

EMRは大量分散処理を一気に身近なものにする画期的なサービスです

とにかくガンガン使って情報共有を進めましょう

Page 35: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

EMRを1から始めるにはこの本がオススメです

Page 36: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

JAWS-UGの分科会としてEMR勉強会もやっています

Page 37: 20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編

37

enjoy life and creation

http://www.velc.co.jp