初めてのaws elastic map reduce
TRANSCRIPT
2013/6/21 JAWSUG-Osaka
AmazonElastic
MapReduce玉川竜司
13年6月25日火曜日
軽く自己紹介
Sky株式会社でいろいろやってます。兼業翻訳やってます。tamagawa_ryuji@twitter / Ryuji Tamagawa@FB
13年6月25日火曜日
初心者向けのElastic MapReduce?
そもそも無茶な話です気づいたら無茶振りされてました・・・
13年6月25日火曜日
ビッグデータとHadoopエコシステム
✤ 始まりはGoogle
✤ スケールアップは限界に来つつあった
✤ たくさんマシンを並べて性能アップ = スケールアウト
✤ 大量のデータを処理して、ビジネス上の価値を取り出す
13年6月25日火曜日
Hadoop/EMRの使いどころ
✤ I/O(特にランダムアクセス)が制約になるようなケース
✤ 多台数の処理(スケールアウト)が必要で、障害対策がいるケース
✤ 構造化されていないデータをそのまま貯めておくケース
13年6月25日火曜日
Elastic MapReduceってなに?
✤ 一言で言えば、AWS上でHadoopクラスタを構築し、使いたいソフトを自動でインストーしてくれるサービス。
✤ Hadoop, HBase, Hive, Pig, MapRがすぐに使える
✤ 基本の入出力はS3を使う。ノードは普通のEC2
✤ 作業領域はEC2インスタンスのエフェメラルディスク
✤ スポットインスタンスを有効活用する機能がある
✤ 秋には本が出ます(英語)日本語訳が出せるかな?
13年6月25日火曜日
エコシステム
分散ストレージ:HDFS (MapR) / S3
データ処理フレームワーク:MapReduce高速ランダムアクセス
HBase
SQLフロントエンド:Hive
データ処理のツール:Pig
エンドユーザーのプログラム
13年6月25日火曜日
Elastic MapReduceのいいところ
✤運用が楽!✤ Hadoopエコシステムは開発が活発
✤ちゃんと動く組み合わせを構築し、メンテナンスするのが非常に大変
13年6月25日火曜日
ただし・・・
✤ 200x年代は、物理メモリが一台あたり数10GB程度だった
✤ 201x年代に入って、100GB以上の物理メモリを持つマシンが使えるようになってきた
✤ スイートスポットが変わってきた。既存のRDB技術の限界が引き上げられている
13年6月25日火曜日
Questions?and to the RedShift...
13年6月25日火曜日