hadoop scr第7回 hw2011フィードバック

31
© Acroquest Technology Co., Ltd. All rights reserve Hadoop World 2011 NYC フフフフフフフ フフフフフフフフ Acroquest Technology 阪阪阪 阪阪 阪阪阪阪 一、 2011/11/28 Hadoop 阪阪阪阪阪阪阪阪阪阪阪阪阪 7 阪阪阪阪阪

Upload: advancedtechnight

Post on 26-May-2015

1.626 views

Category:

Technology


2 download

DESCRIPTION

Hadoopソースコードリーディング第7回 Hadoop World 2011 New York 参加報告の発表資料です。「インフラとしてのHadoop」を、注目の3セッションを通して紹介します。

TRANSCRIPT

Page 1: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

Hadoop World 2011NYC

フィードバック~インフラとしての    ~

Acroquest Technology阪本雄一郎、落合雄介

2011/11/28Hadoop ソースコードリーディング第 7 回発表資料

Page 2: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved. 2

目次

1. 自己紹介2. Hadoop World セッション内容の変化3. セッション紹介4. インフラとしての Hadoop

会場の Sheraton New York Hotel & Towers

Page 3: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved. 3

1. 自己紹介

阪本雄一郎   Acroquest Technology プロジェクトリーダーとして

サービスオーダシステムを開発 Flume による

ログ収集プラットフォーム構築を実施 HBase 検証案件実施

落合雄介   Acroquest Technology Hadoop 関連案件に従事

– MapReduce によるログデータ整形・解析– HBase 検証案件– ログ分析 Hadoop インフラ構築

Page 4: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

2. Hadoop World セッション内容の変化

4

昨年( Hadoop World 2010 )

Hadoopコンポーネント

利用事例30 セッション

Hadoop検証

5 セッション

今年( Hadoop World 2011 )

Hadoopコンポーネント

利用事例30 セッション

→Hadoop + α の組み合わせ事例をいくつか紹介します

Hadoopコアセッション

5 セッション

Hadoop連携

15 セッション

Hadoop検証

5 セッション

Hadoop連携

5 セッション

Hadoop (+周辺プロダクト)を単に使うだけでなく、OSS や独自 FW を組み合わせて利用する事例が増えてきた

Page 5: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

3. セッション紹介

I. R と Hadoop の融合II. Hadoop を使った衛星画像解析III. Hadoop をクラウド上に展開

5

Page 6: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

I. R と Hadoop の融合

6

The Powerful Marriage of R and Hadoop注目のセッションで、200 人の会場がいっぱいでした

Page 7: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 I. The Powerful Marriage of R and Hadoop】

I-1. 発表者概要

Revolution Analytics Founded in 2007 R 言語の商用利用に特化

David Champagne Principal Architect/Engineer for SPSS

– SPSS :統計パッケージソフト開発、2009 年 IBM が 12 億ドルで買収

7

Page 8: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 I. The Powerful Marriage of R and Hadoop】

I-2. R 言語とは

8

統計解析向けプログラミング言語 統計解析に適した命令体系を持つ 開発実行環境も含む

- R console : CUI- R Commander  : GUI

世界中の R ユーザが「 CRAN ( Comprehensive R Archive Network )」でライブラリを提供

オープンソース

Page 9: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 I. The Powerful Marriage of R and Hadoop】

I-3. R 言語との連携の動機

9

R 言語は 200 万人以上のユーザを持つオープンソース統計言語

R プログラマが簡単に Hadoop 上のデータを扱い、 MapReduce で処理できるようにしたい

R を、 Hadoop 上で、 Hadoop の中身を意識せずとも動かせるようにしたい

Page 10: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 I. The Powerful Marriage of R and Hadoop】

I-4. アーキテクチャ

10

rhbaserhdfs

rmr

作った部分

Page 11: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 I. The Powerful Marriage of R and Hadoop】

I-5. rmr の特徴

11

Java を書くよりシンプル Hive, Pig ほどシンプルではなく、

より汎用的 プロトタイピングをしやすい

Page 12: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 I. The Powerful Marriage of R and Hadoop】

I-6. Hive と rmr の記述の違い

12

単純な集計では Hive の方がコード量は少ない・ Map Reduce の処理を 明示的に記せること・ Map, Reduce で、 R 言語の 関数を呼び出せることが特徴

男女のユニークユーザ数をそれぞれ求める処理

Page 13: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 I. The Powerful Marriage of R and Hadoop】

I-7. rmr における記述量

13

k-means : クラスタリングのアルゴリズムの一つ

クラスタリング: 複数のデータを持つ要素を、 特徴別のグループに分類する (購買意欲の高いユーザと  それ以外のユーザを分類する、など)

rmr で大幅に  コード量 = 実装の手間を削減!

R 言語に備わっているk-means のライブラリを使用可能なため

Page 14: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 I. The Powerful Marriage of R and Hadoop】

I-8. 大量データ統計処理の今後

R と Hadoop が組み合わさることで、Big Data の柔軟な解析への期待が高まる k-means クラスタリングの例のように、

統計的分析を簡易な記述で実現可能になる 統計処理の理論に慣れていないエンジニアにも

Big Data の分析が容易になる

14

Page 15: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

II. Hadoop を使った衛星画像解析

Indexing the Earth –Large Scale Satellite Image Processing Using Hadoop

15

How many planes in this image?

Page 16: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 II. Indexing the Earth – Large Scale Satellite Image Processing Using Hadoop 】

II-1. 発表者概要

Skybox Imaging 衛星画像をもとに、映像解析・監視を

行う

Oliver Guinan Ground Systems 部の副部長 世界最大級のコンシューマ向け

インターネットアプリケーションを開発 16

Page 17: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved. 17

Hadoop をそのまま使っても遅いので、ネイティブコードを呼び出せるようにしまし

た!

端的に言うと・・・

【 II. Indexing the Earth – Large Scale Satellite Image Processing Using Hadoop 】

II-2. 概要

Page 18: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 II. Indexing the Earth – Large Scale Satellite Image Processing Using Hadoop 】

II-3. フレームワーク作成の動機

大量データの映像解析をしたい 衛星画像から送られてくるデータは 1TB/日 大量データを分散させて保持させたい→ Hadoop が使える。

画像解析ライブラリをそのまま使いたい しかし、 Hadoop 、 Java には弱点あり

ジョブ起動が遅い 科学計算ライブラリが不十分

18

画像解析ライブラリが使えるネイティブコードを呼び出した

い!

Page 19: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 II. Indexing the Earth – Large Scale Satellite Image Processing Using Hadoop 】

II-4. アーキテクチャ

タスクの中でネイティブコード( C 言語)を呼び出す仕組みを構築

19

ココ

Busboy (バズボーイ):飲食店で、食器を下げたり皿洗いをしたりする人

Page 20: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 II. Indexing the Earth – Large Scale Satellite Image Processing Using Hadoop 】

II-5. 業務特化の 1 つの解

Hadoop と自社フレームワークを組み合わせて、  高速処理+ネイティブライブラリ呼び出しを実現

既存の処理を Java で再実装することなく、C 言語などの既存の資産を使う

→Hadoop はあくまでインフラとして使う

20

Page 21: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

III. Hadoop をクラウド上に展開

Hadoop as a Service in Cloud

21

Page 22: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 III. Hadoop as a Service in Cloud】

III-1. 仮想化の要請

22

オペレーション、

メンテナンスの単純化

コスト低減 ニーズに応じた素早い対応

しかし、 Hadoopは一般的に仮想化と相性が悪いと言われている:

 ディスクの分散、

 ラックアウェアネス、 ・・・

Page 23: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 III. Hadoop as a Service in Cloud】

III-2. Big Data への対応で必要なのは Hadoop だけではない

23

Big Data 対応のための統合された基盤が求められている

・ Big Data のトレンドは、  Hadoop だけではない

 ・ Hadoop は他の技術と併用される:   Big SQL, NoSQL, etc,…

 ・全てのインフラを統一したい

・共通のハードウェア基盤

 ・ハードウェア、ドライバの  テストフェーズをなくしたい

 ・すでにあるチーム内で、制御、  診断、キャパシティマネジメントを  こなしたい

Page 24: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 III. Hadoop as a Service in Cloud】

III-3. 参考: Disney の Data Management Platform

24

Disney は、 2008 年から仮想化、 2009 年から Hadoopに取り組んでいる。

2010 年には、Cloud Platform を構築し、全サービスのうち 60% のサーバイメージを仮想環境に移行した

Hadoop 環境は Disney Cloud Services とは別

Advancing Disney’s Data Infrastructure with Hadoop

Matt Estes, Disney

より

Page 25: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 III. Hadoop as a Service in Cloud】

III-4. 参考: Disney の Data Management Platform

25

2011 年の取り組みで、

Hadoop クラスタをData Management Platform として統一

Hadoop を使ったサービスを大規模に展開する企業も、仮想化に注目している

Page 26: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 III. Hadoop as a Service in Cloud】

III-5. ディスクの構成

26

扱いやすい

ローカルディスクを使うことで、HDFS の特性を生かす

NW IO がネックに

Page 27: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 III. Hadoop as a Service in Cloud】

III-6. vSphere を通したラックアウェアネス

27

Rack script を自動生成することで、問題を解決

Rack awareness :Hadoop は大量のネットワーク通信を行うため、通信量を減らせるようマシンの物理的配置を設定する。

ラックアウェアネスの考慮が必要な点は、仮想化を行う際の、 「どの物理ノードに乗っているか気にしなくて良い」という利点に矛盾する

Page 28: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 III. Hadoop as a Service in Cloud】

III-7. Muti-tenant への対応

28

Multi-tenant :1 つのクラスタの中で複数のシステムを構築・動作させる

巨大クラスタを占有するのと、クラスタを共有するのと、用途によって使い分ける

顧客の要請に応じた使いわけ

Page 29: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

【 III. Hadoop as a Service in Cloud】

III-8. クラウド上の Hadoop 構築で、柔軟な対応が可能に

Hadoop を仮想環境で動作させる仕組みができた

「 Hadoop だけは特別」ではない。他のプラットフォームと同様に、「クラウドに Hadoop を展開して利用する」というユースケースもあり得る

29

Page 30: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved.

4. インフラとしての Hadoop

Hadoop はインフラとなりつつある MapReduce で計算して終わり!な時代は過ぎた Hadoop をベースに OSS/フレームワークを組

み合わせて、新たな仕組みを構築する動きが出てきた

「目的」ではなく「手段」として Hadoop を使う 「大量データだから Hadoop をとりあえず使お

う」だと、 Hadoop のメリットは少ない 大量データを分析し役立てたいから Hadoop を使

う、と考えると、 Hadoop を最大限に生かすことができる 30

Page 31: Hadoop scr第7回 hw2011フィードバック

© Acroquest Technology Co., Ltd. All rights reserved. 31

ぜひ日本でも事例を増やしましょう!