cloudera seminar 2013/04/23

34
1 ビビビビビビビビビビ ビビビビビビビビビ ビ Hadoop ビビビビビビビビビビ ビビ ビビ | Cloudera ビビビビ ビビビビビビビビビビビビ 2013 ビ 4 ビ 24 ビ

Upload: cloudera-japan

Post on 28-May-2015

830 views

Category:

Technology


0 download

DESCRIPTION

2013/4/23に実施したセミナーの資料です

TRANSCRIPT

Page 1: Cloudera Seminar 2013/04/23

1

ビッグデータ時代到来!どうするデータ活用

〜 Hadoop の導入事例から学ぶ〜川崎 達夫 | Cloudera 株式会社 エデュケーションサービス2013 年 4 月 24 日

Page 2: Cloudera Seminar 2013/04/23

2

自己紹介

• 川崎 達夫• シニアインストラクター&研修全般の業務を担

当• email: [email protected]

• Hadoop トレーニングに関するお問い合わせ先• web: http://www.cloudera.co.jp/university• email: [email protected]

Page 3: Cloudera Seminar 2013/04/23

3

後半のアジェンダ

• ビッグデータとは• Hadoop 事例紹介• Hadoop のアーキテクチャ• ビッグデータ時代の人材育成

Page 4: Cloudera Seminar 2013/04/23

4

Hadoopのアーキテクチャ

Page 5: Cloudera Seminar 2013/04/23

5

Google の課題

• Google の課題• Google の重要なサービスのひとつ、検索サービス• インターネット上のコンテンツを集めて、検索イン

デックスを作る必要があった• 2 つの課題

• 大量のコンテンツを「蓄積」(保存)しなければならない• 大量のコンテンツを「加工」(処理)しなければならない

インターネット

蓄積

加工

Page 6: Cloudera Seminar 2013/04/23

6

課題と解決(1)

• 一般的にデータはハードディスクに保存される• 利点

• GB あたりの単価が安い• 例) 3TB のディスクは $0.05/GB

• 欠点• 読み書き速度が遅い• 例)転送レートが 210MB/s のディスク

• 3TB の読み込みに約 4 時間かかる

→  複数のディスクを並列で使用する

Page 7: Cloudera Seminar 2013/04/23

7

課題と解決(2)

• データを一カ所に保存する• 処理時に共有ディスクからデータを読み込む• ボトルネックの要因

• 処理するデータのサイズが大きい• 多くの台数が同時にアクセス• ネットワークの帯域

→  処理をデータ側に持ってくる

Page 8: Cloudera Seminar 2013/04/23

8

課題と解決(3)

• 一台で処理するのではなく、複数のマシンに処理を分散する• 一方、分散処理は難しい• C 言語、フォートラン、 MPI 、、、、• 専門知識が必要

→  汎用言語と高レベルな API を使用して   複雑さを抽象化

Page 9: Cloudera Seminar 2013/04/23

9

課題と解決(4)

• 分散システムには高価なコンポーネントが必要• 障害の可能性を最小限に抑える

→  障害は発生すると認識した設計

Page 10: Cloudera Seminar 2013/04/23

10

Google の解決策 : GFS と MapReduce

• GFS (分散ファイルシステム)• 多数のサーバ上に分散してデータを保存できるファイ

ルシステム• Google は GFS を使って大量の web ページを多数の

サーバの上に保存した• MapReduce (分散処理)

• GFS で分散された多数のサーバの上でそのまま計算処理を行うための分散フレームワーク

• Google は MapReduce を使って検索インデックスを作成した

キーワードは「分散」

Page 11: Cloudera Seminar 2013/04/23

11

Hadoop の登場

• Hadoop = Google が公開した論文を元にしてオープンソースで開発されたクローン

• GFS -> HDFS (Hadoop 分散ファイルシステム)• MapReduce -> MapReduce (分散処理)

Page 12: Cloudera Seminar 2013/04/23

12

Hadoop のアーキテクチャ

マスタ・スレーブ型ただしスレーブ数は非常に多い (10-1000 台、 10000 台も可能 )

マスター

スレーブ群

Page 13: Cloudera Seminar 2013/04/23

13

Hadoop のアーキテクチャ

データを分散して保存

マスター

スレーブ群

データ

Page 14: Cloudera Seminar 2013/04/23

14

Hadoop のアーキテクチャ

処理を分散して実行

マスター

スレーブ群

処理

Page 15: Cloudera Seminar 2013/04/23

15

ここまでのまとめ

• Hadoop のアーキテクチャ• 「分散して蓄積」と「分散して処理」

• Hadoop が有効なケース• 大量のデータを蓄積したい• 比較的単純な処理を高速に行いたい→ 台数を増やすことで容易にスケールアウトできます

• Hadoop に向いていないケース• RDBMS ではありません(低遅延ではありません)• トランザクションのような複雑な処理はありません

Page 16: Cloudera Seminar 2013/04/23

16

ビッグデータ時代の人材育成Cloudera University

Page 17: Cloudera Seminar 2013/04/23

17

ビッグデータと人材不足

• ‘ビッグデータ’を業務に活かす基盤は整って来た

• 大きな課題は「人材不足」

• 関連記事• 日経コンピュータ 2011 年 9 月 15 日号

• ビッグデータ革命:最大の課題は人材不足• COMPUTERWORLD ( IDC調査)

• Hadoop/MapReduce 関連ソフトの世界市場、今後 5 年間の年平均成長率は 60.2% の見通し。(中略)その一方で、今後2 〜 3 年間、 HadoopやMapReduce を使いこなせる人材の不足がこれらの技術の普及拡大のネックになるだろうとも付け加えている

Page 18: Cloudera Seminar 2013/04/23

18

Hadoop エンジニアと給与

• 関連記事• 10 Tech Skills That Will Instantly Net You A $100,000+

Salary• 第7位 : “Haddop は少なくとも $103,000 の価値がある”

• http://www.businessinsider.com/10-tech-skills-that-will-instantly-net-you-100000-salary-2012-8?op=1

• As Demand Keeps On Increasing, Hadoop And NoSQL Skills Pay Off• “Hadoop と NoSQL を使用している社員の年収は $100,000以

上であり、 IT 業界平均年収の平均 $85,619よりもかなり高い”• http://inside-bigdata.com/as-demand-keeps-on-increasing-hadoop-

and-nosql-skills-pay-off/

Page 19: Cloudera Seminar 2013/04/23

なぜ Hadoopのトレーニングなのか?

不足 エキスパートを雇用するよりも社員に研修を行う方が安価速度 訓練されたプロフェッショナルは迅速でより効率的に業務を遂行セキュリティ 認定資格はリーダーシップとスキルの明らかな証明

19

戦略 独自の利用事例と卓越した研究拠点の構築を開始

Page 20: Cloudera Seminar 2013/04/23

25%

$115K

20

Hadoop プロフェッショナル:育成か雇用か?Hadoop のスキルを持つエンジニアの給与は、少なくとも一般より多く必要

Hadoop の開発者は、現在技術職において賃金が最も高額であり、この水準以上になっている

Sources: Business Insider, “10 Tech Skills That Will Instantly Net You A $100,000+ Salary,” 11 August 2012.Business Insider, “30 Tech Skills That Will Instantly Net You A $100,000+ Salary,” 21 February 2013.

GigaOm, “Big Data Skills Bring Big Dough,” 17 February 17 2012.

$300Kかなりシニアなデータサイエンティストの求人における賃金

Page 21: Cloudera Seminar 2013/04/23

21

なぜ Clouderaのトレーニングなのか?

1広範囲なコース体系開発 ,管理 ,HBase,Hive & Pig, データサイエンス

2

3

経験豊かな講師2009 年以降、 15,000 人以上が受講

5世界各国で実施ほとんどのコースが 20 カ国、およびバーチャルでも提供

6 プラットフォームとコミュニティに密接CDH は他社のディストリビューションよりも展開されている

7詳しいトレーニング教材ハンズオン演習と仮想マシンが実操作に役立つ

認定資格のリーダーCloudera の認定取得者は 5,000 人以上

4 最高水準のカリキュラムHadoop の進化に伴い定期的に更新 8 学習の継続

ビデオチュートリアルと e-learning でトレーニングを補完

Page 22: Cloudera Seminar 2013/04/23

55%

22

が Cloudera のトレーニングを受講

Source: Fortune, “Fortune 500 “ and “Global 500,” May 2012.

Cloudera はトップ企業への研修を提供

100%の企業の社員に対する研修を Cloudera で提

Hadoop の導入を検討している世界のテクノロ

ジー企業のトップ 20 社のう

Fortune 100 企業のビッグデータプロ

フェッショナルのうち、

Page 23: Cloudera Seminar 2013/04/23

94%

66%

23

が Cloudera のトレーニングを同僚または知人に推奨、または強く推奨

が少なくとも毎月開催している Clouderaのトレーニングを当てにしている

Source: Cloudera Past Public Training Participant Study, December 2012, n = 206

40% が Cloudera のトレーニング後、新しいアプリケーションを開発、あるいはビジネスに重要な分析を実施

Cloudera のトレーニング受講者は現場のリーダー

88% が Cloudera のトレーニングは受講生の役割に求められる Hadoop の専門知識を提供していると示唆

Page 24: Cloudera Seminar 2013/04/23

24

“ ”

講師の専門スキルと講義中に得られる技術知識の向上は素晴らしかった。 トレーニングの品質は大学の授業に比肩する

Page 25: Cloudera Seminar 2013/04/23

25

Cloudera Universityとは何か?

役割ベースのトレーニングコー

開発者 管理者 分析者

専門的な認定資格

プロジェクトベースのビデオチュートリ

アル(英語)

製品ベースのE-Learning

Hadoop クラスタの発展

Cloudera ナレッジベース

Page 26: Cloudera Seminar 2013/04/23

26

Cloudera エッセン

シャル1 日

Hadoop管理者向け

3 日間 & 認定試験

ClouderaEnterprise

1 日間

Hadoop開発者向け

4 日間 & 認定試験

Proposed Company Training Timeline

Proposed Evolution of Cloudera Enterprise Deployment

ApacheHBase

2 日間 & 認定試験

Apache Hive & Pig

2 日間

DataScience

3 日間 & 認定試験

最初のユースケース

追加のユースケース

リアルタイムのユースケース

広範囲なユーザーが採択

Estimated Data in Production

最新の分析

Hadoop選択のライフサイクル

Hadoop で何をすることが

できるか?

本番環境でのHadoop を準備

Page 27: Cloudera Seminar 2013/04/23

27

ラーニングパス:開発者とソフトウェアエンジニア

Data Scienceトレーニン

開発者向けトレーニン

HBaseトレーニン

本番環境で MapReduce プログラムを記述する方法を学習実際のデータ分析に必要となる高度な API のトピックをマスター

大量データセットでの遅延を最小化するためのスキーマ設計秒間数十万オペレーションまでスケールアップ

レコメンダとデータ解析を実装異種データの分析からすぐに利用可能な洞察力を認識

Page 28: Cloudera Seminar 2013/04/23

28

ラーニングパス:システム管理者と IT マネージャー

Hive & Pigトレーニン

Cloudera Enterprise

トレーニング

迅速なクラスタのデプロイと拡大のために Cloudera Manager を使用クラスタの性能向上のためにどのツールと技術を使用するかを学習

外部 BI ツールなしに大量データセットの完全な分析を実行高い価値がある用途で扱うためにデータを変換して操作

管理者向けトレーニング

設定、インストール、最適なパフォーマンスのための監視セキュリティ機能と複数ユーザを実現するための実装

Page 29: Cloudera Seminar 2013/04/23

29

ラーニングパス:分析者 & ビジネス情報スペシャリスト

Data Scienceトレーニン

Cloudera エッセン

シャルトレーニン

Hive & Pigトレーニング

既存の技術と並行して Hadoop の価値を創造複数の構造化された大量な量のデータを分析するための方法を学習

大きすぎるデータセットに対して SQL とスクリプト言語を適用Hadoop のアクセスの容易さを加速する高度なテクニックを取得

好機を生かすために業界固有のデータプラットフォームを構築コスト削減、利益拡大、顧客維持のためにデータを使用

Page 30: Cloudera Seminar 2013/04/23

30

Course Overview

Cloudera Apache Hadoop エッセンシャル1 日

なぜ Hadoop が存在しているのか、いつ利用するのが適切か、拡張を成功させるために必要なリソースは何かを学習します。 Hadoop の主要なコンポーネントと広範囲な Hadoop エコシステムを紹介します。

Cloudera Apache Hadoop 開発者向けトレーニング4 日間

HDFS と MapReduce の基本と同様に、 API を使用してどのようにプログラムを記述するのか、デバッグと最適化のテクニック、大きなワークフローの管理方法を学習します。関連する Apache プロジェクトの概要を紹介します。

Cloudera Apache Hadoop 管理者向けトレーニング3 日間

Hadoop システム管理者のコンセプトと実務について、インストールと設定、デプロイにおける問題の診断と解決するための負荷分散とチューニングについて学習します。

Cloudera Enterprise トレーニング1 日

大規模 Hadoop クラスタを維持管理するために、 Cloudera Manager を含むCloudera Enterprise の一部として提供されるアプリケーションの使用方法について学習します。

Cloudera Apache HBase トレーニング2 日間

低遅延クエリと高スループットを実現するための分散データストアとして、HBase の使用方法を学習します。本コースではスキーマ設計、アプリケーションの作成、設定とメンテナンスも網羅しています。

Cloudera Apache Hive & Pig トレーニング2 日間

Apache Hadoop で分析とデータ変換を行うための、 2 つの人気のあるApache プロジェクト、 Hive と Pig の使用方法について、フィルタ、結合、ユーザー定義関数などを学習します。

データサイエンス入門:レコメンドシステムを構築する3 日間

データサイエンティストとは何か、解決できる問題は何か、異なる業界においてデータからビジネスの価値を導くために現実的な課題に適用する方法について学習します。自動化されたレコメンダシステムを実装します。

Page 31: Cloudera Seminar 2013/04/23

31

Cloudera はビッグデータの動向に福音を説いている最適なベンダーであり、業界で Hadoop を促進する素晴らしいサービスを提供している。開発者向けトレーニングは私が旅を始めるのに素晴らしい方法だった。

Page 32: Cloudera Seminar 2013/04/23

32

なぜプライベートトレーニングなのか?

利便性希望日に希望した場所で

プライバシー相互の情報開示契約はない

フォーカス1教室あたり 10名または 20名に限定

関連性Hadoop の目的に合わせた議論

カスタマイズ研修の内容はご要望に応じて提供

価格旅費と最小限の作業に追加費用は発生しない

Page 33: Cloudera Seminar 2013/04/23

34

本日のまとめ

• ビッグデータとは何か• Hadoop の事例• Hadoop のアーキテクチャ• ビッグデータ時代の人材育成

• 前半の資料は参加者のみに期間限定で公開しています

Page 34: Cloudera Seminar 2013/04/23

35 CONFIDENTIAL - RESTRICTED