hadoop最新事情とhortonworks data platform

65
Hadoop最新事情と Hortonworks Data Pla0orm Joe Ooura & Yuta Imai 2016/4/8 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

Upload: yuta-imai

Post on 21-Jan-2018

1.470 views

Category:

Software


0 download

TRANSCRIPT

Page 1: Hadoop最新事情とHortonworks Data Platform

Hadoop最新事情とHortonworksDataPla0ormJoeOoura&YutaImai2016/4/8

©HortonworksInc.2011–2015.AllRightsReserved

Page 2: Hadoop最新事情とHortonworks Data Platform

2 ©HortonworksInc.2011–2016.AllRightsReserved

はじめに

Ã  質問はQUESTIONSというボタンからお願いします。プレゼンター以外には見えません。

Ã  TwiGer経由でもコメント、質問歓迎です。 #hwxjp

Page 3: Hadoop最新事情とHortonworks Data Platform

3 ©HortonworksInc.2011–2016.AllRightsReserved

自己紹介 Ã 大浦 譲太郎 TwiGer:@JOOOURAÃ  5歳児と8歳児の父Ã サーバ、ストレージのシステム営業を経て2011年に フラッシュメモリストレージ企業の日本法人立ち上げに参画。Evangelist、プリセールスSE、広報、営業など一通りをカバーエンタープライズフラッシュの代名詞ともなるioDriveシリーズを日本国内の通信キャリア、金融機関、WEBサービス事業者、アドテク、DC事業者に多数導入。 Ã  2016年1月より、ホートンワークスジャパンの二人目の営業として参画。 現在はエヴァンジェリスト活動及びエンタープライズ向けセールス、パートナー支援を行なっている。

Page 4: Hadoop最新事情とHortonworks Data Platform

4 ©HortonworksInc.2011–2016.AllRightsReserved

Agenda

Ã  Hortonworks?Ã  Hadoopやビッグデータを取り巻く最近の事情Ã  Hortonworks Data Platform

Page 5: Hadoop最新事情とHortonworks Data Platform

5 ©HortonworksInc.2011–2016.AllRightsReserved

Agenda

Ã  Hortonworks?Ã  Hadoopやビッグデータを取り巻く最近の事情Ã  Hortonworks Data Platform

Page 6: Hadoop最新事情とHortonworks Data Platform

6 ©HortonworksInc.2011–2016.AllRightsReserved

About Hortonworks

お客様との歩み •  ~800社(2016年2月現在)•  152社は2015年第三四半期で•  2015年10月NASDAQへ上場:HDP

The Leader in Connected Data Platforms •  HortonworksDataFlowfordatainmo\on•  HortonworksDataPla]ormfordataatrest•  Poweringnewmoderndataapplica\ons

Partner for Customer Success •  Leaderinopen-sourcecommunity,focusedoninnova\ontomeetenterpriseneeds

•  Unrivaledsupportsubscrip\ons

Founded in 2011

Yahoo! で初代の Hadoop 開発を手がけたアーキテクト、デベロッパー、オ

ペレータ 24名によって創立

1000+ E M P L O Y E E S

1500+ E C O S Y S T E M

PA R T N E R S

Page 7: Hadoop最新事情とHortonworks Data Platform

7 ©HortonworksInc.2011–2016.AllRightsReserved

Our Model: Drive an Enterprise-focused Roadmap

1.   InnovateExis?ngProjects–  Hive/S\nger,YARN,HDFS,commonops&securityviaAmbari&Ranger

2.   IncubateNewProjects–  Metron(wasOpenSOC),Ranger,Knox,Atlas,Falcon,Ambari,Tez,etc.

3.   AcquireIP&Contribute

–  AcquiredXASecureandcreatedApacheRanger;contributedOpenSOC

4.   Partner&DeliverJointSolu?ons–  Microsom,EMC,HP,SAS,Pivotal,RedHat,Teradata,etc.

5.   RallytheEcosystem

–  FastSQLviaS\ngerini\a\ve,DataGovernanceini\a\ve,ODPi

Data

Acce

ss

(batc

h, int

erac

tive,

real

time)

Int

egra

tion &

Go

vern

ance

Op

erati

ons

Secu

rity

ApacheProject HortonworksCommiPers

HortonworksPMC

HWX%ofCommiPers

Hadoop 29 24 31%Accumulo 2 2 9%Calcite 6 3 43%HBase 8 5 17%Hive 19 11 38%NiFi 5 5 42%

Phoenix 5 5 22%Pig 5 5 24%

Slider 12 12 100%Spark 1 0 2%Storm 4 4 19%Tez 15 15 44%Atlas 7 0 35%Falcon 7 5 41%Flume 1 1 4%Ka[a 0 0 0%Sqoop 1 1 4%Ambari 39 30 76%Oozie 4 2 22%

Zookeeper 2 1 13%Knox 12 2 80%Ranger 13 11 76%

TOTAL 197 144

Source:ApacheSomwareFounda\on.AsofOctober5,2015.Acommi'erissomeonewhohas“earnedtheirstripes”withintheApachecommunityandhastheability

tocommitcodedirectlytotheircorrespondingApacheprojectsourcecoderepository

Page 8: Hadoop最新事情とHortonworks Data Platform

8 ©HortonworksInc.2011–2016.AllRightsReservedPage8 ©HortonworksInc.2011–2015.AllRightsReserved

100%OpenSourceConnectedDataPla0orms

Eliminates Risk ofvendorlock-inbydelivering100%Apacheopensourcetechnology

Maximizes Community Innovation withhundredsofdevelopersacrosshundredsofcompanies

IntegratesSeamlesslythroughcommiGedco-engineeringpartnershipswithotherleadingtechnologies

M A X I M U M C O M M U N I T Y I N N O VAT I O N

T H E I N N O VAT I O N A D VA N TA G E

P R O P R I E T A R Y H A D O O P

T I M E

INN

OV

AT

ION

O P E N C O M M U N I T Y

Page 9: Hadoop最新事情とHortonworks Data Platform

9 ©HortonworksInc.2011–2016.AllRightsReserved

Agenda

Ã  Hortonworks?Ã  Hadoopやビッグデータを取り巻く最近の事情Ã  Hortonworks Data Platform

Page 10: Hadoop最新事情とHortonworks Data Platform

10 ©HortonworksInc.2011–2016.AllRightsReserved

自己紹介 Ã 今井 雄太 TwiGer:@imai_factoryÃ  Solu\onsEngineerÃ 広告配信サーバーのレポート作成のためにMapReduce(perl+streaming!)を使ったのがHadoopとの出会い。

Ã その後、AWSにてアドテクやゲームのお客様を担当しつつ、EMRやS3などのビッグデータなプロダクトを主に担当。そんなつながりでHortonworksに入社してHadoopをやっています。

Page 11: Hadoop最新事情とHortonworks Data Platform

11 ©HortonworksInc.2011–2016.AllRightsReserved

HadoopはもともとMapReduceそのものだった

1 ° ° ° ° ° ° ° ° °

° ° ° ° ° ° ° ° ° °

°

N

HDFS Hadoop Distributed File System

DATA MANAGEMENT

MapReduce

Page 12: Hadoop最新事情とHortonworks Data Platform

12 ©HortonworksInc.2011–2016.AllRightsReserved

HadoopはもともとMapReduceそのものだった

1 ° ° ° ° ° ° ° ° °

° ° ° ° ° ° ° ° ° °

°

N

HDFS Hadoop Distributed File System

DATA MANAGEMENT

ストレージ(HDFS)とコンピューティング(MapReduce)が結合し

ていた

MapReduce

Page 13: Hadoop最新事情とHortonworks Data Platform

13 ©HortonworksInc.2011–2016.AllRightsReserved

HadoopはもともとMapReduceそのものだった

1 ° ° ° ° ° ° ° ° °

° ° ° ° ° ° ° ° ° °

°

N

HDFS Hadoop Distributed File System

DATA MANAGEMENT

ストレージ(HDFS)とコンピューティング(MapReduce)が結合し

ていた

MapReduce

クラスタ全体のリソース管理や、多数のアプリケーション起動時の性能的なボトルネックなどいくつ

かの課題があった

Page 14: Hadoop最新事情とHortonworks Data Platform

14 ©HortonworksInc.2011–2016.AllRightsReserved

HadoopはもともとMapReduceそのものだった

1 ° ° ° ° ° ° ° ° °

° ° ° ° ° ° ° ° ° °

°

N

HDFS Hadoop Distributed File System

DATA MANAGEMENT

ストレージ(HDFS)とコンピューティング(MapReduce)が結合し

ていた

MapReduce

クラスタ全体のリソース管理や、多数のアプリケーション起動時の性能的なボトルネックなどいくつ

かの課題があった

SQL Script Machine Learning アプリケーションはいずれもMapReduceを実⾏エンジンとして利⽤していた。MapReduceは

遅かった。

Page 15: Hadoop最新事情とHortonworks Data Platform

15 ©HortonworksInc.2011–2016.AllRightsReserved

Hadoopはバッチ処理に使われていた•  例えばWebサービスのアクセスレポートの作成などによく利⽤され、以下の

様なアーキテクチャが⾮常にメジャーだった。•  クエリにはそれなりに時間がかかることが多く、定期ジョブとして実⾏され

ることが多かった。

Web

Web

Web

Hadoop

log

log

log

Page 16: Hadoop最新事情とHortonworks Data Platform

16 ©HortonworksInc.2011–2016.AllRightsReserved

Hadoopはバッチ処理に使われていた•  例えばWebサービスのアクセスレポートの作成などによく利⽤され、以下の

様なアーキテクチャが⾮常にメジャーだった。•  クエリにはそれなりに時間がかかることが多く、定期ジョブとして実⾏され

ることが多かった。

Web

Web

Web

Hadoop

log

log

log

⼤量のデータに対して⼤きな処理をするために利⽤されるのがHadoopでありMapReduceだった。

Page 17: Hadoop最新事情とHortonworks Data Platform

17 ©HortonworksInc.2011–2016.AllRightsReserved

SQL on ビッグデータを⾼速化する試み

Hive(MapReduce)の速度はインタラクティブなクエリには不⼗分だった。•  Presto•  Impala•  Drill•  Shark(今のSparkSQL)

Page 18: Hadoop最新事情とHortonworks Data Platform

18 ©HortonworksInc.2011–2016.AllRightsReserved

SQL on ビッグデータ - クラウドサービスの登場

•  Amazon Redshift•  Google BigQuery

Page 19: Hadoop最新事情とHortonworks Data Platform

19 ©HortonworksInc.2011–2016.AllRightsReserved

Apache Sparkの登場

•  UCバークレーのAmplabで開発•  RDDと呼ばれる分散データセットを処理のコアとした、インメモリのデータ

処理フレームワーク•  SparkSQL(SQL on ビッグデータ)、SparkStreaming(ストリーム処理)、

Mllib(機械学習)、GraphX(グラフ処理)など、様々なコンポーネントを持っている

•  インメモリで処理を⾏うため、機械学習のように同じデータを何度も何度も参照するような処理において、MapReduceとくらべて劇的に⾼速

Page 20: Hadoop最新事情とHortonworks Data Platform

20 ©HortonworksInc.2011–2016.AllRightsReserved

Apache Sparkの登場

•  UCバークレーのAmplabで開発•  RDDと呼ばれる分散データセットを処理のコアとした、インメモリのデータ

処理フレームワーク•  SparkSQL(SQL on ビッグデータ)、SparkStreaming(ストリーム処理)、

Mllib(機械学習)、GraphX(グラフ処理)など、様々なコンポーネントを持っている

•  インメモリで処理を⾏うため、機械学習のように同じデータを何度も何度も参照するような処理において、MapReduceとくらべて劇的に⾼速

SparkはSQLだけでなく、プログラムによるビッグデータ処理の⾼速化に⼤きく貢献をした

Page 21: Hadoop最新事情とHortonworks Data Platform

21 ©HortonworksInc.2011–2016.AllRightsReserved

リアルタイム処理/ストリーム処理のポピュラー化•  Amazon KinesisやCloud Dataflow、Spark Streamingの登場により、スト

リーム処理の実装が⾮常に容易になった。•  これにより、これまでの⼤規模データに対するSQLのようなワークロード以

外にも、スマートメーターのようなIoT的な⽤途、店舗の売上や在庫管理のための利⽤など、基幹系のシステムにもStormやSpark、Kafkaのようなオープンソース・ソフトウェアの利⽤が広がった。

Page 22: Hadoop最新事情とHortonworks Data Platform

22 ©HortonworksInc.2011–2016.AllRightsReserved

Hadoopや関連ソフトウェアのユースケースの変遷

•  MapReduceアプリケーションを実装してのバッチ処理。⼤きなデータに対する⼤きな計算のために利⽤されていた。

•  Hiveによるレポート・集計系のバッチ処理への導⼊•  (数年)•  Impala, PrestoなどによるSQL⾼速化によって、よりオンライン/インタラク

ティブなクエリに利⽤されるように•  StormやSpark Streamingなどによって逐次処理が容易になり、集計以外の

ユースとして在庫や売上管理の領域に•  IoT的な⽂脈では、⾞の⾛⾏データを収集し、保険の査定や割引算定のための

利⽤なども出てくる。

Page 23: Hadoop最新事情とHortonworks Data Platform

23 ©HortonworksInc.2011–2016.AllRightsReserved

4ZB DATA INTERNET

OF ANYTHING

Page 23 © Hortonworks Inc. 2011 – 2016. All Rights Reserved

増え続けるデータ量

Page 24: Hadoop最新事情とHortonworks Data Platform

24 ©HortonworksInc.2011–2016.AllRightsReserved

4ZB DATA INTERNET

OF ANYTHING

44ZB DATA

Page 24 © Hortonworks Inc. 2011 – 2016. All Rights Reserved

TOMORROW

増え続けるデータ量

Page 25: Hadoop最新事情とHortonworks Data Platform

25 ©HortonworksInc.2011–2016.AllRightsReserved

D A T A I N M O T I O N

STO

RA

GE

STO

RA

GE

GROUP 2 GROUP 1

GROUP 4 GROUP 3

D A T A A T R E S T

INTERNET OF

ANYTHING

高まるリアルタイムに対する要求

Page 26: Hadoop最新事情とHortonworks Data Platform

26 ©HortonworksInc.2011–2016.AllRightsReserved

Hadoop⾃体の進化は・・・?

Page 27: Hadoop最新事情とHortonworks Data Platform

27 ©HortonworksInc.2011–2016.AllRightsReserved

YARN : Data Operating System

1 ° ° ° ° ° ° ° ° °

° ° ° ° ° ° ° ° ° °

°

N

HDFS Hadoop Distributed File System

DATA MANAGEMENT

YARN – Hadoop2の登場

Page 28: Hadoop最新事情とHortonworks Data Platform

28 ©HortonworksInc.2011–2016.AllRightsReserved

Others ISV Engines

YARN : Data Operating System

DATA ACCESS

1 ° ° ° ° ° ° ° ° °

° ° ° ° ° ° ° ° ° °

°

N

Batch MapReduce

Script Pig

Search Solr

SQL Hive

NoSQL HBase Accumulo Phoenix

Stream Storm

In-memory Spark

Tez Tez Tez Slider Slider

HDFS Hadoop Distributed File System

DATA MANAGEMENT

YARN – Hadoop2の登場

Page 29: Hadoop最新事情とHortonworks Data Platform

29 ©HortonworksInc.2011–2016.AllRightsReserved

Others ISV Engines

YARN : Data Operating System

DATA ACCESS

1 ° ° ° ° ° ° ° ° °

° ° ° ° ° ° ° ° ° °

°

N

Batch MapReduce

Script Pig

Search Solr

SQL Hive

NoSQL HBase Accumulo Phoenix

Stream Storm

In-memory Spark

Tez Tez Tez Slider Slider

HDFS Hadoop Distributed File System

DATA MANAGEMENT

YARNの柔軟なAPIによりリソースが抽象化され、様々なアプリケーションが共存できるように

なった。

HDFSはマルチテナントな巨⼤なデータストアとなった。

YARN – Hadoop2の登場

Page 30: Hadoop最新事情とHortonworks Data Platform

30 ©HortonworksInc.2011–2016.AllRightsReserved

Others ISV Engines

YARN : Data Operating System

DATA ACCESS

1 ° ° ° ° ° ° ° ° °

° ° ° ° ° ° ° ° ° °

°

N

Batch MapReduce

Script Pig

Search Solr

SQL Hive

NoSQL HBase Accumulo Phoenix

Stream Storm

In-memory Spark

Tez Tez Tez Slider Slider

HDFS Hadoop Distributed File System

DATA MANAGEMENT

YARNの柔軟なAPIによりリソースが抽象化され、様々なアプリケーションが共存できるように

なった。

HDFSはマルチテナントな巨⼤なデータストアとなった。

YARN これにより、様々な組織や部署のひとが共⽤Hadoopクラスタを使

うようになった。

Division A Division B

Page 31: Hadoop最新事情とHortonworks Data Platform

31 ©HortonworksInc.2011–2016.AllRightsReserved

•  JobTracker •  TaskTracker

•  Tasks

Hadoop 1 Architecture

Page 31

Page 32: Hadoop最新事情とHortonworks Data Platform

32 ©HortonworksInc.2011–2016.AllRightsReserved

YARN Architecture

• Cluster Operating System• Enable’s Generic Data Processing Tasks with ‘Containers’

• Big Compute (Metal Detectors) for Big Data (Hay Stack)

• Resource Manager

• Global resource scheduler• Node Manager

• Per-machine agent• Manages the life-cycle of container & resource monitoring

• Application Master• Per-application master that manages application scheduling and task execution• E.g. MapReduce Application Master

• Container • Basic unit of allocation• Fine-grained resource allocation across multiple resource types • (memory, cpu, disk, network, gpu etc.)

Page 33: Hadoop最新事情とHortonworks Data Platform

33 ©HortonworksInc.2011–2016.AllRightsReserved

Hadoop2(YARN) - Summary

•  JobTackerという⼤きなボトルネックの解消

•  タスクの実⾏環境のコンテナ化と、コンテナ払い出しをパブリックAPI化することによって、MapReduceだけではなく様々なアプリケーションのOS的な役割をすることができるようになった。

Page 34: Hadoop最新事情とHortonworks Data Platform

34 ©HortonworksInc.2011–2016.AllRightsReserved

HDPが実現する完全にオープンなデータプラットフォーム

HortonworksDataPla0orm

HortonworksDataPla0ormはエンタープライズ企業向けHadoopを提供します:セントラライズ・アーキテクチャは、あらゆるデータを、あらゆるアプリケーションでの処理を可能に

完全にオープン

•  HDPは企業データプラットフォームに求められる全ての要素を統合します:データストレージ、データ・アクセス、ガバナンス、セキュリティ、オペレーション

•  全てのコンポーネントはオープンソースとして開発され、過酷なテストを経て、適正が保証された状態で、使いやすい形でオープンソースプラットフォームとして提供されます。

YARN: Data Operating System (ClusterResourceManagement)

1 ° ° ° ° ° ° °

° ° ° ° ° ° ° °

Apa

che

Pig

° °

° °

° ° °

° ° °

HDFS (Hadoop Distributed File System)

GOVERNANCE BATCH, INTERACTIVE & REAL-TIME DATA ACCESS

Apache Falcon

Apa

che

Hiv

e C

asca

ding

A

pach

e H

Bas

e A

pach

e A

ccum

ulo

Apa

che

Sol

r A

pach

e S

park

Apa

che

Sto

rm

Apache Sqoop

Apache Flume

Apache Kafka

SECURITY

Apache Ranger

Apache Knox

Apache Falcon

OPERATIONS

Apache Ambari

Apache Zookeeper

Apache Oozie

DeliveredCompletelyintheOPEN

Page 35: Hadoop最新事情とHortonworks Data Platform

35 ©HortonworksInc.2011–2016.AllRightsReserved

Agenda

Ã  Hortonworks?Ã  Hadoopやビッグデータを取り巻く最近の事情Ã  Hortonworks Data Platform

Page 36: Hadoop最新事情とHortonworks Data Platform

36 ©HortonworksInc.2011–2016.AllRightsReserved

HortonworksDataPla0orm

Ã  Overview–Componentswalkthrough

Ã  ApacheAmbari–ClusterManager

Ã  Samplearchitectures

Ã  Security

Ã  Cloudbreak

Ã  GeungStarted

Page 37: Hadoop最新事情とHortonworks Data Platform

37 ©HortonworksInc.2011–2016.AllRightsReserved

HortonworksDataPla0orm

Ã  Overview–Componentswalkthrough

Ã  ApacheAmbari–ClusterManager

Ã  Samplearchitectures

Ã  Security

Ã  Cloudbreak

Ã  GeungStarted

Page 38: Hadoop最新事情とHortonworks Data Platform

38 ©HortonworksInc.2011–2016.AllRightsReserved

HortonworksDataPla0orm

YARN: Data Operating System (ClusterResourceManagement)

1 ° ° ° ° ° ° °

° ° ° ° ° ° ° °

Apa

che

Pig

° °

° °

° ° °

° ° °

HDFS (Hadoop Distributed File System)

GOVERNANCE BATCH, INTERACTIVE & REAL-TIME DATA ACCESS

Apache Falcon

Apa

che

Hiv

e C

asca

ding

A

pach

e H

Bas

e A

pach

e A

ccum

ulo

Apa

che

Sol

r A

pach

e S

park

Apa

che

Sto

rm

Apache Sqoop

Apache Flume

Apache Kafka

SECURITY

Apache Ranger

Apache Knox

Apache Falcon

OPERATIONS

Apache Ambari

Apache Zookeeper

Apache Oozie

Hortonworks Data Platform

Page 39: Hadoop最新事情とHortonworks Data Platform

39 ©HortonworksInc.2011–2016.AllRightsReserved

HDPのバージョン

Page 40: Hadoop最新事情とHortonworks Data Platform

40 ©HortonworksInc.2011–2016.AllRightsReserved

HortonworksDataPla0orm

Ã  Overview–Componentswalkthrough

Ã  ApacheAmbari–ClusterManager

Ã  Samplearchitectures

Ã  Security

Ã  Cloudbreak

Ã  GeungStarted

Page 41: Hadoop最新事情とHortonworks Data Platform

41 ©HortonworksInc.2011–2016.AllRightsReserved

Apache Ambari – A cluster manager

Page 42: Hadoop最新事情とHortonworks Data Platform

42 ©HortonworksInc.2011–2016.AllRightsReserved

Apache Ambari – A cluster manager

AmbariServer

AmbariAgent

MetricsMonitors

RM NN

AmbariAgent

MetricsMonitors

NM DN

AmbariAgent

MetricsMonitors

NM DN

Ã  Ambari Serverが提供するWebUIやREST APIを経由した統⼀的なHadoopオペレーション

WEBUIRESTAPI

Page 43: Hadoop最新事情とHortonworks Data Platform

43 ©HortonworksInc.2011–2016.AllRightsReserved

HortonworksDataPla0orm

Ã  Overview–Componentswalkthrough

Ã  ApacheAmbari–ClusterManager

Ã  Samplearchitectures

Ã  Security

Ã  Cloudbreak

Ã  GeungStarted

Page 44: Hadoop最新事情とHortonworks Data Platform

44 ©HortonworksInc.2011–2016.AllRightsReserved

もちろんこれまで通りのHiveも

Web

Web

Web

Hadoop

log

log

log

WebHDFSなど

Hiveserver2

Hiveの高速化についてはこちらhGp://www.slideshare.net/uprush/hive-presentandfeaturedbtechshowcaseyifeng

Page 45: Hadoop最新事情とHortonworks Data Platform

45 ©HortonworksInc.2011–2016.AllRightsReserved

KafkaとSpark Streamingでラムダアーキテクチャも

Web

Web

Web

Hadoop

log

log

log

Hiveserver2Kafka Spark

HBase Phoenix

Page 46: Hadoop最新事情とHortonworks Data Platform

46 ©HortonworksInc.2011–2016.AllRightsReserved

DistributedStorage:HDFS

ManyWorkloads:YARN

StreamProcessing(Storm)

InboundMessaging(Kava)

Real-\meServing(HBase)

Alerts&Events(Ac\veMQ)

Real-TimeUserInterface

Oneclusterwithconsistentsecurity,governance&opera?ons

SQL

Interac\veQuery(HiveonTez)

TruckSensors

HDP for テレメトリクス

Page 47: Hadoop最新事情とHortonworks Data Platform

47 ©HortonworksInc.2011–2016.AllRightsReservedPage47

HDFS

InputFeed

Hive

Storm

SearchUI(Banana)

QueryUI

OutputFeed

Solr

HDP Search(Solr Cloud)を使ったビジュアライズ

Page 48: Hadoop最新事情とHortonworks Data Platform

48 ©HortonworksInc.2011–2016.AllRightsReserved

HortonworksDataPla0orm

Ã  Overview–Componentswalkthrough

Ã  ApacheAmbari–ClusterManager

Ã  Samplearchitectures

Ã  Security

Ã  Cloudbreak

Ã  GeungStarted

Page 49: Hadoop最新事情とHortonworks Data Platform

49 ©HortonworksInc.2011–2016.AllRightsReserved

Others ISV Engines

YARN : Data Operating System

DATA ACCESS

1 ° ° ° ° ° ° ° ° °

° ° ° ° ° ° ° ° ° °

°

N

Batch MapReduce

Script Pig

Search Solr

SQL Hive

NoSQL HBase Accumulo Phoenix

Stream Storm

In-memory Spark

Tez Tez Tez Slider Slider

HDFS Hadoop Distributed File System

DATA MANAGEMENT

YARNの柔軟なAPIによりリソースが抽象化され、様々なアプリケーションが共存できるように

なった。

HDFSはマルチテナントな巨⼤なデータストアとなった。

YARN これにより、様々な組織や部署のひとが共⽤Hadoopクラスタを使

うようになった。

Division A Division B

Page 50: Hadoop最新事情とHortonworks Data Platform

50 ©HortonworksInc.2011–2016.AllRightsReserved

InHortonworksDataPla0orm:

Administra?onCentralmanagement&consistentsecurity

Authen?ca?onAuthen\cateusersandsystems

Authoriza?onProvisionaccesstodata

AuditMaintainarecordofdataaccess

DataProtec?onProtectdataatrestandinmo\on

Kerberos, Apache Knox

Apache Ranger, HDFS Permission

Apache Ranger

HDFS Transparent Data Encryptionwith Ranger KMS

Apache Ambari

Page 51: Hadoop最新事情とHortonworks Data Platform

51 ©HortonworksInc.2011–2016.AllRightsReserved

Typical Access Control Flow - SQL

Page51 ©HortonworksInc.2011–2015.AllRightsReserved

Page 52: Hadoop最新事情とHortonworks Data Platform

52 ©HortonworksInc.2011–2016.AllRightsReserved

HDFS

Typical Flow – SQL Access through Beeline client

HiveServer2A B C

BeelineClient

Security set up with Hortonworks Data Platform

Page 53: Hadoop最新事情とHortonworks Data Platform

53 ©HortonworksInc.2011–2016.AllRightsReserved

HDFS

Typical Flow – Authenticate through Kerberos or LDAP

HiveServer2A B C

KDC

LoginintoHive

HivegetsNamenode(NN)service\cket

HivecreatesmapreduceusingNNST

Clientgetsservice\cketforHive

BeelineClient

Security set up with Hortonworks Data Platform

Ac\veDirectory

Hiveserver2はKerberosもしくはLDAP認証を⾏える※カスタムな認証も実装可能

Page 54: Hadoop最新事情とHortonworks Data Platform

54 ©HortonworksInc.2011–2016.AllRightsReserved

HDFS

Typical Flow – Add Authorization through Ranger

HiveServer2A B C

KDC

HivegetsNamenode(NN)service\cket

Columnlevelaccesscontrol,audi\ng

Ranger

BeelineClient

Filelevelaccesscontrol

Ac\veDirectory

Importusers/groupsfromLDAP

LoginintoHiveusingADpassword

Security set up with Hortonworks Data Platform

Page 55: Hadoop最新事情とHortonworks Data Platform

55 ©HortonworksInc.2011–2016.AllRightsReserved

HDFS

Typical Flow – Firewall, Route through Knox Gateway

HiveServer2A B C

KDC

UseHiveST,submitquery

HivegetsNamenode(NN)service\cket

HivecreatesmapreduceusingNNST

Ranger

Knoxgetsservice\cketforHive

KnoxrunsasproxyuserusingHiveST

Originalrequestw/userid/password

Clientgetsqueryresult

BeelineClient

ApacheKnox

Ac\veDirectory

Security set up with Hortonworks Data Platform

Page 56: Hadoop最新事情とHortonworks Data Platform

56 ©HortonworksInc.2011–2016.AllRightsReserved

HDFS

Typical Flow – Add Wire and File Encryption

HiveServer2A B C

KDC

UseHiveST,submitquery

HivegetsNamenode(NN)service\cket

HivecreatesmapreduceusingNNST

Ranger

Knoxgetsservice\cketforHive

KnoxrunsasproxyuserusingHiveST

Originalrequestw/userid/password

Clientgetsqueryresult

SSL

BeelineClient

SSL SASL

SSL SSL

ApacheKnox

Ac\veDirectory

Security set up with Hortonworks Data Platform

Page 57: Hadoop最新事情とHortonworks Data Platform

57 ©HortonworksInc.2011–2016.AllRightsReserved

HortonworksDataPla0orm

Ã  Overview–Componentswalkthrough

Ã  ApacheAmbari–ClusterManager

Ã  Samplearchitectures

Ã  Security

Ã  Cloudbreak

Ã  GeungStarted

Page 58: Hadoop最新事情とHortonworks Data Platform

58 ©HortonworksInc.2011–2016.AllRightsReserved

Cloudbreak

Ã  SequenceIQが開発したオープンソースのクラウド向けHadoopデプロイツール

BI/Analy?cs(Hive)

IoTApps(Storm,HBase,Hive)

Dev/Test(allHDPservices)DataScience

(Spark)

Cloudbreak

1.  PickaBlueprint2.  ChooseaCloud3.  LaunchHDP!

ExampleAmbariBlueprints:IoTApps,BI/Analy\cs,DataScience,

Dev/Test

Page 59: Hadoop最新事情とHortonworks Data Platform

59 ©HortonworksInc.2011–2016.AllRightsReserved Page59

•  クラスタを容易にデプロイするための洗練されたUIやAPI

•  複数のクラスタの管理も可能

•  クラウドのインフラストラクチャ上にDockerを使ってHadoopクラスタをデプロイ

•  クラスタのAutoScaleもサポート

Cloudbreak

Page 60: Hadoop最新事情とHortonworks Data Platform

60 ©HortonworksInc.2011–2016.AllRightsReserved

Cloudbreak

AWS

Page60

AmbariBlueprint

AWSIAMRole

ScalingPolicies

VM VM VM

VM VM VM

VM VM

1.ProvisionVMs&Storage

2.InstallAmbari

Ambari

Mgt

3.InstallAmbariBlueprint

Master

YARNRM

Master

Slave

NN

Slave Slave

Slave Slave

Data Data Data

Storm SparkVM

Slave

Spark4.ScaleupSpark

Cloudbreak

Page 61: Hadoop最新事情とHortonworks Data Platform

61 ©HortonworksInc.2011–2016.AllRightsReserved

HortonworksDataPla0orm

Ã  Overview–Componentswalkthrough

Ã  ApacheAmbari–ClusterManager

Ã  Samplearchitectures

Ã  Security

Ã  Cloudbreak

Ã  GeungStarted

Page 62: Hadoop最新事情とHortonworks Data Platform

62 ©HortonworksInc.2011–2016.AllRightsReserved

Getting started with HDP

HDPクラスタを構築するにはAmbari Serverをインストールして、そこからクラスタ構築ウィザードを⾛らせればOKÃ  Ambari Serverをインストール(yum, apt-get)Ã  Login to http://AMBARI_SERVER:8080Ã  クラスタ構築ウィザードを起動

hGp://goo.gl/gsQyKw

Page 63: Hadoop最新事情とHortonworks Data Platform

63 ©HortonworksInc.2011–2016.AllRightsReserved

Getting started with HDP - Sandbox

Hortonworks Sandboxは構築済みのAmbari、HDPのVMイメージ。VirtualBoxとVMware⽤のイメージが⽤意されている。また、Microsoft Azure上で簡単にトライすることも可能。

hGp://hortonworks.com/products/hortonworks-sandbox/#install

Page 64: Hadoop最新事情とHortonworks Data Platform

64 ©HortonworksInc.2011–2016.AllRightsReserved

Agenda

Ã  Hortonworks?Ã  Hadoopやビッグデータを取り巻く最近の事情Ã  Hortonworks Data Platform

Page 65: Hadoop最新事情とHortonworks Data Platform

65 ©HortonworksInc.2011–2016.AllRightsReserved

次回!

Ã  4/22(⾦) 12:00Ã  タイトル: HiveもしくはSparkについて(仮)

今⽇のウェビナーはオンデマンドでも閲覧可能です!品質改善のため、RATINGSからウェビナーの評価をお願いします!