hadoop最新事情とhortonworks data platform
TRANSCRIPT
Hadoop最新事情とHortonworksDataPla0ormJoeOoura&YutaImai2016/4/8
©HortonworksInc.2011–2015.AllRightsReserved
2 ©HortonworksInc.2011–2016.AllRightsReserved
はじめに
à 質問はQUESTIONSというボタンからお願いします。プレゼンター以外には見えません。
à TwiGer経由でもコメント、質問歓迎です。 #hwxjp
3 ©HortonworksInc.2011–2016.AllRightsReserved
自己紹介 Ã 大浦 譲太郎 TwiGer:@JOOOURAÃ 5歳児と8歳児の父Ã サーバ、ストレージのシステム営業を経て2011年に フラッシュメモリストレージ企業の日本法人立ち上げに参画。Evangelist、プリセールスSE、広報、営業など一通りをカバーエンタープライズフラッシュの代名詞ともなるioDriveシリーズを日本国内の通信キャリア、金融機関、WEBサービス事業者、アドテク、DC事業者に多数導入。 Ã 2016年1月より、ホートンワークスジャパンの二人目の営業として参画。 現在はエヴァンジェリスト活動及びエンタープライズ向けセールス、パートナー支援を行なっている。
4 ©HortonworksInc.2011–2016.AllRightsReserved
Agenda
à Hortonworks?à Hadoopやビッグデータを取り巻く最近の事情à Hortonworks Data Platform
5 ©HortonworksInc.2011–2016.AllRightsReserved
Agenda
à Hortonworks?à Hadoopやビッグデータを取り巻く最近の事情à Hortonworks Data Platform
6 ©HortonworksInc.2011–2016.AllRightsReserved
About Hortonworks
お客様との歩み • ~800社(2016年2月現在)• 152社は2015年第三四半期で• 2015年10月NASDAQへ上場:HDP
The Leader in Connected Data Platforms • HortonworksDataFlowfordatainmo\on• HortonworksDataPla]ormfordataatrest• Poweringnewmoderndataapplica\ons
Partner for Customer Success • Leaderinopen-sourcecommunity,focusedoninnova\ontomeetenterpriseneeds
• Unrivaledsupportsubscrip\ons
Founded in 2011
Yahoo! で初代の Hadoop 開発を手がけたアーキテクト、デベロッパー、オ
ペレータ 24名によって創立
1000+ E M P L O Y E E S
1500+ E C O S Y S T E M
PA R T N E R S
7 ©HortonworksInc.2011–2016.AllRightsReserved
Our Model: Drive an Enterprise-focused Roadmap
1. InnovateExis?ngProjects– Hive/S\nger,YARN,HDFS,commonops&securityviaAmbari&Ranger
2. IncubateNewProjects– Metron(wasOpenSOC),Ranger,Knox,Atlas,Falcon,Ambari,Tez,etc.
3. AcquireIP&Contribute
– AcquiredXASecureandcreatedApacheRanger;contributedOpenSOC
4. Partner&DeliverJointSolu?ons– Microsom,EMC,HP,SAS,Pivotal,RedHat,Teradata,etc.
5. RallytheEcosystem
– FastSQLviaS\ngerini\a\ve,DataGovernanceini\a\ve,ODPi
Data
Acce
ss
(batc
h, int
erac
tive,
real
time)
Int
egra
tion &
Go
vern
ance
Op
erati
ons
Secu
rity
ApacheProject HortonworksCommiPers
HortonworksPMC
HWX%ofCommiPers
Hadoop 29 24 31%Accumulo 2 2 9%Calcite 6 3 43%HBase 8 5 17%Hive 19 11 38%NiFi 5 5 42%
Phoenix 5 5 22%Pig 5 5 24%
Slider 12 12 100%Spark 1 0 2%Storm 4 4 19%Tez 15 15 44%Atlas 7 0 35%Falcon 7 5 41%Flume 1 1 4%Ka[a 0 0 0%Sqoop 1 1 4%Ambari 39 30 76%Oozie 4 2 22%
Zookeeper 2 1 13%Knox 12 2 80%Ranger 13 11 76%
TOTAL 197 144
Source:ApacheSomwareFounda\on.AsofOctober5,2015.Acommi'erissomeonewhohas“earnedtheirstripes”withintheApachecommunityandhastheability
tocommitcodedirectlytotheircorrespondingApacheprojectsourcecoderepository
8 ©HortonworksInc.2011–2016.AllRightsReservedPage8 ©HortonworksInc.2011–2015.AllRightsReserved
100%OpenSourceConnectedDataPla0orms
Eliminates Risk ofvendorlock-inbydelivering100%Apacheopensourcetechnology
Maximizes Community Innovation withhundredsofdevelopersacrosshundredsofcompanies
IntegratesSeamlesslythroughcommiGedco-engineeringpartnershipswithotherleadingtechnologies
M A X I M U M C O M M U N I T Y I N N O VAT I O N
T H E I N N O VAT I O N A D VA N TA G E
P R O P R I E T A R Y H A D O O P
T I M E
INN
OV
AT
ION
O P E N C O M M U N I T Y
9 ©HortonworksInc.2011–2016.AllRightsReserved
Agenda
à Hortonworks?à Hadoopやビッグデータを取り巻く最近の事情à Hortonworks Data Platform
10 ©HortonworksInc.2011–2016.AllRightsReserved
自己紹介 à 今井 雄太 TwiGer:@imai_factoryà Solu\onsEngineerà 広告配信サーバーのレポート作成のためにMapReduce(perl+streaming!)を使ったのがHadoopとの出会い。
à その後、AWSにてアドテクやゲームのお客様を担当しつつ、EMRやS3などのビッグデータなプロダクトを主に担当。そんなつながりでHortonworksに入社してHadoopをやっています。
11 ©HortonworksInc.2011–2016.AllRightsReserved
HadoopはもともとMapReduceそのものだった
1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
N
HDFS Hadoop Distributed File System
DATA MANAGEMENT
MapReduce
12 ©HortonworksInc.2011–2016.AllRightsReserved
HadoopはもともとMapReduceそのものだった
1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
N
HDFS Hadoop Distributed File System
DATA MANAGEMENT
ストレージ(HDFS)とコンピューティング(MapReduce)が結合し
ていた
MapReduce
13 ©HortonworksInc.2011–2016.AllRightsReserved
HadoopはもともとMapReduceそのものだった
1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
N
HDFS Hadoop Distributed File System
DATA MANAGEMENT
ストレージ(HDFS)とコンピューティング(MapReduce)が結合し
ていた
MapReduce
クラスタ全体のリソース管理や、多数のアプリケーション起動時の性能的なボトルネックなどいくつ
かの課題があった
14 ©HortonworksInc.2011–2016.AllRightsReserved
HadoopはもともとMapReduceそのものだった
1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
N
HDFS Hadoop Distributed File System
DATA MANAGEMENT
ストレージ(HDFS)とコンピューティング(MapReduce)が結合し
ていた
MapReduce
クラスタ全体のリソース管理や、多数のアプリケーション起動時の性能的なボトルネックなどいくつ
かの課題があった
SQL Script Machine Learning アプリケーションはいずれもMapReduceを実⾏エンジンとして利⽤していた。MapReduceは
遅かった。
15 ©HortonworksInc.2011–2016.AllRightsReserved
Hadoopはバッチ処理に使われていた• 例えばWebサービスのアクセスレポートの作成などによく利⽤され、以下の
様なアーキテクチャが⾮常にメジャーだった。• クエリにはそれなりに時間がかかることが多く、定期ジョブとして実⾏され
ることが多かった。
Web
Web
Web
Hadoop
log
log
log
16 ©HortonworksInc.2011–2016.AllRightsReserved
Hadoopはバッチ処理に使われていた• 例えばWebサービスのアクセスレポートの作成などによく利⽤され、以下の
様なアーキテクチャが⾮常にメジャーだった。• クエリにはそれなりに時間がかかることが多く、定期ジョブとして実⾏され
ることが多かった。
Web
Web
Web
Hadoop
log
log
log
⼤量のデータに対して⼤きな処理をするために利⽤されるのがHadoopでありMapReduceだった。
17 ©HortonworksInc.2011–2016.AllRightsReserved
SQL on ビッグデータを⾼速化する試み
Hive(MapReduce)の速度はインタラクティブなクエリには不⼗分だった。• Presto• Impala• Drill• Shark(今のSparkSQL)
18 ©HortonworksInc.2011–2016.AllRightsReserved
SQL on ビッグデータ - クラウドサービスの登場
• Amazon Redshift• Google BigQuery
19 ©HortonworksInc.2011–2016.AllRightsReserved
Apache Sparkの登場
• UCバークレーのAmplabで開発• RDDと呼ばれる分散データセットを処理のコアとした、インメモリのデータ
処理フレームワーク• SparkSQL(SQL on ビッグデータ)、SparkStreaming(ストリーム処理)、
Mllib(機械学習)、GraphX(グラフ処理)など、様々なコンポーネントを持っている
• インメモリで処理を⾏うため、機械学習のように同じデータを何度も何度も参照するような処理において、MapReduceとくらべて劇的に⾼速
20 ©HortonworksInc.2011–2016.AllRightsReserved
Apache Sparkの登場
• UCバークレーのAmplabで開発• RDDと呼ばれる分散データセットを処理のコアとした、インメモリのデータ
処理フレームワーク• SparkSQL(SQL on ビッグデータ)、SparkStreaming(ストリーム処理)、
Mllib(機械学習)、GraphX(グラフ処理)など、様々なコンポーネントを持っている
• インメモリで処理を⾏うため、機械学習のように同じデータを何度も何度も参照するような処理において、MapReduceとくらべて劇的に⾼速
SparkはSQLだけでなく、プログラムによるビッグデータ処理の⾼速化に⼤きく貢献をした
21 ©HortonworksInc.2011–2016.AllRightsReserved
リアルタイム処理/ストリーム処理のポピュラー化• Amazon KinesisやCloud Dataflow、Spark Streamingの登場により、スト
リーム処理の実装が⾮常に容易になった。• これにより、これまでの⼤規模データに対するSQLのようなワークロード以
外にも、スマートメーターのようなIoT的な⽤途、店舗の売上や在庫管理のための利⽤など、基幹系のシステムにもStormやSpark、Kafkaのようなオープンソース・ソフトウェアの利⽤が広がった。
22 ©HortonworksInc.2011–2016.AllRightsReserved
Hadoopや関連ソフトウェアのユースケースの変遷
• MapReduceアプリケーションを実装してのバッチ処理。⼤きなデータに対する⼤きな計算のために利⽤されていた。
• Hiveによるレポート・集計系のバッチ処理への導⼊• (数年)• Impala, PrestoなどによるSQL⾼速化によって、よりオンライン/インタラク
ティブなクエリに利⽤されるように• StormやSpark Streamingなどによって逐次処理が容易になり、集計以外の
ユースとして在庫や売上管理の領域に• IoT的な⽂脈では、⾞の⾛⾏データを収集し、保険の査定や割引算定のための
利⽤なども出てくる。
23 ©HortonworksInc.2011–2016.AllRightsReserved
4ZB DATA INTERNET
OF ANYTHING
Page 23 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
増え続けるデータ量
24 ©HortonworksInc.2011–2016.AllRightsReserved
4ZB DATA INTERNET
OF ANYTHING
44ZB DATA
Page 24 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
TOMORROW
増え続けるデータ量
25 ©HortonworksInc.2011–2016.AllRightsReserved
D A T A I N M O T I O N
STO
RA
GE
STO
RA
GE
GROUP 2 GROUP 1
GROUP 4 GROUP 3
D A T A A T R E S T
INTERNET OF
ANYTHING
高まるリアルタイムに対する要求
26 ©HortonworksInc.2011–2016.AllRightsReserved
Hadoop⾃体の進化は・・・?
27 ©HortonworksInc.2011–2016.AllRightsReserved
YARN : Data Operating System
1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
N
HDFS Hadoop Distributed File System
DATA MANAGEMENT
YARN – Hadoop2の登場
28 ©HortonworksInc.2011–2016.AllRightsReserved
Others ISV Engines
YARN : Data Operating System
DATA ACCESS
1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
N
Batch MapReduce
Script Pig
Search Solr
SQL Hive
NoSQL HBase Accumulo Phoenix
Stream Storm
In-memory Spark
Tez Tez Tez Slider Slider
HDFS Hadoop Distributed File System
DATA MANAGEMENT
YARN – Hadoop2の登場
29 ©HortonworksInc.2011–2016.AllRightsReserved
Others ISV Engines
YARN : Data Operating System
DATA ACCESS
1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
N
Batch MapReduce
Script Pig
Search Solr
SQL Hive
NoSQL HBase Accumulo Phoenix
Stream Storm
In-memory Spark
Tez Tez Tez Slider Slider
HDFS Hadoop Distributed File System
DATA MANAGEMENT
YARNの柔軟なAPIによりリソースが抽象化され、様々なアプリケーションが共存できるように
なった。
HDFSはマルチテナントな巨⼤なデータストアとなった。
YARN – Hadoop2の登場
30 ©HortonworksInc.2011–2016.AllRightsReserved
Others ISV Engines
YARN : Data Operating System
DATA ACCESS
1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
N
Batch MapReduce
Script Pig
Search Solr
SQL Hive
NoSQL HBase Accumulo Phoenix
Stream Storm
In-memory Spark
Tez Tez Tez Slider Slider
HDFS Hadoop Distributed File System
DATA MANAGEMENT
YARNの柔軟なAPIによりリソースが抽象化され、様々なアプリケーションが共存できるように
なった。
HDFSはマルチテナントな巨⼤なデータストアとなった。
YARN これにより、様々な組織や部署のひとが共⽤Hadoopクラスタを使
うようになった。
Division A Division B
31 ©HortonworksInc.2011–2016.AllRightsReserved
• JobTracker • TaskTracker
• Tasks
Hadoop 1 Architecture
Page 31
32 ©HortonworksInc.2011–2016.AllRightsReserved
YARN Architecture
• Cluster Operating System• Enable’s Generic Data Processing Tasks with ‘Containers’
• Big Compute (Metal Detectors) for Big Data (Hay Stack)
• Resource Manager
• Global resource scheduler• Node Manager
• Per-machine agent• Manages the life-cycle of container & resource monitoring
• Application Master• Per-application master that manages application scheduling and task execution• E.g. MapReduce Application Master
• Container • Basic unit of allocation• Fine-grained resource allocation across multiple resource types • (memory, cpu, disk, network, gpu etc.)
33 ©HortonworksInc.2011–2016.AllRightsReserved
Hadoop2(YARN) - Summary
• JobTackerという⼤きなボトルネックの解消
• タスクの実⾏環境のコンテナ化と、コンテナ払い出しをパブリックAPI化することによって、MapReduceだけではなく様々なアプリケーションのOS的な役割をすることができるようになった。
34 ©HortonworksInc.2011–2016.AllRightsReserved
HDPが実現する完全にオープンなデータプラットフォーム
HortonworksDataPla0orm
HortonworksDataPla0ormはエンタープライズ企業向けHadoopを提供します:セントラライズ・アーキテクチャは、あらゆるデータを、あらゆるアプリケーションでの処理を可能に
完全にオープン
• HDPは企業データプラットフォームに求められる全ての要素を統合します:データストレージ、データ・アクセス、ガバナンス、セキュリティ、オペレーション
• 全てのコンポーネントはオープンソースとして開発され、過酷なテストを経て、適正が保証された状態で、使いやすい形でオープンソースプラットフォームとして提供されます。
YARN: Data Operating System (ClusterResourceManagement)
1 ° ° ° ° ° ° °
° ° ° ° ° ° ° °
Apa
che
Pig
° °
° °
° ° °
° ° °
HDFS (Hadoop Distributed File System)
GOVERNANCE BATCH, INTERACTIVE & REAL-TIME DATA ACCESS
Apache Falcon
Apa
che
Hiv
e C
asca
ding
A
pach
e H
Bas
e A
pach
e A
ccum
ulo
Apa
che
Sol
r A
pach
e S
park
Apa
che
Sto
rm
Apache Sqoop
Apache Flume
Apache Kafka
SECURITY
Apache Ranger
Apache Knox
Apache Falcon
OPERATIONS
Apache Ambari
Apache Zookeeper
Apache Oozie
DeliveredCompletelyintheOPEN
35 ©HortonworksInc.2011–2016.AllRightsReserved
Agenda
à Hortonworks?à Hadoopやビッグデータを取り巻く最近の事情à Hortonworks Data Platform
36 ©HortonworksInc.2011–2016.AllRightsReserved
HortonworksDataPla0orm
à Overview–Componentswalkthrough
à ApacheAmbari–ClusterManager
à Samplearchitectures
à Security
à Cloudbreak
à GeungStarted
37 ©HortonworksInc.2011–2016.AllRightsReserved
HortonworksDataPla0orm
à Overview–Componentswalkthrough
à ApacheAmbari–ClusterManager
à Samplearchitectures
à Security
à Cloudbreak
à GeungStarted
38 ©HortonworksInc.2011–2016.AllRightsReserved
HortonworksDataPla0orm
YARN: Data Operating System (ClusterResourceManagement)
1 ° ° ° ° ° ° °
° ° ° ° ° ° ° °
Apa
che
Pig
° °
° °
° ° °
° ° °
HDFS (Hadoop Distributed File System)
GOVERNANCE BATCH, INTERACTIVE & REAL-TIME DATA ACCESS
Apache Falcon
Apa
che
Hiv
e C
asca
ding
A
pach
e H
Bas
e A
pach
e A
ccum
ulo
Apa
che
Sol
r A
pach
e S
park
Apa
che
Sto
rm
Apache Sqoop
Apache Flume
Apache Kafka
SECURITY
Apache Ranger
Apache Knox
Apache Falcon
OPERATIONS
Apache Ambari
Apache Zookeeper
Apache Oozie
Hortonworks Data Platform
39 ©HortonworksInc.2011–2016.AllRightsReserved
HDPのバージョン
40 ©HortonworksInc.2011–2016.AllRightsReserved
HortonworksDataPla0orm
à Overview–Componentswalkthrough
à ApacheAmbari–ClusterManager
à Samplearchitectures
à Security
à Cloudbreak
à GeungStarted
41 ©HortonworksInc.2011–2016.AllRightsReserved
Apache Ambari – A cluster manager
42 ©HortonworksInc.2011–2016.AllRightsReserved
Apache Ambari – A cluster manager
AmbariServer
AmbariAgent
MetricsMonitors
RM NN
AmbariAgent
MetricsMonitors
NM DN
AmbariAgent
MetricsMonitors
NM DN
à Ambari Serverが提供するWebUIやREST APIを経由した統⼀的なHadoopオペレーション
WEBUIRESTAPI
43 ©HortonworksInc.2011–2016.AllRightsReserved
HortonworksDataPla0orm
à Overview–Componentswalkthrough
à ApacheAmbari–ClusterManager
à Samplearchitectures
à Security
à Cloudbreak
à GeungStarted
44 ©HortonworksInc.2011–2016.AllRightsReserved
もちろんこれまで通りのHiveも
Web
Web
Web
Hadoop
log
log
log
WebHDFSなど
Hiveserver2
Hiveの高速化についてはこちらhGp://www.slideshare.net/uprush/hive-presentandfeaturedbtechshowcaseyifeng
45 ©HortonworksInc.2011–2016.AllRightsReserved
KafkaとSpark Streamingでラムダアーキテクチャも
Web
Web
Web
Hadoop
log
log
log
Hiveserver2Kafka Spark
HBase Phoenix
46 ©HortonworksInc.2011–2016.AllRightsReserved
DistributedStorage:HDFS
ManyWorkloads:YARN
StreamProcessing(Storm)
InboundMessaging(Kava)
Real-\meServing(HBase)
Alerts&Events(Ac\veMQ)
Real-TimeUserInterface
Oneclusterwithconsistentsecurity,governance&opera?ons
SQL
Interac\veQuery(HiveonTez)
TruckSensors
HDP for テレメトリクス
47 ©HortonworksInc.2011–2016.AllRightsReservedPage47
HDFS
InputFeed
Hive
Storm
SearchUI(Banana)
QueryUI
OutputFeed
Solr
HDP Search(Solr Cloud)を使ったビジュアライズ
48 ©HortonworksInc.2011–2016.AllRightsReserved
HortonworksDataPla0orm
à Overview–Componentswalkthrough
à ApacheAmbari–ClusterManager
à Samplearchitectures
à Security
à Cloudbreak
à GeungStarted
49 ©HortonworksInc.2011–2016.AllRightsReserved
Others ISV Engines
YARN : Data Operating System
DATA ACCESS
1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
N
Batch MapReduce
Script Pig
Search Solr
SQL Hive
NoSQL HBase Accumulo Phoenix
Stream Storm
In-memory Spark
Tez Tez Tez Slider Slider
HDFS Hadoop Distributed File System
DATA MANAGEMENT
YARNの柔軟なAPIによりリソースが抽象化され、様々なアプリケーションが共存できるように
なった。
HDFSはマルチテナントな巨⼤なデータストアとなった。
YARN これにより、様々な組織や部署のひとが共⽤Hadoopクラスタを使
うようになった。
Division A Division B
50 ©HortonworksInc.2011–2016.AllRightsReserved
InHortonworksDataPla0orm:
Administra?onCentralmanagement&consistentsecurity
Authen?ca?onAuthen\cateusersandsystems
Authoriza?onProvisionaccesstodata
AuditMaintainarecordofdataaccess
DataProtec?onProtectdataatrestandinmo\on
Kerberos, Apache Knox
Apache Ranger, HDFS Permission
Apache Ranger
HDFS Transparent Data Encryptionwith Ranger KMS
Apache Ambari
51 ©HortonworksInc.2011–2016.AllRightsReserved
Typical Access Control Flow - SQL
Page51 ©HortonworksInc.2011–2015.AllRightsReserved
52 ©HortonworksInc.2011–2016.AllRightsReserved
HDFS
Typical Flow – SQL Access through Beeline client
HiveServer2A B C
BeelineClient
Security set up with Hortonworks Data Platform
53 ©HortonworksInc.2011–2016.AllRightsReserved
HDFS
Typical Flow – Authenticate through Kerberos or LDAP
HiveServer2A B C
KDC
LoginintoHive
HivegetsNamenode(NN)service\cket
HivecreatesmapreduceusingNNST
Clientgetsservice\cketforHive
BeelineClient
Security set up with Hortonworks Data Platform
Ac\veDirectory
Hiveserver2はKerberosもしくはLDAP認証を⾏える※カスタムな認証も実装可能
54 ©HortonworksInc.2011–2016.AllRightsReserved
HDFS
Typical Flow – Add Authorization through Ranger
HiveServer2A B C
KDC
HivegetsNamenode(NN)service\cket
Columnlevelaccesscontrol,audi\ng
Ranger
BeelineClient
Filelevelaccesscontrol
Ac\veDirectory
Importusers/groupsfromLDAP
LoginintoHiveusingADpassword
Security set up with Hortonworks Data Platform
55 ©HortonworksInc.2011–2016.AllRightsReserved
HDFS
Typical Flow – Firewall, Route through Knox Gateway
HiveServer2A B C
KDC
UseHiveST,submitquery
HivegetsNamenode(NN)service\cket
HivecreatesmapreduceusingNNST
Ranger
Knoxgetsservice\cketforHive
KnoxrunsasproxyuserusingHiveST
Originalrequestw/userid/password
Clientgetsqueryresult
BeelineClient
ApacheKnox
Ac\veDirectory
Security set up with Hortonworks Data Platform
56 ©HortonworksInc.2011–2016.AllRightsReserved
HDFS
Typical Flow – Add Wire and File Encryption
HiveServer2A B C
KDC
UseHiveST,submitquery
HivegetsNamenode(NN)service\cket
HivecreatesmapreduceusingNNST
Ranger
Knoxgetsservice\cketforHive
KnoxrunsasproxyuserusingHiveST
Originalrequestw/userid/password
Clientgetsqueryresult
SSL
BeelineClient
SSL SASL
SSL SSL
ApacheKnox
Ac\veDirectory
Security set up with Hortonworks Data Platform
57 ©HortonworksInc.2011–2016.AllRightsReserved
HortonworksDataPla0orm
à Overview–Componentswalkthrough
à ApacheAmbari–ClusterManager
à Samplearchitectures
à Security
à Cloudbreak
à GeungStarted
58 ©HortonworksInc.2011–2016.AllRightsReserved
Cloudbreak
à SequenceIQが開発したオープンソースのクラウド向けHadoopデプロイツール
BI/Analy?cs(Hive)
IoTApps(Storm,HBase,Hive)
Dev/Test(allHDPservices)DataScience
(Spark)
Cloudbreak
1. PickaBlueprint2. ChooseaCloud3. LaunchHDP!
ExampleAmbariBlueprints:IoTApps,BI/Analy\cs,DataScience,
Dev/Test
59 ©HortonworksInc.2011–2016.AllRightsReserved Page59
• クラスタを容易にデプロイするための洗練されたUIやAPI
• 複数のクラスタの管理も可能
• クラウドのインフラストラクチャ上にDockerを使ってHadoopクラスタをデプロイ
• クラスタのAutoScaleもサポート
Cloudbreak
60 ©HortonworksInc.2011–2016.AllRightsReserved
Cloudbreak
AWS
Page60
AmbariBlueprint
AWSIAMRole
ScalingPolicies
VM VM VM
VM VM VM
VM VM
1.ProvisionVMs&Storage
2.InstallAmbari
Ambari
Mgt
3.InstallAmbariBlueprint
Master
YARNRM
Master
Slave
NN
Slave Slave
Slave Slave
Data Data Data
Storm SparkVM
Slave
Spark4.ScaleupSpark
Cloudbreak
61 ©HortonworksInc.2011–2016.AllRightsReserved
HortonworksDataPla0orm
à Overview–Componentswalkthrough
à ApacheAmbari–ClusterManager
à Samplearchitectures
à Security
à Cloudbreak
à GeungStarted
62 ©HortonworksInc.2011–2016.AllRightsReserved
Getting started with HDP
HDPクラスタを構築するにはAmbari Serverをインストールして、そこからクラスタ構築ウィザードを⾛らせればOKÃ Ambari Serverをインストール(yum, apt-get)Ã Login to http://AMBARI_SERVER:8080Ã クラスタ構築ウィザードを起動
hGp://goo.gl/gsQyKw
63 ©HortonworksInc.2011–2016.AllRightsReserved
Getting started with HDP - Sandbox
Hortonworks Sandboxは構築済みのAmbari、HDPのVMイメージ。VirtualBoxとVMware⽤のイメージが⽤意されている。また、Microsoft Azure上で簡単にトライすることも可能。
hGp://hortonworks.com/products/hortonworks-sandbox/#install
64 ©HortonworksInc.2011–2016.AllRightsReserved
Agenda
à Hortonworks?à Hadoopやビッグデータを取り巻く最近の事情à Hortonworks Data Platform
65 ©HortonworksInc.2011–2016.AllRightsReserved
次回!
à 4/22(⾦) 12:00à タイトル: HiveもしくはSparkについて(仮)
今⽇のウェビナーはオンデマンドでも閲覧可能です!品質改善のため、RATINGSからウェビナーの評価をお願いします!