hadoop最新事情とhortonworks data platform

Hadoop最新事情とHortonworksDataPla0ormJoeOoura&YutaImai2016/4/8

©HortonworksInc.2011–2015.AllRightsReserved

2 ©HortonworksInc.2011–2016.AllRightsReserved

はじめに

Ã  質問はQUESTIONSというボタンからお願いします。プレゼンター以外には見えません。

Ã  TwiGer経由でもコメント、質問歓迎です。 #hwxjp


自己紹介 Ã 大浦譲太郎 TwiGer：@JOOOURAÃ  5歳児と8歳児の父Ã サーバ、ストレージのシステム営業を経て2011年に　フラッシュメモリストレージ企業の日本法人立ち上げに参画。Evangelist、プリセールスSE、広報、営業など一通りをカバーエンタープライズフラッシュの代名詞ともなるioDriveシリーズを日本国内の通信キャリア、金融機関、WEBサービス事業者、アドテク、DC事業者に多数導入。 Ã  2016年1月より、ホートンワークスジャパンの二人目の営業として参画。現在はエヴァンジェリスト活動及びエンタープライズ向けセールス、パートナー支援を行なっている。


Agenda

Ã  Hortonworks?Ã  Hadoopやビッグデータを取り巻く最近の事情Ã  Hortonworks Data Platform


Agenda



About Hortonworks

お客様との歩み •  ~800社(2016年2月現在)•  152社は2015年第三四半期で•  2015年10月NASDAQへ上場:HDP

The Leader in Connected Data Platforms •  HortonworksDataFlowfordatainmo\on•  HortonworksDataPla]ormfordataatrest•  Poweringnewmoderndataapplica\ons

Partner for Customer Success •  Leaderinopen-sourcecommunity,focusedoninnova\ontomeetenterpriseneeds

•  Unrivaledsupportsubscrip\ons

Founded in 2011

Yahoo! で初代の Hadoop 開発を手がけたアーキテクト、デベロッパー、オ

ペレータ　24名によって創立

1000+ E M P L O Y E E S

1500+ E C O S Y S T E M

PA R T N E R S


Our Model: Drive an Enterprise-focused Roadmap

1.   InnovateExis?ngProjects–  Hive/S\nger,YARN,HDFS,commonops&securityviaAmbari&Ranger

2.   IncubateNewProjects–  Metron(wasOpenSOC),Ranger,Knox,Atlas,Falcon,Ambari,Tez,etc.

3.   AcquireIP&Contribute

–  AcquiredXASecureandcreatedApacheRanger;contributedOpenSOC

4.   Partner&DeliverJointSolu?ons–  Microsom,EMC,HP,SAS,Pivotal,RedHat,Teradata,etc.

5.   RallytheEcosystem

–  FastSQLviaS\ngerini\a\ve,DataGovernanceini\a\ve,ODPi

Data

Acce

ss

(batc

h, int

erac

tive,

real

time)

Int

egra

tion &

Go

vern

ance

Op

erati

ons

Secu

rity

ApacheProject HortonworksCommiPers

HortonworksPMC

HWX%ofCommiPers

Hadoop 29 24 31%Accumulo 2 2 9%Calcite 6 3 43%HBase 8 5 17%Hive 19 11 38%NiFi 5 5 42%

Phoenix 5 5 22%Pig 5 5 24%

Slider 12 12 100%Spark 1 0 2%Storm 4 4 19%Tez 15 15 44%Atlas 7 0 35%Falcon 7 5 41%Flume 1 1 4%Ka[a 0 0 0%Sqoop 1 1 4%Ambari 39 30 76%Oozie 4 2 22%

Zookeeper 2 1 13%Knox 12 2 80%Ranger 13 11 76%

TOTAL 197 144

Source:ApacheSomwareFounda\on.AsofOctober5,2015.Acommi'erissomeonewhohas“earnedtheirstripes”withintheApachecommunityandhastheability

tocommitcodedirectlytotheircorrespondingApacheprojectsourcecoderepository

8 ©HortonworksInc.2011–2016.AllRightsReservedPage8 ©HortonworksInc.2011–2015.AllRightsReserved

100%OpenSourceConnectedDataPla0orms

Eliminates Risk ofvendorlock-inbydelivering100%Apacheopensourcetechnology

Maximizes Community Innovation withhundredsofdevelopersacrosshundredsofcompanies

IntegratesSeamlesslythroughcommiGedco-engineeringpartnershipswithotherleadingtechnologies

M A X I M U M C O M M U N I T Y I N N O VAT I O N

T H E I N N O VAT I O N A D VA N TA G E

P R O P R I E T A R Y H A D O O P

T I M E

INN

OV

AT

ION

O P E N C O M M U N I T Y


Agenda



自己紹介 Ã 今井雄太 TwiGer：@imai_factoryÃ  Solu\onsEngineerÃ 広告配信サーバーのレポート作成のためにMapReduce(perl+streaming!)を使ったのがHadoopとの出会い。

Ã その後、AWSにてアドテクやゲームのお客様を担当しつつ、EMRやS3などのビッグデータなプロダクトを主に担当。そんなつながりでHortonworksに入社してHadoopをやっています。


HadoopはもともとMapReduceそのものだった

1 ° ° ° ° ° ° ° ° °

° ° ° ° ° ° ° ° ° °

°

N

HDFS Hadoop Distributed File System

DATA MANAGEMENT

MapReduce



1 ° ° ° ° ° ° ° ° °

° ° ° ° ° ° ° ° ° °

°

N


DATA MANAGEMENT

ストレージ(HDFS)とコンピューティング(MapReduce)が結合し

ていた

MapReduce



1 ° ° ° ° ° ° ° ° °

° ° ° ° ° ° ° ° ° °

°

N


DATA MANAGEMENT


ていた

MapReduce

クラスタ全体のリソース管理や、多数のアプリケーション起動時の性能的なボトルネックなどいくつ

かの課題があった



1 ° ° ° ° ° ° ° ° °

° ° ° ° ° ° ° ° ° °

°

N


DATA MANAGEMENT


ていた

MapReduce

クラスタ全体のリソース管理や、多数のアプリケーション起動時の性能的なボトルネックなどいくつ

かの課題があった

SQL Script Machine Learning アプリケーションはいずれもMapReduceを実⾏エンジンとして利⽤していた。MapReduceは

遅かった。


Hadoopはバッチ処理に使われていた•  例えばWebサービスのアクセスレポートの作成などによく利⽤され、以下の

様なアーキテクチャが⾮常にメジャーだった。•  クエリにはそれなりに時間がかかることが多く、定期ジョブとして実⾏され

ることが多かった。

Web

Web

Web

Hadoop

log

log

log


Hadoopはバッチ処理に使われていた•  例えばWebサービスのアクセスレポートの作成などによく利⽤され、以下の

様なアーキテクチャが⾮常にメジャーだった。•  クエリにはそれなりに時間がかかることが多く、定期ジョブとして実⾏され

ることが多かった。

Web

Web

Web

Hadoop

log

log

log

⼤量のデータに対して⼤きな処理をするために利⽤されるのがHadoopでありMapReduceだった。


SQL on ビッグデータを⾼速化する試み

Hive(MapReduce)の速度はインタラクティブなクエリには不⼗分だった。•  Presto•  Impala•  Drill•  Shark(今のSparkSQL)


SQL on ビッグデータ - クラウドサービスの登場

•  Amazon Redshift•  Google BigQuery


Apache Sparkの登場

•  UCバークレーのAmplabで開発•  RDDと呼ばれる分散データセットを処理のコアとした、インメモリのデータ

処理フレームワーク•  SparkSQL(SQL on ビッグデータ)、SparkStreaming(ストリーム処理)、

Mllib(機械学習)、GraphX(グラフ処理)など、様々なコンポーネントを持っている

•  インメモリで処理を⾏うため、機械学習のように同じデータを何度も何度も参照するような処理において、MapReduceとくらべて劇的に⾼速


Apache Sparkの登場

•  UCバークレーのAmplabで開発•  RDDと呼ばれる分散データセットを処理のコアとした、インメモリのデータ

処理フレームワーク•  SparkSQL(SQL on ビッグデータ)、SparkStreaming(ストリーム処理)、

Mllib(機械学習)、GraphX(グラフ処理)など、様々なコンポーネントを持っている

•  インメモリで処理を⾏うため、機械学習のように同じデータを何度も何度も参照するような処理において、MapReduceとくらべて劇的に⾼速

SparkはSQLだけでなく、プログラムによるビッグデータ処理の⾼速化に⼤きく貢献をした


リアルタイム処理/ストリーム処理のポピュラー化•  Amazon KinesisやCloud Dataflow、Spark Streamingの登場により、スト

リーム処理の実装が⾮常に容易になった。•  これにより、これまでの⼤規模データに対するSQLのようなワークロード以

外にも、スマートメーターのようなIoT的な⽤途、店舗の売上や在庫管理のための利⽤など、基幹系のシステムにもStormやSpark、Kafkaのようなオープンソース・ソフトウェアの利⽤が広がった。


Hadoopや関連ソフトウェアのユースケースの変遷

•  MapReduceアプリケーションを実装してのバッチ処理。⼤きなデータに対する⼤きな計算のために利⽤されていた。

•  Hiveによるレポート・集計系のバッチ処理への導⼊•  (数年)•  Impala, PrestoなどによるSQL⾼速化によって、よりオンライン/インタラク

ティブなクエリに利⽤されるように•  StormやSpark Streamingなどによって逐次処理が容易になり、集計以外の

ユースとして在庫や売上管理の領域に•  IoT的な⽂脈では、⾞の⾛⾏データを収集し、保険の査定や割引算定のための

利⽤なども出てくる。


4ZB DATA INTERNET

OF ANYTHING

© Hortonworks Inc. 2011 – 2016. All Rights Reserved

増え続けるデータ量


4ZB DATA INTERNET

OF ANYTHING

44ZB DATA

© Hortonworks Inc. 2011 – 2016. All Rights Reserved

TOMORROW

増え続けるデータ量


D A T A I N M O T I O N

STO

RA

GE

STO

RA

GE

GROUP 2 GROUP 1

GROUP 4 GROUP 3

D A T A A T R E S T

INTERNET OF

ANYTHING

高まるリアルタイムに対する要求


Hadoop⾃体の進化は・・・？


YARN : Data Operating System

1 ° ° ° ° ° ° ° ° °

° ° ° ° ° ° ° ° ° °

°

N


DATA MANAGEMENT

YARN – Hadoop2の登場


Others ISV Engines


DATA ACCESS

1 ° ° ° ° ° ° ° ° °

° ° ° ° ° ° ° ° ° °

°

N

Batch MapReduce

Script Pig

Search Solr

SQL Hive

NoSQL HBase Accumulo Phoenix

Stream Storm

In-memory Spark

Tez Tez Tez Slider Slider


DATA MANAGEMENT



Others ISV Engines


DATA ACCESS

1 ° ° ° ° ° ° ° ° °

° ° ° ° ° ° ° ° ° °

°

N

Batch MapReduce

Script Pig

Search Solr

SQL Hive


Stream Storm

In-memory Spark



DATA MANAGEMENT

YARNの柔軟なAPIによりリソースが抽象化され、様々なアプリケーションが共存できるように

なった。

HDFSはマルチテナントな巨⼤なデータストアとなった。



Others ISV Engines


DATA ACCESS

1 ° ° ° ° ° ° ° ° °

° ° ° ° ° ° ° ° ° °

°

N

Batch MapReduce

Script Pig

Search Solr

SQL Hive


Stream Storm

In-memory Spark



DATA MANAGEMENT


なった。


YARN これにより、様々な組織や部署のひとが共⽤Hadoopクラスタを使

うようになった。

Division A Division B


•  JobTracker •  TaskTracker

•  Tasks

Hadoop 1 Architecture


YARN Architecture

• Cluster Operating System• Enable’s Generic Data Processing Tasks with ‘Containers’

• Big Compute (Metal Detectors) for Big Data (Hay Stack)

• Resource Manager

• Global resource scheduler• Node Manager

• Per-machine agent• Manages the life-cycle of container & resource monitoring

• Application Master• Per-application master that manages application scheduling and task execution• E.g. MapReduce Application Master

• Container • Basic unit of allocation• Fine-grained resource allocation across multiple resource types • (memory, cpu, disk, network, gpu etc.)


Hadoop2(YARN) - Summary

•  JobTackerという⼤きなボトルネックの解消

•  タスクの実⾏環境のコンテナ化と、コンテナ払い出しをパブリックAPI化することによって、MapReduceだけではなく様々なアプリケーションのOS的な役割をすることができるようになった。


HDPが実現する完全にオープンなデータプラットフォーム

HortonworksDataPla0orm

HortonworksDataPla0ormはエンタープライズ企業向けHadoopを提供します：セントラライズ・アーキテクチャは、あらゆるデータを、あらゆるアプリケーションでの処理を可能に

完全にオープン

•  HDPは企業データプラットフォームに求められる全ての要素を統合します：データストレージ、データ・アクセス、ガバナンス、セキュリティ、オペレーション

•  全てのコンポーネントはオープンソースとして開発され、過酷なテストを経て、適正が保証された状態で、使いやすい形でオープンソースプラットフォームとして提供されます。

YARN: Data Operating System (ClusterResourceManagement)

1 ° ° ° ° ° ° °

° ° ° ° ° ° ° °

Apa

che

Pig

° °

° °

° ° °

° ° °

HDFS (Hadoop Distributed File System)

GOVERNANCE BATCH, INTERACTIVE & REAL-TIME DATA ACCESS

Apache Falcon

Apa

che

Hiv

e C

asca

ding

A

pach

e H

Bas

e A

pach

e A

ccum

ulo

Apa

che

Sol

r A

pach

e S

park

Apa

che

Sto

rm

Apache Sqoop

Apache Flume

Apache Kafka

SECURITY

Apache Ranger

Apache Knox

Apache Falcon

OPERATIONS

Apache Ambari

Apache Zookeeper

Apache Oozie

DeliveredCompletelyintheOPEN


Agenda




Ã  Overview–Componentswalkthrough

Ã  ApacheAmbari–ClusterManager

Ã  Samplearchitectures

Ã  Security

Ã  Cloudbreak

Ã  GeungStarted






Ã  Security

Ã  Cloudbreak

Ã  GeungStarted



YARN: Data Operating System (ClusterResourceManagement)

1 ° ° ° ° ° ° °

° ° ° ° ° ° ° °

Apa

che

Pig

° °

° °

° ° °

° ° °

HDFS (Hadoop Distributed File System)

GOVERNANCE BATCH, INTERACTIVE & REAL-TIME DATA ACCESS

Apache Falcon

Apa

che

Hiv

e C

asca

ding

A

pach

e H

Bas

e A

pach

e A

ccum

ulo

Apa

che

Sol

r A

pach

e S

park

Apa

che

Sto

rm

Apache Sqoop

Apache Flume

Apache Kafka

SECURITY

Apache Ranger

Apache Knox

Apache Falcon

OPERATIONS

Apache Ambari

Apache Zookeeper

Apache Oozie

Hortonworks Data Platform


HDPのバージョン






Ã  Security

Ã  Cloudbreak

Ã  GeungStarted


Apache Ambari – A cluster manager


Apache Ambari – A cluster manager

AmbariServer

AmbariAgent

MetricsMonitors

RM NN

AmbariAgent

MetricsMonitors

NM DN

AmbariAgent

MetricsMonitors

NM DN

Ã  Ambari Serverが提供するWebUIやREST APIを経由した統⼀的なHadoopオペレーション

WEBUIRESTAPI






Ã  Security

Ã  Cloudbreak

Ã  GeungStarted


もちろんこれまで通りのHiveも

Web

Web

Web

Hadoop

log

log

log

WebHDFSなど

Hiveserver2

Hiveの高速化についてはこちらhGp://www.slideshare.net/uprush/hive-presentandfeaturedbtechshowcaseyifeng


KafkaとSpark Streamingでラムダアーキテクチャも

Web

Web

Web

Hadoop

log

log

log

Hiveserver2Kafka Spark

HBase Phoenix


DistributedStorage:HDFS

ManyWorkloads:YARN

StreamProcessing(Storm)

InboundMessaging(Kava)

Real-\meServing(HBase)

Alerts&Events(Ac\veMQ)

Real-TimeUserInterface

Oneclusterwithconsistentsecurity,governance&opera?ons

SQL

Interac\veQuery(HiveonTez)

TruckSensors

HDP for テレメトリクス






Ã  Security

Ã  Cloudbreak

Ã  GeungStarted


Others ISV Engines


DATA ACCESS

1 ° ° ° ° ° ° ° ° °

° ° ° ° ° ° ° ° ° °

°

N

Batch MapReduce

Script Pig

Search Solr

SQL Hive


Stream Storm

In-memory Spark



DATA MANAGEMENT


なった。


YARN これにより、様々な組織や部署のひとが共⽤Hadoopクラスタを使

うようになった。

Division A Division B


InHortonworksDataPla0orm:

Administra?onCentralmanagement&consistentsecurity

Authen?ca?onAuthen\cateusersandsystems

Authoriza?onProvisionaccesstodata

AuditMaintainarecordofdataaccess

DataProtec?onProtectdataatrestandinmo\on

Kerberos, Apache Knox

Apache Ranger, HDFS Permission

Apache Ranger

HDFS Transparent Data Encryptionwith Ranger KMS

Apache Ambari


HDFS

Typical Flow – SQL Access through Beeline client

HiveServer2A B C

BeelineClient

Security set up with Hortonworks Data Platform


HDFS

Typical Flow – Authenticate through Kerberos or LDAP

HiveServer2A B C

KDC

LoginintoHive

HivegetsNamenode(NN)service\cket

HivecreatesmapreduceusingNNST

Clientgetsservice\cketforHive

BeelineClient


Ac\veDirectory

Hiveserver2はKerberosもしくはLDAP認証を⾏える※カスタムな認証も実装可能


HDFS

Typical Flow – Add Authorization through Ranger

HiveServer2A B C

KDC


Columnlevelaccesscontrol,audi\ng

Ranger

BeelineClient

Filelevelaccesscontrol

Ac\veDirectory

Importusers/groupsfromLDAP

LoginintoHiveusingADpassword



HDFS

Typical Flow – Firewall, Route through Knox Gateway

HiveServer2A B C

KDC

UseHiveST,submitquery



Ranger

Knoxgetsservice\cketforHive

KnoxrunsasproxyuserusingHiveST

Originalrequestw/userid/password

Clientgetsqueryresult

BeelineClient

ApacheKnox

Ac\veDirectory



HDFS

Typical Flow – Add Wire and File Encryption

HiveServer2A B C

KDC

UseHiveST,submitquery



Ranger

Knoxgetsservice\cketforHive

KnoxrunsasproxyuserusingHiveST

Originalrequestw/userid/password

Clientgetsqueryresult

SSL

BeelineClient

SSL SASL

SSL SSL

ApacheKnox

Ac\veDirectory







Ã  Security

Ã  Cloudbreak

Ã  GeungStarted


Cloudbreak

Ã  SequenceIQが開発したオープンソースのクラウド向けHadoopデプロイツール

BI/Analy?cs(Hive)

IoTApps(Storm,HBase,Hive)

Dev/Test(allHDPservices)DataScience

(Spark)

Cloudbreak

1.  PickaBlueprint2.  ChooseaCloud3.  LaunchHDP!

ExampleAmbariBlueprints:IoTApps,BI/Analy\cs,DataScience,

Dev/Test


Cloudbreak

AWS

Page60

AmbariBlueprint

AWSIAMRole

ScalingPolicies

VM VM VM

VM VM VM

VM VM

1.ProvisionVMs&Storage

2.InstallAmbari

Ambari

Mgt

3.InstallAmbariBlueprint

Master

YARNRM

Master

Slave

NN

Slave Slave

Slave Slave

Data Data Data

Storm SparkVM

Slave

Spark4.ScaleupSpark

Cloudbreak






Ã  Security

Ã  Cloudbreak

Ã  GeungStarted


Getting started with HDP

HDPクラスタを構築するにはAmbari Serverをインストールして、そこからクラスタ構築ウィザードを⾛らせればOKÃ  Ambari Serverをインストール(yum, apt-get)Ã  Login to http://AMBARI_SERVER:8080Ã  クラスタ構築ウィザードを起動

hGp://goo.gl/gsQyKw


Getting started with HDP - Sandbox

Hortonworks Sandboxは構築済みのAmbari、HDPのVMイメージ。VirtualBoxとVMware⽤のイメージが⽤意されている。また、Microsoft Azure上で簡単にトライすることも可能。

hGp://hortonworks.com/products/hortonworks-sandbox/#install


Agenda



次回！

Ã  4/22(⾦) 12:00Ã  タイトル: HiveもしくはSparkについて(仮)

今⽇のウェビナーはオンデマンドでも閲覧可能です！品質改善のため、RATINGSからウェビナーの評価をお願いします！

hadoop最新事情とhortonworks data platform

Software