[td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

41
Hadoop을 어디서나 사용하기 최종욱 [email protected] 2015년 10월

Upload: sang-don-kim

Post on 15-Apr-2017

502 views

Category:

Software


4 download

TRANSCRIPT

Page 1: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

Hadoop을 어디서나 사용하기

최종욱[email protected]년 10월

Page 2: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

오늘 훑어 볼 내용들

• 관리자: Microsoft + Hortonworks의 Hadoop 솔루션 소개

• 개발자: HDInsight + Visual Studio로 빅데이터 앱 만들기

• (전문가: 최신 하드웨어로 4배가속, 빅데이터를 위한 SIMD)

Page 3: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

Hortonworks: 기업용 Hadoop유일한 100

오픈소스Apache Hadoop 데이터 플랫폼

% 2011년 설립

HADOOP1ST상장된 첫번째 배포판

2014년 가을 상장 (NASDAQ: HDP)

기술지원구독 고객556 명의 임직원

740+

개국기술 협력사1350+ 17

TM

2011년 부터Microsoft 협력사 HDInsight 8TH

Azure에서 매월 수백개의고객사에서 수백만 시간을점유하여 8번째로 사용량이 많은솔루션

2015올해의클라우드협력사

Page 4: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

현대 기업을 위한 빅데이터 기회

클릭스트림

ERP, CRM, SCM

웹 및소셜

위치

사물인터넷

서버 로그

파일, 이메일

새 데이터위기• 데이터가 앱에 따라 제한됨• 새 데이터를 관리할 수 없음• 확장 비용이 비쌈

1

2.8 Zettabytesin 2012

44 Zettabytesin 2020

N E W

1 Zettabyte (ZB) = 1 million Petabytes (PB); Sources: IDC, IDG Enterprise, and AMR Research

모든 산업군을 충실한 데이터와분석을 통해 변화

기회

T R A D I T I O N A L

LAGGARDS

LEADERS2

사업적인 가치

ERP CRM SCM

Page 5: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

HDP 는 오픈 엔터프라이즈Hadoop을 제공

Hortonworks Data Platform는 어떤 응용과 어떤데이터에도적합한 핵심 기업서비스를위한 중앙형 아키텍처로이뤄진,기업용 Hadoop을 제공합니다.

완전한 오픈소스• HDP는 기업용 데이터 플랫폼에필요한 모든 구성 요소를 포함합니다: 데이터 저장, 데이터접근, 거버넌스, 보안, 운영

• 모든 구성요소는 오픈소스로개발되어 기업과 생태계에서쉽게쓰일 수 있도록 통합된 오픈소스플랫폼으로서 엄격히시험하고,검증하여 전달합니다.

Hortonworks Data Platform 2.3

YARN: Data Operating System(Cluster Resource Management)

1 ° ° ° ° ° ° °

° ° ° ° ° ° ° °

Apac

he P

ig

° °

° °

° ° °

° ° °

HDFS (Hadoop Distributed File System)

GOVERNANCE BATCH, INTERACTIVE & REAL-TIME DATA ACCESS

Apache Falcon

Apac

he H

ive

Casc

adin

g

Apac

he H

Base

Apac

he A

ccum

ulo

Apac

he S

olr

Apac

he S

park

Apac

he S

torm

Apache Sqoop

Apache Flume

Apache Kafka

SECURITY

Apache Ranger

Apache Knox

Apache Falcon

OPERATIONS

Apache Ambari

ApacheZookeeper

Apache Oozie

Apache Atlas

Page 6: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

Seamless Interoperability with Microsoft ToolsMicrosoft 도구들과자연스럽게호환

• 모니터링을위한 통합된화면– System Center는완전한 모니터링 도구를제공

• 단순화된빅데이터 분석을위한 통합– SQL Server와 SQL Azure를 위한 양방향커넥터

– Excel과 PowerBI 통합– PolyBase을통한직접 접근

• Windows Server용네이티브Hadoop 배포판

AN

ALY

TIC

SSO

UR

CES

DA

TA S

YSTE

MS

ON

-PR

EMIS

ES

DA

TA S

YSTE

MS

CLO

UD

OPERATIONAL TOOLS

DEV & DATA TOOLS

INFRASTRUCTURE

2012Analytics Platform System

OLTP, ERP,CRM Systems

Documents& Emails

Web Logs,Click Streams

SocialNetworks

MachineGenerated

SensorData

Geo-locationData

Page 7: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

클라우드와 온프레미스에 걸친 Hadoop

온프레미스 클라우드

Page 8: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

Azure 갤러리상의 Hortonworks Data Platform빠른 평가를 위한 평가용 설정

• 5 노드 클러스터• 비용효율적인A3 Azure 가상 머신

개념검증 (PoC) 에 맞춘 표준설정• 6-45 노드를유연하게선택• 사용시나리오에따라 A7, A8, A9 Azure 가상 머신중에선택

Azure 갤러리상의 Hortonworks Sandbox• 단일노드학습환경을위해 Hortonworks Sandbox 사용

인프라스트럭처서비스로서 Azure 상의 Hortonworks

Page 9: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

3

하이브리드아키텍처로전환단순한개발/테스트환경이상

2

1

BI/ML

IoT APPS

DEV / PILOT

PRODUCTIONLEARN

개발, 테스트, 파일럿용도

사물인터넷응용(실시간 및 인터랙티브)

업무 분석 및기계학습

Page 10: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

Azure 저장소

HDInsight

DataFactory

ML

StreamAnalytics

Database

DocumentDB

Search

EventHubs

Page 11: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

Microsoft의클라우드 Hadoop-as-a-Service 제품100% 오픈소스 Apache Hadoop – HDPHadoop 생태계의 최신 버전들 위에개발됨 (2.7 검수중)배포할 하드웨어가 없는상태에서 생성과 운영까지 수분 소요기존 .NET과 Java 기술을 이용Microsoft Excel 등 친숙한 BI 도구를 활용

Page 12: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

클라우드를 확장

하이브리드배포선택Windows, Linux, 온프레미스및클라우드데이터 “중력”이배포를이끔

복제된데이터세트데이터세트공유를자동화하여Hadoop 데이터엑세스를대중화

호환되는클러스터들응용프로그램과데이터처리워크로드를언제어디서나필요할때수행

단순한개발/테스트이상다른 Hadoop 배포판들은개발/테스트목적만으로홍보

Dev / TestMicrosoft Azure

IoT AppsMicrosoft Azure

BI / ML Microsoft Azure

On-PremisesLEARN

Page 13: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

하이브리드 클러스터 배포를 단순화

데이터이동자동화

멀티터넌트클러스터를위한 정책 기반의자동 크기 조정

클라우드상에 클러스터배포를 자동화및 템플릿화

On-premises Hadoop

Azure

Page 14: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

클라우드 상의 Hadoop을 고려하는 기업에게Azure 상의 HDP는 식은죽 먹기

Azure에 셀프 프로비저닝다른 배포판들은오로지스크립트 기반의배포만을지원

완전한 HDP 배포판 지원다른 배포판들은Hbase, SolR, Spark 등을지원하지 않음

Azure Blob 저장소 지원다른 배포판들은미지원 (저장 능력을심각하게제한)

Page 15: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

Microsoft Azure Data Lake, Powered By Hortonworks

Works with

• Hortonworks

• Cloudera

• MapR

Page 16: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

HDInsight + Visual StudioThe Best Big Data IDE

Page 17: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

Azure Portal

Page 18: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

Azure HDInsight

Page 19: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

Azure HDInsight SDK

Page 20: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

Azure HDInsight Project

Page 21: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

Apache HiveSQL on Hadoop, innovated

Page 22: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

Apache Hive – SQL on HadoopThe original “SQL on Hadoop”Undergoing extensive renovation• Tez execution engine• YARN execution environtment• Vectorized data representation• Column-oriented data storage (ORC)• ACID transactions• SQL standards compliance• SQL authorization model• Cost-base query optimization

Page 23: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

Recent Hive Innovations

Page 24: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

Hive on MapReduce오래된 실행 엔진

여러 개의 작업

여전히 지원

Page 25: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

Hive on Tez

set hive.execution.engine=tez;

Windows, Linux에서 사용 가능

하나의통합된 작업

시각적프로파일링가능

Page 26: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

User Defined Functions in C#

• input = Console.ReadLine()• Console.WriteLine(output)

• ‘\n’으로행 구분, ‘\t’으로열 구분

• Microsoft 개발자들에게친숙한API

• 기존 Windows 라이브러리활용 가능(인코딩변환, 음성 인식, 글자 인식,얼굴 인식 등)

Page 27: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

Apache StormStream Processing

Page 28: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

Apache Storm Topology

Spout

Bolt

Page 29: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

Storm Topology, Spout, Bolt in C#

Page 30: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

Storm Topology View

Page 31: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

Spout, Bolt Details

Page 32: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

SIMD: Single Instruction, Multi Data… What?

Page 33: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
Page 34: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

Single Instruction, Multiple Data for Multimedia

• Multimedia requires massive processing power

• Intel MMX, SSE, AVX

• Most GPUs use SIMD for real-time 2D and 3D graphics

Page 35: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

SIMD for Boolean, Integer, String ValuesFloating Point• Instruction sets• Intel SSE (128-bit)• Intel AVX (256-bit)

• Operations• Floating point arithmetic• Floating point comparison

Integer• Instruction sets• Intel MMX (64-bit)• Intel AVX2 (256-bit)

• Operations• Floating point arithmetic• Floating point comparison• Integer arithmetic• Integer comparison• Integer logic• Integer bitwise, bit shift

Can process boolean, integer, string values

Page 36: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

SIMD on Big Data Apps1. Columnar Data Set• ORCFile, Parquet• Higher comp. ratio• Read selected cols only

Products• Apache Hive• Commercial EDW, MPP• Apache Spark• Apache Pig• Apache Tajo• Cloudera Impala• …

2. Vectorized Engine• Column-by-column• Higher cache hit ratio• Better CPU pipelining

Products• Apache Hive• Commercial EDW, MPP

3. SIMD Optimization• Compiler-friendly code• 2x ~ 8x performance• Java 8

Products• Apache Hive

Page 37: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

Hive SIMD OptimizationOperation types• Arithmetic

• Comparison

• Logic

• Bit

Data types• Double (AVX)

• Long (AVX2)

• Bytes (AVX2)

Input types• Column-column

• Column-scalar

• Scalar-column

• Scalar-scalar

Microsoft Azure G Series• CPU: Intel Xeon E5 v3

• RAM: 14 GB/core

• SSD: 206 GB/core

Page 38: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

https://issues.apache.org/jira/browse/HIVE-10179

Page 39: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

우리는Hadoop을함께합니다.어디서나.

• Hadoop for Hybrid Cloud Whitepaper http://info.hortonworks.com/Hybrid-Cloud-White-Paper.html

• HDP Sandbox on Azure Galleryhttp://hortonworks.com/hdp-azure

• HDP on Azure Galleryhttp://azure.microsoft.com/en-us/marketplace/partners/hortonworks/hortonworks-dataplatform

• HDInsightshttp://azure.microsoft.com/en-us/services/hdinsight/

Page 40: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

Additional SlidesBrining 4x Performance in Big Data Apps

Page 41: [Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)

http://aka.ms/td2015_again

TechDays Korea 2015에서 놓치신 세션은 Microsoft 기술 동영상 커뮤니티 Channel 9에서

추후에 다시 보실 수 있습니다.