[td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
Post on 15-Apr-2017
502 Views
Preview:
TRANSCRIPT
Hadoop을 어디서나 사용하기
최종욱tchoi@hortonworks.com2015년 10월
오늘 훑어 볼 내용들
• 관리자: Microsoft + Hortonworks의 Hadoop 솔루션 소개
• 개발자: HDInsight + Visual Studio로 빅데이터 앱 만들기
• (전문가: 최신 하드웨어로 4배가속, 빅데이터를 위한 SIMD)
Hortonworks: 기업용 Hadoop유일한 100
오픈소스Apache Hadoop 데이터 플랫폼
% 2011년 설립
HADOOP1ST상장된 첫번째 배포판
2014년 가을 상장 (NASDAQ: HDP)
기술지원구독 고객556 명의 임직원
740+
개국기술 협력사1350+ 17
TM
2011년 부터Microsoft 협력사 HDInsight 8TH
Azure에서 매월 수백개의고객사에서 수백만 시간을점유하여 8번째로 사용량이 많은솔루션
2015올해의클라우드협력사
현대 기업을 위한 빅데이터 기회
클릭스트림
ERP, CRM, SCM
웹 및소셜
위치
사물인터넷
서버 로그
파일, 이메일
새 데이터위기• 데이터가 앱에 따라 제한됨• 새 데이터를 관리할 수 없음• 확장 비용이 비쌈
1
2.8 Zettabytesin 2012
44 Zettabytesin 2020
N E W
1 Zettabyte (ZB) = 1 million Petabytes (PB); Sources: IDC, IDG Enterprise, and AMR Research
모든 산업군을 충실한 데이터와분석을 통해 변화
기회
T R A D I T I O N A L
LAGGARDS
LEADERS2
사업적인 가치
ERP CRM SCM
HDP 는 오픈 엔터프라이즈Hadoop을 제공
Hortonworks Data Platform는 어떤 응용과 어떤데이터에도적합한 핵심 기업서비스를위한 중앙형 아키텍처로이뤄진,기업용 Hadoop을 제공합니다.
완전한 오픈소스• HDP는 기업용 데이터 플랫폼에필요한 모든 구성 요소를 포함합니다: 데이터 저장, 데이터접근, 거버넌스, 보안, 운영
• 모든 구성요소는 오픈소스로개발되어 기업과 생태계에서쉽게쓰일 수 있도록 통합된 오픈소스플랫폼으로서 엄격히시험하고,검증하여 전달합니다.
Hortonworks Data Platform 2.3
YARN: Data Operating System(Cluster Resource Management)
1 ° ° ° ° ° ° °
° ° ° ° ° ° ° °
Apac
he P
ig
° °
° °
° ° °
° ° °
HDFS (Hadoop Distributed File System)
GOVERNANCE BATCH, INTERACTIVE & REAL-TIME DATA ACCESS
Apache Falcon
Apac
he H
ive
Casc
adin
g
Apac
he H
Base
Apac
he A
ccum
ulo
Apac
he S
olr
Apac
he S
park
Apac
he S
torm
Apache Sqoop
Apache Flume
Apache Kafka
SECURITY
Apache Ranger
Apache Knox
Apache Falcon
OPERATIONS
Apache Ambari
ApacheZookeeper
Apache Oozie
Apache Atlas
Seamless Interoperability with Microsoft ToolsMicrosoft 도구들과자연스럽게호환
• 모니터링을위한 통합된화면– System Center는완전한 모니터링 도구를제공
• 단순화된빅데이터 분석을위한 통합– SQL Server와 SQL Azure를 위한 양방향커넥터
– Excel과 PowerBI 통합– PolyBase을통한직접 접근
• Windows Server용네이티브Hadoop 배포판
AN
ALY
TIC
SSO
UR
CES
DA
TA S
YSTE
MS
ON
-PR
EMIS
ES
DA
TA S
YSTE
MS
CLO
UD
OPERATIONAL TOOLS
DEV & DATA TOOLS
INFRASTRUCTURE
2012Analytics Platform System
OLTP, ERP,CRM Systems
Documents& Emails
Web Logs,Click Streams
SocialNetworks
MachineGenerated
SensorData
Geo-locationData
클라우드와 온프레미스에 걸친 Hadoop
온프레미스 클라우드
Azure 갤러리상의 Hortonworks Data Platform빠른 평가를 위한 평가용 설정
• 5 노드 클러스터• 비용효율적인A3 Azure 가상 머신
개념검증 (PoC) 에 맞춘 표준설정• 6-45 노드를유연하게선택• 사용시나리오에따라 A7, A8, A9 Azure 가상 머신중에선택
Azure 갤러리상의 Hortonworks Sandbox• 단일노드학습환경을위해 Hortonworks Sandbox 사용
인프라스트럭처서비스로서 Azure 상의 Hortonworks
3
하이브리드아키텍처로전환단순한개발/테스트환경이상
2
1
BI/ML
IoT APPS
DEV / PILOT
PRODUCTIONLEARN
개발, 테스트, 파일럿용도
사물인터넷응용(실시간 및 인터랙티브)
업무 분석 및기계학습
Azure 저장소
HDInsight
DataFactory
ML
StreamAnalytics
Database
DocumentDB
Search
EventHubs
Microsoft의클라우드 Hadoop-as-a-Service 제품100% 오픈소스 Apache Hadoop – HDPHadoop 생태계의 최신 버전들 위에개발됨 (2.7 검수중)배포할 하드웨어가 없는상태에서 생성과 운영까지 수분 소요기존 .NET과 Java 기술을 이용Microsoft Excel 등 친숙한 BI 도구를 활용
클라우드를 확장
하이브리드배포선택Windows, Linux, 온프레미스및클라우드데이터 “중력”이배포를이끔
복제된데이터세트데이터세트공유를자동화하여Hadoop 데이터엑세스를대중화
호환되는클러스터들응용프로그램과데이터처리워크로드를언제어디서나필요할때수행
단순한개발/테스트이상다른 Hadoop 배포판들은개발/테스트목적만으로홍보
Dev / TestMicrosoft Azure
IoT AppsMicrosoft Azure
BI / ML Microsoft Azure
On-PremisesLEARN
하이브리드 클러스터 배포를 단순화
데이터이동자동화
멀티터넌트클러스터를위한 정책 기반의자동 크기 조정
클라우드상에 클러스터배포를 자동화및 템플릿화
On-premises Hadoop
Azure
클라우드 상의 Hadoop을 고려하는 기업에게Azure 상의 HDP는 식은죽 먹기
Azure에 셀프 프로비저닝다른 배포판들은오로지스크립트 기반의배포만을지원
완전한 HDP 배포판 지원다른 배포판들은Hbase, SolR, Spark 등을지원하지 않음
Azure Blob 저장소 지원다른 배포판들은미지원 (저장 능력을심각하게제한)
Microsoft Azure Data Lake, Powered By Hortonworks
Works with
• Hortonworks
• Cloudera
• MapR
HDInsight + Visual StudioThe Best Big Data IDE
Azure Portal
Azure HDInsight
Azure HDInsight SDK
Azure HDInsight Project
Apache HiveSQL on Hadoop, innovated
Apache Hive – SQL on HadoopThe original “SQL on Hadoop”Undergoing extensive renovation• Tez execution engine• YARN execution environtment• Vectorized data representation• Column-oriented data storage (ORC)• ACID transactions• SQL standards compliance• SQL authorization model• Cost-base query optimization
Recent Hive Innovations
Hive on MapReduce오래된 실행 엔진
여러 개의 작업
여전히 지원
Hive on Tez
set hive.execution.engine=tez;
Windows, Linux에서 사용 가능
하나의통합된 작업
시각적프로파일링가능
User Defined Functions in C#
• input = Console.ReadLine()• Console.WriteLine(output)
• ‘\n’으로행 구분, ‘\t’으로열 구분
• Microsoft 개발자들에게친숙한API
• 기존 Windows 라이브러리활용 가능(인코딩변환, 음성 인식, 글자 인식,얼굴 인식 등)
Apache StormStream Processing
Apache Storm Topology
Spout
Bolt
Storm Topology, Spout, Bolt in C#
Storm Topology View
Spout, Bolt Details
SIMD: Single Instruction, Multi Data… What?
Single Instruction, Multiple Data for Multimedia
• Multimedia requires massive processing power
• Intel MMX, SSE, AVX
• Most GPUs use SIMD for real-time 2D and 3D graphics
SIMD for Boolean, Integer, String ValuesFloating Point• Instruction sets• Intel SSE (128-bit)• Intel AVX (256-bit)
• Operations• Floating point arithmetic• Floating point comparison
Integer• Instruction sets• Intel MMX (64-bit)• Intel AVX2 (256-bit)
• Operations• Floating point arithmetic• Floating point comparison• Integer arithmetic• Integer comparison• Integer logic• Integer bitwise, bit shift
Can process boolean, integer, string values
SIMD on Big Data Apps1. Columnar Data Set• ORCFile, Parquet• Higher comp. ratio• Read selected cols only
Products• Apache Hive• Commercial EDW, MPP• Apache Spark• Apache Pig• Apache Tajo• Cloudera Impala• …
2. Vectorized Engine• Column-by-column• Higher cache hit ratio• Better CPU pipelining
Products• Apache Hive• Commercial EDW, MPP
3. SIMD Optimization• Compiler-friendly code• 2x ~ 8x performance• Java 8
Products• Apache Hive
Hive SIMD OptimizationOperation types• Arithmetic
• Comparison
• Logic
• Bit
Data types• Double (AVX)
• Long (AVX2)
• Bytes (AVX2)
Input types• Column-column
• Column-scalar
• Scalar-column
• Scalar-scalar
Microsoft Azure G Series• CPU: Intel Xeon E5 v3
• RAM: 14 GB/core
• SSD: 206 GB/core
https://issues.apache.org/jira/browse/HIVE-10179
우리는Hadoop을함께합니다.어디서나.
• Hadoop for Hybrid Cloud Whitepaper http://info.hortonworks.com/Hybrid-Cloud-White-Paper.html
• HDP Sandbox on Azure Galleryhttp://hortonworks.com/hdp-azure
• HDP on Azure Galleryhttp://azure.microsoft.com/en-us/marketplace/partners/hortonworks/hortonworks-dataplatform
• HDInsightshttp://azure.microsoft.com/en-us/services/hdinsight/
Additional SlidesBrining 4x Performance in Big Data Apps
http://aka.ms/td2015_again
TechDays Korea 2015에서 놓치신 세션은 Microsoft 기술 동영상 커뮤니티 Channel 9에서
추후에 다시 보실 수 있습니다.
top related