14회 굿모닝아이텍 주 웨비나• 데이터레이크컨텐츠검색, 큐레이션,...

27
2020. Goodmorning Information Technology Co., Ltd all rights reserved. 1 일시 주최 및 협력 14굿모닝아이텍() 웨비나 2020.03.27 () 16:00 ~ 17:00

Upload: others

Post on 23-Oct-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

  • ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.1

    일시

    주최및협력

    제14회굿모닝아이텍(주)웨비나

    2020.03.27 (금) 16:00 ~ 17:00

  • ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.2

    CDP(Cloudera Data Platform) on Azure

    Cloudera Korea남영지 Solution Engineer

  • ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.3

    클라우드 2.0

    http://www.ciokorea.com/tags/20285/%ED%81%B4%EB%9D%BC%EC%9A%B0%EB%93%9C%202.0/145976

    • 클라우드데이터생태계• 가트너가올 1월처음용어를만듬

    • 애널리스트회사 451리서치가작년말에 ‘엔터프라이즈인텔리전스플랫폼’이라는말을쓰기시작

    • 클라우데라가지난여름 ‘엔터프라이즈데이터클라우드’라고명명

    • 멀티클라우드의등장• 3대퍼블릭클라우드제공업체는자체서비스를프라이빗클라우드

    배치장소로확장하는프로그램을각각공개하거나강화

    • 2017년 고객데이터센터자체클라우드서비스를확장하기위해애저스택을처음도입했던마이크로소프트는이번에는애저아크를출시하여애저스택산하의다양한하드웨어서비스들을포함

    http://www.ciokorea.com/tags/20285/%ED%81%B4%EB%9D%BC%EC%9A%B0%EB%93%9C%202.0/145976

  • ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.4

    CDP on Microsoft Azure Marketplace

    • Azure 기반의데이터생명주기관리, 보안및커넥티드엔터프라이즈데이터클라우드

    • Azure – 고객사는클라우드제공사를선택할수있는유연성

    • 온프레미스 - 성능, 비용및보안을위해데이터센터내최적화된인프라사용

    • 하이브리드클라우드 - 퍼블릭클라우드및온-프레미스조합으로일관된관리및제어

    • CDP를통해쉬운분석기능으로복잡한유스케이스구현• 완결성 : 데이터를수집, 변환, 쿼리, 최적화및예측하는데필요한

    모든기능을사용할수있으므로포인트제품필요없음

    • 통합성 : 통합분석기능으로빅데이터애플리케이션및파이프라인생성을단순화

    • 일관성 : 기능전반에걸쳐표준화된사용자경험으로데이터를더빠르고쉽게분석가능

  • ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.5

    CDP on Microsoft Azure Marketplace

    • CDP의 SDX (Shared Data Experience)를 통해엔터프라이즈데이터클라우드의보안보장

    • 일관성 : 보안및거버넌스정책이한번설정되고모든데이터및워크로드에적용됩니다.

    • 이식성 : 지원되는모든인프라간에이동하더라도정책데이터유지

    • 셀프서비스 : 사용자는효율적으로데이터를찾고, 관리하고, 공유할수있으며신뢰할수있는데이터및분석에액세스할수있음

    • CDP는데이터웨어하우스, 기계학습및데이터허브의3가지기본서비스로구성

    • CDP 와 Azure 비용단일통합청구가능• Azure 주요서비스컴포넌트와긴밀한통합

    • Cloudera Data Platform은 ADLS (Azure Data Lake Storage) Gen2, AKS (Azure Kubernetes Service), Azure Active Directory 및기타핵심데이터서비스와같은 Azure 인프라서비스와긴밀하게통합

  • ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.6

    CDP HOME

    • 전체플랫폼의최신통합 UI• GUI, CLI 또는 API를통한액세스• 인라인도움말및지원

  • ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.7

    COMPONENTS

    Traditional Platform Consumption:• Data Hub 클러스터

    New analytic experiences:• Data Warehouse• Machine Learning• Data Engineering(TBD)• Data Flow(TBD)

    Control Plane services:• Workload Manager• Replication Manager • Data Catalog• Management Console

    CDP Public Cloud에서제공하는서비스목록

    발표자프레젠테이션 노트PVC Same makeup, a high level, for each form factorControl plane, sdx, experiences and storage, all leveraging our runtimeExperiences, separate compute and storage, installableCompared to PC, it’s really own vs rentCompared to DC, experiencesFor multi tenancy & isolationThe ease of provisioning, scale, managementDriving much higher infra utilisation

  • ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.8

    MANAGEMENT CONSOLE

    • 1 시간내전체보안기능포함된SDX 환경구축

    • 셀프서비스워크로드클러스터관리

    • 사용자는회사 SSO를통해안전한프로비저닝

    • 단일화면에서 CDH / HDP 클러스터관리

    • CLI 액세스를통한운영자동화

  • ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.9

    DATA HUB

    • 사전정의된클러스터구축• 몇분내에프로비저닝 / 확장 /

    축소

    • ‘항상실행’ 보안및거버넌스• 실패한노드의완벽한복구• 맞춤형클라우드인프라및

    클러스터구성

  • ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.10

    DATA WAREHOUSE

    • 자동화된용량계획• 프로비저닝용이성• 자동스케일링• 리소스격리• 높은동시성• 성능에최적화된인프라• 두개의 DW 엔진선택 : Hive 및

    Impala

  • ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.11

    MACHINE LEARNING

    • 기다림없는 ML 팀작업• 관리통제하에 데이터액세스

    셀프서비스

    • 데이터과학자들이선호하는오픈도구

    • 탄력적이고자동중단되는리소스• DE를포함한엔드투엔드 ML을

    위한포괄적이고집중적인 UX

    • 휴대성과일관성• 자동화된용량계획

  • ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.12

    DATA CATALOG

    • 최종사용자를위한 :• 데이터레이크컨텐츠검색, 큐레이션,

    태그지정

    • 데이터계보를통해신뢰확보 : 비즈니스용어집을통한컨텍스트

    • 데이터관리자의위한 :• 권한부여정책 (ABAC, RBAC, 파일,

    테이블, 열, 행등) 생성및관리

    • 사용자가액세스한데이터를감사및식별

  • ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.13

    WORKLOAD MANAGER

    • Data Hub, CDW, CDH clusters지원

    • Spark, Hive 및 Impala 워크로드분석

  • ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.14

    주요용어개념및관계

    Environment

    • 1 Template• 1 Region• 1 VPC• Multiple Roles / Buckets

    Data Lake• SDX: Atlas , Ranger, Knox, IdBroker, CM

    • Associated with groups / users

    Data Hub Clus ters / Exp

    eriences

    • DH templates• ML Env• DW Database Catalogs / Virtual Compute

    1:1

    1:N

    ENVIRONMENTS

  • ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.15

    중요개념및구성요소

    일반적인 사용자 작업 흐름

    Enterprise IT CDP Control Plane

    Management Console

    1

    Step 1 기업내 계정을 사용하여 CDP Management Console에 로그온

    Enterprise Cloud Resources (IAM, Network, VMs, Buckets, etc.)

    Step 2 CDP Management Console에서 Environment와 Data Lake 생성

    2

    Environment

    Data Lake

    AtlasRangerKnox

    IdBrokerFreeIPA

    CMHMS

    Step 3 기존 워크로드 마이그레이션을 위한 Data Hub 클러스터 생성

    3

    BI Team Cluster ETL Team ClusterNode 1 Node 2 Node 3Node 1 Node 2 Node 3

    4

    Step 4새로운 사용자 경험을 위한 Cloudera Experience 프로비저닝 –Cloudera Data WareHouse 서비스 또는 Cloudera Machine Learning 서비스

    Data Warehouse Experience Machine Learning Experience

  • ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.16

    ENVIRONMENT

    환경 이란?

    • CDP가고객환경에서자원할당및위치정의• Data Lake라는장기실행영구클러스터가

    여기에생성

  • ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.17

    DATA LAKE

    데이터 레이크란?

    • 여러클러스터 / 익스피리언스간에공유되는환경내공통서비스세트(SDX)

    • 보안

    • 감사

    • 거버넌스

    • 데이터탐색

  • ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.18

    DATA HUB CLUSTERS AND EXPERIENCES

    어떤 다양한 기능이 있나?

    • Data Hub 클러스터는기존 Hadoop 클러스터처럼실행되지만클라우드스토리지를활용하도록설계된사용자정의가능한환경

    • 익스피리언스는특정목적을위한컨테이너기반컴퓨팅환경

    • ML, DW, DE, OD, DF

  • ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.19

    CONTROL PLANE

    컨트롤 플레인이란?

    • Control Plane은 여러환경에서관리, 작업부하분석, 데이터이동및데이터탐색을위한공통도구세트

  • ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.20

    Environment 상세

    Azure 상에 고객사 VPC 환경 구축

  • ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.21

    데이터허브프로비저닝

    원하는 클러스터를 사전 정의된 구성으로 설치

  • ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.22

    오토스케일데이터웨어하우스

    T-shirts 단위로 자동 확장 단위 정의

  • ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.23

    머신러닝워크스페이스프로비저닝

    오토스케일 범위 지정

  • ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.24

    클라우데라배포판 (Cloudera Runtime)

    Key enhancements as compared to CDH 6

    Ranger

    • Dynamic row filtering• Dynamic column masking• Attribute -based access control• SparkSQLfine-grained access control

    Atlas 2.0• Advanced data discovery• Improved performance and scalability

    Hive 3• Better fit for EDW Optimization use cas

    es (large joins, analytical style workloads)

    Knox • Gateway-based SSO

    Hive on Tez • Better ETL performance

    Key enhancements as compared to HDP 3

    Cloudera Manager

    • Virtual private clusters

    • Automated wire encryption setup• Fine-grained RBAC for administrators• Streamlined maintenance workflows

    Atlas 2.0• Advanced data lineage

    • Faceted search

    Impala • Better fit for Data Mart migration use cases (interactive, BI style queries)

    Hue • Built-in SQL editor

    Kudu • Better performance for fast changing / updateable data

    발표자프레젠테이션 노트Hive = large joins,analytical style workloads, Impala = interactive BI style queries

  • ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.25

    컨버지드배포판

    CDH, HDP 중 베스트 기능과 컴포넌트로 구성

    Initial CDP Public Cloud Release Targeted for initial CDP-DC Release

    • Hadoop 3.1• Spark 2.4• Hive 3.1• Impala 3.2• Oozie 5.1• Hue 4.3• Ranger 2.1• Atlas 2.0• Tez 0.9• HBase 2.2

    • Sqoop 1.4.7• Livy 0.5• Parquet 1.10• Avro 1.8• ORC 1.5• Zookeeper 3.4• Zeppelin 0.8• Knox 1.3• Arrow 0.8

    • Kudu• Phoenix• Druid• Pig• Solr / Search• Kafka 2.3

    발표자프레젠테이션 노트Created from the best features and components of CDH and HDP

  • ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.26

    마지막으로

    Data LakeData Hub

    Data WarehouseCML

    경제적비용으로저장/관리하고,

    가공하여,쿼리하고(사용자선택 CDP on VM)

    쿼리하고(클라우데라선택 CDP on Container)

    머신러닝을 수행하자(자유롭게)

  • ⓒ 2020. Goodmorning Information Technology Co., Ltd all rights reserved.27

    감사합니다

    슬라이드 번호 1슬라이드 번호 2클라우드 2.0CDP on Microsoft Azure MarketplaceCDP on Microsoft Azure MarketplaceCDP HOMECDP Public Cloud에서 제공하는 서비스 목록MANAGEMENT CONSOLEDATA HUBDATA WAREHOUSEMACHINE LEARNINGDATA CATALOGWORKLOAD MANAGER주요 용어 개념 및 관계중요 개념 및 구성 요소ENVIRONMENTDATA LAKEDATA HUB CLUSTERS AND EXPERIENCESCONTROL PLANEEnvironment 상세데이터 허브 프로비저닝오토 스케일 데이터 웨어하우스머신러닝 워크스페이스 프로비저닝클라우데라 배포판 (Cloudera Runtime)컨버지드 배포판마지막으로슬라이드 번호 27