io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤...

37
IoT 에에 Big Data 에 에에에에 에에 에에에에 에에에 : Flamingo 2015 년 10 년 30 년

Upload: uengine-solutions

Post on 16-Apr-2017

1.719 views

Category:

Technology


17 download

TRANSCRIPT

Page 1: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

IoT 에서 Big Data 를 통합하는통합 빅데이터 플랫폼 : Flamingo

2015 년 10 월 30 일

Page 2: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

2

ⅠFlamingo 소개Flamingo 는 다양한 오픈소스 기반의 Big Data 기술을 하나로 묶어서 관리 , 개발 , 운영 , 분석 등을 활용할 수 있도록 하는 통합 플랫폼입니다 . 현재 IoT, Big Data Platform 을 개발하고 있습니다 .

빅데이터 분석 플랫폼 IoT 분석 플랫폼 빅데이터통합 플랫폼

생태계구축

1 2 3

8 년 이상의 경험과 사업을통한 현장 경험 기반

오픈소스를 기반으로한생태계 조성 및 빠른 개선

빅데이터 통합 플랫폼목표

오픈소스를 통한 주도권 확보 및 신속한 사용자 요구 반영

분석애플리케이션

관리

리소스관리

신속한사용자 요구반영데이터관리

Page 3: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

3

클라우다인은 Flamingo 를 기반으로 도로공사 C-ITS 빅데이터 센터 및 빅데이터 분석 시스템을 현재 구축중에 있습니다 .

사례 : 도로공사 C-ITS 빅데이터 센터 ( 구축중 )

도로공사 C-ITS 빅데이터 센터

Page 4: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

4

국토부의 공간빅데이터 플랫폼은 GIS 정보를 기반으로 한 다양한 서비스를 제공하고 공통 플랫폼을 제공하는 사업으로써 Flamingo 가 적용되어 있습니다 .

사례 : 국토부 공간빅데이터 플랫폼

국토부 공간빅데이터

Page 5: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

5

한국정보화진흥원 K-ICT 빅데이터 센터의 이용자 분석 환경 및 교육실습 인프라에 적용중이며 IoT 실증사업의 센서 데이터를 분석하는 용도로도 사용중

사례 : 한국정보화진흥원 K-ICT 빅데이터 센터

K-ICT 빅데이터 센터 + IoT 실증 사업

MQTT

IoT Agent

FTP

파일 : 정형 / 비정형

송신

로딩

Output Protocol

FTP

MQTT

HTTP

File

JMS

Kafka

Input Protocol

Apache Kafka (Message Broker & Queue)

File

HDFS

JDBC

TCP

Kafka

MQTT

Real-time Processing Layer

Filter

Transformer

PMML

예측분석

데이터 선별

데이터 변환

… …

데이터전송

실시간 분석 이용자 분석환경

실시간 전송

결과 전송 SlurperHDFS

수집

HDFS 저장

Page 6: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

6

한국정보화진흥원 K-ICT 빅데이터 센터의 이용자 분석 환경 및 교육실습 인프라에 적용중이며 IoT 실증사업의 센서 데이터를 분석하는 용도로도 사용중

사례 : 한국정보화진흥원 K-ICT 빅데이터 센터

K-ICT 빅데이터 센터 + IoT 실증 사업Ap

ache

Kaf

ka

분석 서버

색인검색

분석 / 통계

인덱스언어처리

실시간 분석 시각화수집 서버

Data Connectors

Data Parser

Data Forwarder

MapReduce

HDFS

Hive Pig

Apache Tajo

Apache Spark

기초통계

전처리

머신러닝 알고리즘

R

결과저장

전송

HTTP

Apache Kafka

입력 어댑터

File

Apache Kafka

출력 어댑터

EPL Statement 2

EPL Statement 1

CEP Engine

6

File

Apache Kafka

출력 어댑터

Page 7: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

7

한국정보화진흥원 K-ICT 빅데이터 센터의 이용자 분석 환경 및 교육실습 인프라에 적용중이며 IoT 실증사업의 센서 데이터를 분석하는 용도로도 사용중

사례 : 한국정보화진흥원 K-ICT 빅데이터 센터

K-ICT 빅데이터 센터 + IoT 실증 사업

Apache Tajo

HDFS

MapReduce

Hive R Pig

Apache Spark

Apac

he

Flum

e

Apache Storm

Cascad-ing

Sentry

Mahout(

머신러닝 )Mllib(

머신러닝 )

기존

추가

Apa

che

Sqoo

p

Page 8: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

8

ⅡFlamingo IoT Analytics Platform

Flaming IoT Analytics Platform 은 IoT 센서 및 각종 연동 서버에서 수집되는 IoT 센서 데이터 및 기타 다양한 데이터를 실시간으로 수집하고 Big Data 기술을 활용하여 분석하도록 합니다 .

Big Data Platform연동 인터페이스

HTTP

ISO/IEC 30128

송신

Realtime IoT Analytics Platform

Realtime DistributedMessage Broker

실시간 연동 및 예측분석

MQTT

FTP

HTTP

Kafka

FTP

HDFS

MQTT

Kafka

실시간 인메모리 분석

HDFSKafka

Spark Streaming

실시간 전송

메시지 선별 / 변환예측모델

예측모델필터

비식별화

oneM2M

송신MQTT

데이터전송

시각화

설비의 센서

IoT 센서

연동

MapReduce

Hive R Pig

머신러닝 알고리즘

Hadoop EcoSystem

HDFS

Spark

전처리

SQL on Hadoo

p

기초통계

Flume

저장 ZooKeeper

Sqoop

프로그램

Page 9: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

9

ⅡFlamingo Big Data Platform

Flamingo 는 HTML 5 기반으로 Apache Hadoop EcoSystem 을 위한 데이터 분석 / 처리 / 개발 / 운영 환경을 제공하며 MapReduce 분석 알고리즘 , Hadoop Job 분석 및 모니터링 , Hive Metastore 관리 , 워크플로우 관리 기능을 제공합니다 .

• 20 여종 이상의 고속 병렬 처리 MapReduce 알고리즘

• 빅데이터 인프라 모니터링• 빅데이터 분석 플로우 모니터링• 빅데이터 분석 작업 모니터링• 빅데이터 로그 관리• 분석 플로우 배치 작업 관리• 고속 병렬 질의 엔진• 빅데이터 기반 데이터웨어하우스 관리

• Linux 64 bit• Java 7 이상 / MySQL 5.x 이상 • Apache Hadoop 2.3 이상• R 3.0 이상 / ggplot 2 이상• Hive 0.14 이상

• 오픈소스 라이센스 (GPL v3)

Page 10: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

10

ⅡFlamingo 도입 및 운영Flamingo 를 활용하는 곳은 다양하며 민간 , 공공에서 폭넓게 활용하고 있습니다 . 플랫폼 SW 자체로 사용하는 경우와 도메인 특성에 맞게 커스터마이징 하여 적용하는 두 가지 방법이 있습니다 .

Page 11: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

11

ⅡFlamingo 호환 Hadoop 배포판Flamingo 는 다양한 Hadoop 배포판에서 설치 및 운영이 가능하며 현재 MapR, Cloudera CDH, Horton-works HDP, Pivotal PHD, Apache Hadoop 배포판과 호환하여 동작합니다 .

Page 12: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

12

ⅡFlamingo 와 Hadoop 배포판의 통합 아키텍처Flamingo 는 다양한 Hadoop 배포판을 기반으로 동작하며 기계학습 알고리즘 , 분석 애플리케이션 모니터링 , 워크플로우 , 시각화 도구 , 배치작업 관리 , R, Hive/Pivotal HAWQ 개발도구를 제공합니다 .

RRStudio

Flamingo

AnalysysApplicationMonitoring

MachineLearningAlgorithm

BatchJob

Scheduler

WorkflowDesigner Visualizer

Page 13: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

13

Ⅱ분석 알고리즘 개발 및 플랫폼 통합Flamingo 는 웹 기반 분석도구로 플랫폼 SW 를 구현하고 개발한 MapReduce 분석 알고리즘을 워크플로우 디자이너 자유롭게 분석에 활용할 수 있어서 분석 알고리즘을 자산화할 수 있습니다 .

분석 알고리즘 개발 및 플랫폼 통합

1 기본으로 제공하는 다양한 분석 모듈 - 머신러닝 알고리즘 , Spark - ETL, Java, MR, Hive, Pig, R

2 각 분석 및 처리 모듈은 동작에 필요한 각종 파라미터를 제공하고 사용자는 UI 에서 수정하여 적용

1

2

기 작성한 알고리즘 및 데이터 처리 /분석 모듈을 손쉽게 디자이너와 통합 Hadoop API 따라 개발된 경우 기 개발한 모듈의 변경없이 디자이너와 통합

Page 14: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

14

ⅡFlamingo 에서 제공하는 MapReduce 알고리즘의 확장Flamingo 는 Workflow Designer 내에 MapReduce 기반 알고리즘을 통합하여 제공하지만 이를 확장하여 추가 알고리즘 및 ETL 모듈을 추가하도록 설계되어 있습니다 .

Flamingo 내에 포함되어 있는 MapReduce 알고리즘 (Ankus, Mahout, Spark 등 ) 알고리즘의 확장

Neural Network Algorithm

Graph Algorithm

분류 내용 주요 출력 결과수치 / 범주

데이터기초 통계 분석

수치 데이터 기초 통계 합계 , 평균 (4 종 ) 분산 , 표준편차최대 / 최소 / 중앙값

범주 데이터 기초 통계 발생빈도 , 발생비율수치 데이터 확신도 기반 합계 확신도 (Certainty Factor) 기반 합계전처리 Min/Max 정규화 값

Encryption, Grep, Clean, Aggregate

유사 / 상관 분석

이진 벡터 데이터 기반 Hamming, Jaccard/Tanimoto, Dice수치 벡터 데이터 기반 Euclidean, Manhattan, Cosine, Pearson

문자열 데이터 기반 Hamming, Edit(Levenshtein)

마이닝 기계학습

Clustering K-Means, EM, Fuzzy k-Means, Streaming k-Means, Spectral k-Means,

Classification ID3

Recommendation Collaborative Filtering, Parallel ALSItem/User based Recommendation

Pattern Mining Frequent Pattern Mining With FPGrowth

공통 Hadoop EcoSystem MapReduce, Hive, Pig,Program Java, Python, Bash

Page 15: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

15

Ⅱ파일 시스템 브라우저Flamingo 는 HDFS 상의 파일 및 디렉토리를 다루는 기능과 이를 Hive 와 연동하여 테이블로 변환하는 기능을 제공합니다 . 특히 멀티 태넌트 환경을 제공합니다 .

HDFS 파일 시스템 브라우저

1 디렉토리 표시2 Hive 테이블 및 데이터베이스 생성3 파일 관리 4 컨텍스트 메뉴룰이용한 디렉토리 관리5 파일의 내용 표시 및 페이징 처리6 디렉토리의 파일 표시

파일 상세 정보 표시 HDFS 사용량 표시 파일 및 디렉토리 관리 다수의 Hadoop Cluster 지원 파일 업로드 및 다운로드

1

3

64

25

Page 16: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

16

Ⅱ파일 시스템 브라우저의 권한 관리Flamingo 의 파일 시스템 브라우저는 사용자의 등급에 따라서 디렉토리 및 파일에 대한 접근을 설정할 수 있도록 기능을 지원하여 행위를 제한할 수 있습니다 .

Flamingo 의 HDFS 권한 관리

1 권한을 설정할 디렉토리 설정

2 디렉토리의 사용자 행위에 대한 권한 설정

3 파일의 사용자 행위에 대한 권한 설정

사용자별 등급 정의 권한을 설정할 경로를 입력하고 파일 /

디렉토리 단위로 접근 권한을 설정 접근 권한에 위배되는 행위를 하는 경우

접근을 통제하고 에러메시지 출력

1

2

3

Page 17: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

17

Ⅱ파일 시스템 브라우저의 행위 모니터링Flamingo 의 파일 시스템 브라우저에서 사용자의 모든 행위를 추적할 수 있도록 디렉토리 및 파일에 대한 행위 정보를 기록에 남기고 확인할 수 있도록 합니다 .

Flamingo 의 HDFS 행위에 대한 사용자 모니터링

1 Audit 로그의 조회 조건 입력2 통계정보의 순위3 통계정보의 순위 그래프

HDFS 의 사용자 행위 기록 조회 기록 조회 정보에 대한 시각화 시간순서에 따른 추이 사용자 , 행위 , 사용량 , 접근방법 등의

다양한 기준에 따른 통계

1

23 4

5

4 통계 정보의 시간 추이 그래프5 파일의 사용자 행위 목록

Page 18: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

18

ⅡR & RStudio 통합Flamingo 는 RStudio 와 통합하여 R 스크립트를 Flamingo 내에서 실행하고 이를 처리할 수 있는 UI 를 제공하여 데이터 모델링 및 대용량 분석을 하나의 통합 플랫폼에서 가능케 합니다 .

R & RStudio 와 통합

1 RStudio 의 사용자 메뉴2 R 스크립트 파일 편집기3 스크립트 실행 명령창

Flamingo 사용자와 R 사용자 통합 R 스크립트 실행 기능 RStudio 를 이용한 시각화 기능 데이터 처리 기능 RHive, RHadoop 을 이용한 빅데이터

인프라와 연계 기능 Pivotal HD 의 경우 Pivotal R 과 연계

4 시각화 그래프5 각종 파일 및 변수 표시

2

1

3 4

5

Page 19: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

19

Ⅱ방화벽 로그 처리 사례로그를 변경하지 않고 방화벽 로그를 Flamingo 의 Hive Editor 를 이용하여 테이블로 변환하고 로그를 Hive QL 로 처리할 수 있습니다 .

방화벽 로그를 Hive 를 이용하여 Query 처리를 위한 Flamingo 활용 사례 ( 금융권 )

Hive 의 Table, Database 관리 기능을 모두 제공

External, SERDE 제공 컬럼 및 파티션 정보 등록 HDFS 브라우저와 연동하여 파일

관리와 유기적인 협력

1 방화벽 원본 로그2 External Hive Table 생성3 Hive SERDE 정의4 Hive Table 의 컬럼 정의5 Hive Table 의 파티션 정의

TYPE="IPINSIDE" TIME="2014-03-20 17:40:37" ID="guest0899349" MAC="AA-BB-01-18-68-68" NAT_IP="10.24.104.104" NAT_IP_NATION="USA" PROXY_USE="Y" VPN_USE="Y" REMOTE_USE="Y" PROXY_IP="192.24.104.104" PROXY_IP_NATION="USA" VPN_IP="192.24.104.104" VPN_IP_NATION="USA" SVC_CODE="SVC_CODE_0899349" HDD_DISK="HDD_DISK_0899349" CPU_INFO="CPU_INFO_0899349" USE_OS_NATION="USA" MESG="mesg..... time[1395284830] rnd[875899349] unq[5000000]”

1

2

3

4 5

Page 20: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

20

ⅡYARN 애플리케이션 모니터링Hadoop 2 에서 새로 추가된 YARN 애플리케이션은 분산 애플리케이션의 표준 환경으로써 Flamingo는 차별화된 YARN 애플리케이션 모니터링을 지원합니다 .

YARN 애플리케이션 모니터링

1 YARN 애플리케이션 실행 추이

YARN 애플리케이션의 실행 상태 모니터링

날짜별 실행 추이 애플리케이션 강제 종료 애플리케이션 상세 정보 표시 애플리케이션 실행 로그 표시 및

다운로드 Application Master 연결 애플리케이션을 다룬 Queue 로 이동

1

2 3

4

2 실행중인 YARN 애플리케이션 표시3 YARN 애플리케이션 강제 중지

및 Queue 이동4 YARN 애플리케이션 상세 정보

Page 21: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

21

ⅡMapReduce Job 모니터링Flamingo 는 YARN 과 연계하여 MapReduce, Hive QL, Pig Latin 등으로 실행된 MapRe-duce Job 의 실행 이력 뿐만 아니라 상세정보를 모니터링합니다 .

MapReduce Job 모니터링

1 MapReduce Job 실행 추이

MapReduce Job 의 실행 상태 모니터링

날짜별 실행 추이 MapReduce Job 의 상세 정보 표시 MapReduce Job 의 카운터 표시 MapReduce Job 의 태스크 표시 MapReduce Job 의 설정값 표시

2 MapReduce Job 목록3 MapReduce Job 상세 정보4 MapReduce Job 의 속성

1

2

3

4

Page 22: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

22

ⅡYARN Cluster 모니터링Flamingo 는 YARN 을 구성하는 Cluster 의 각 노드 및 Cluster 에서 사용하고 있는 Core, Memory 소비량을 시각화여 표시합니다 .

YARN Cluster 모니터링

YARN 을 구성하는 클러스터의 각 노드의 상태 정보 표시

Page 23: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

23

ⅡDatanode 모니터링Flamingo 는 데이터를 저장하는 역할을 하는 Datanode 의 상태 정보를 일목요연하게 정리해서 보여주며 장애 노드를 확인하여 표시함으로써 관리자가 상태를 쉽게 파악할 수 있도록 합니다 .

Datanode 모니터링

HDFS 를 구성하는 Datanode 의 노드별 상태 정보

장애가 발생한 노드 및 클러스터에서 제외된 노드의 상태 정보 표시

Clouder Manager, Ambari,

Command Center 등의 시스템 리소스 모니터링과 함께 데이터노드의 핵심 정보만 표시

Page 24: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

24

ⅡApache Hive Editor

Flamingo 는 Hive Metastore 와 Hive Server 2 를 연동하여 Hive Query 를 실행하고 이를 결과 파일로 다운로드할 수 있도록 되어 있습니다 .

Apache Hive Metastore 관리 및 쿼리 편집기

1 Hive 데이터베이스 및 테이블 관리2 테이블의 컬럼 및 파티션 관리

Long Running Hive Query 지원 Hive Metastore 완벽 지원 자동 완성 지원 Hive Query Editor

Hive Database, Table 관리 지원 External Table, Managed Table 지원 SERDE 지원 Complex Data Type 지원

3 Hive Query 편집기4 Hive Query 의 실행 결과 표시1

2

3

4

Page 25: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

25

ⅡApache Hive Metastore 관리Flamingo 는 Hive Metastore 와 Hive Server 2 를 연동하도록 하여 데이터베이스와 테이블을 관리하는 기능을 제공합니다 .

Apache Hive Metastore 관리 및 Hive Server 연동

1 데이터베이스 종류 선택2 Hive 테이블의 유형 (External,

Managed)

Hive 데이터베이스 관리 기능 Hive 테이블 관리 기능 컬럼 및 파티션 관리 기능

1

3

2

4

3 Hive 테이블의 컬럼 관리

4 Hive 테이블의 파티션 관리

Page 26: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

26

ⅡApache Hive Metastore 관리Flamingo 는 Hive Metastore 와 Hive Server 2 를 연동하도록 하여 데이터베이스와 테이블을 관리하는 기능을 제공합니다 .

Apache Hive Metastore 관리 및 Hive Server 연동

1 Hive 테이블의 유형 선택2 필드 , 라인 , 복잡한 데이터 유형별

구분자 지정

Hive 테이블의 모든 기능을 완벽히 구현 컬럼 및 파티션 생성 기능 지원 입출력 파일 포맷 지정 기능

3 입출력 파일 포맷을 결정하는 포맷 클래스 지정

4 테이블의 컬럼 및 파티션 정보를 입력하는 기능

1

2

3

4

Page 27: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

27

ⅡSQL on Hadoop 지원 (Apache Tajo)

최근 Apache Tajo 의 지원을 추가했습니다 . 많은 빅데이터 분석 및 개발자들이 고성능 데이터 분석을 위해서 SQL on Hadoop 으로 이동하고 있으며 Flamingo 는 2.0.5 버전에서 지원을 시작했습니다 .

Apache Tajo 개발 도구

Apache Tajo 최신 버전 지원

Apache Tajo 의 테이블 및 데이터베이스 관리 기능 제공

Apache Tajo 의 쿼리문 편집기 및 결과 표시

웹 브라우저 기반 최초의 개발 및 관리 도구

Page 28: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

28

ⅡSQL on Hadoop 지원 (Pivotal HAWQ)

Flamingo 는 고성능 분석을 위해서 필요한 SQL on Hadoop 을 지원하며 SQL on Hadoop 에 있어서 시장의 최강자인 Pivotal HAWQ 개발 도구를 제공합니다 .

Pivotal HAWQ 개발 도구

1 HAWQ 의 데이터베이스 및 스키마 관리2 테이블을 포함한 HAWQ 의 관리 객체 브라우저

Pivotal HAWQ 완벽 지원 SQL 쿼리 실행 및 개발을 위한 편집기 HAWQ 의 데이터베이스 , 스키마 , 테이블 ,

사용자 관리 External Table 등의 다양한 HAWQ 의

기능 최적화

1

2

3

4

5

5 HAWQ SQL Query 의 실행 결과 표시

3 테이블의 메타데이터 4 HAWQ SQL Query 편집기

Page 29: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

29

ⅡApache Spark In-Memory 분석Flamingo 2.1.0 에서 새로 추가된 기능으로 Spark In-Memory 분석 애플리케이션을 모니터링하고 Spark Streaming 애플리케이션을 관리하는 기능을 제공합니다 .

Apache Spark 모니터링 및 Spark Streaming 분석 애플리케이션 지원

Page 30: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

30

Ⅱ웹 터미널관리자 및 개발자에게 시스템 보안을 위해서 SSH 로 서버에 직접 접근을 허용하지 않지만 시스템에 접근을 해야 하는 경우 빅데이터 플랫폼에서 권한에 따라서 제한적으로 리모트 터미널에 접근할 수 있습니다 .

SSH 연결 없는 원격 터미널

1 서버 접속2 커맨드 라인 입력 및 표시 콘솔

SSH 직접 연결 없이 콘솔에서 자유롭게 개발하고 운영할 수 있는 터미널을 제공 사용자의 커맨드 라인 입력에 대한 통제 Flamingo 사용자와 시스템 계정의 연동

1

2

Page 31: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

31

ⅡPig Latin Editor

Flamingo 는 HDFS 에 저장되어 있는 대용량 로그를 전처리 등의 작업을 지원하는 Apache Pig 의 Pig Latin 스크립트 편집기를 제공합니다 . 이를 활용하여 개발자가 빠르고 십게 통합 환경에서 파일을 가공하고 분석할 수 있습니다 .

Apache Pig Editor

1 Apache Pig Latin Script 편집기 2 Apache Pig Latin Script 실행시

MapReduce Job 의 실행 로그

Pig Latin 스크립트 편집기 멀티 탭 기반 문법 하이라이트 편집 지원 Pig Latin 스크립트 실행 실시간으로 실행 로그 출력

1

2

Page 32: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

32

Ⅱ시각화Flamingo 는 가장 범용적으로 많이 사용하는 GGPLOT 을 지원하며 GGPLOT 을 기반으로 HDFS 의 파일 및 로컬 PC 의 파일을 시각화할 수 있습니다 .

GGPLOT 기반 시각화

15 종 이상의 시각용 차트 제공 HDFS 및 로컬 PC 의 파일에

대한 시각화 제공 Layer 를 통해 하나 이상의 차트를

결합 다양한 시각화용 차트의 옵션 설정

(색상 , 라인 등등 )

Page 33: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

33

Ⅱ시각화Flamingo 는 가장 범용적으로 많이 사용하는 GGPLOT 을 지원하며 GGPLOT 을 기반으로 HDFS 의 파일 및 로컬 PC 의 파일을 시각화할 수 있습니다 .

GGPLOT 기반 시각화1

2

3

15 종 이상의 시각용 차트 제공 HDFS 및 로컬 PC 의 파일에

대한 시각화 제공 Layer 를 통해 하나 이상의 차트를

결합 다양한 시각화용 차트의 옵션 설정

(색상 , 라인 등등 )

1 tGGPLOT2 를 지원하는 시각화용 차트

2 시각화 결과 표시3 시각화 결과 표시

Page 34: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

34

Ⅱ배치 작업 스케줄러Flamingo 는 작성한 Workflow 를 배치 작업으로 등록하고 실행하기 위해서 배치작업 관리기능을 포함하고 있으며 등록한 배치 작업의 생명 주기를 관리합니다 .

배치 작업 관리

등록된 배치작업 현황

배치 작업 스케줄러 현황 정보1 배치 작업 스케줄러의 JVM Heap 와

현재 등록중인 Job 의 개수를 표시함2 등록되어 있는 배치 작업의 현재 상태를

표시함

배치 작업의 생명 주기 관리 배치 작업 스케줄러의 리소스 정보 표시 배치 작업

1

2

Page 35: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

35

Ⅱ배치 작업 스케줄러Flamingo 는 작성한 Workflow 를 배치 작업으로 등록하고 실행하기 위해서 배치작업 관리기능을 포함하고 있으며 이것은 Cron Expression 을 중심으로 동작합니다 .

배치 작업 관리

1 워크플로우를 배치 작업으로 등록하기 위한 설정 화면

2 Cron Expression 을 기반으로 배치 작업을 등록

Cron Expression 설정 워크플로우 변수를 배치 작업 변수로

처리Cron Expression

설정 기능

배치 작업 등록1

2

3 워크플로우의 변수를 배치 작업 실행할 때 변경 (예 ; 부서코드 )

3

Page 36: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

36

ⅡApache Sqoop 연동Flamingo 의 워크플로우 디자이너에는 Sqoop 의 Import, Export 기능을 제공하여 RDBMS, HDFS 간 데이터 전송을 할 수 있도록 제공합니다 .

Apache Sqoop 통합

1 워크플로우 디자이너의 Sqoop Export 를 이용하여RDBMS 에 저장할 데이터가 저장되어 있는 HDFS 경로를 설정

2 워크플로우 디자이너의 Sqoop Export 를 이용하여RDMBS 의 접속 정보 입력

HDFS 에 저장되어 있는 파일을 MySQL, Oracle 과 같은 RDBMS 에 데이터를 저장

워크플로우 디자이너에서 Sqoop Export 를 드래그 앤 드롭하여 관련 정보를 입력하고 실행하면 HDFS >

RDMBS 로 데이터가 저장

1

2

Page 37: Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

37

감사합니다 .

홈페이지 : http://www.cloudine.io기술지원 문의 : [email protected]