빅데이터 통계분석 및 시각화를 위한 통합 데이터 분석 … 3-6...제9회 2016...
TRANSCRIPT
제9회 2016 한국 소프트웨어 아키텍트 대회
2016(제9회) 한국 소프트웨어 아키텍트 대회
빅데이터 통계분석 및 시각화를 위한 통합 데이터 분석 스위트(UDAS) 아키텍처
2016. 7. 21.
회사명 (주)인브레인
발표자 홍세환 부장
제9회 2016 한국 소프트웨어 아키텍트 대회
Agenda
• 빅데이터 활용 개선점 • 통합 데이터 분석 스위트(UDAS) 아키텍처 Overview • 통합 데이터 분석 스위트(UDAS) 아키텍처 가이드
– 수집 프로세스 – 정제 프로세스 – 분석 프로세스 – 시각화 – 통합 메타데이터 관리
• 통합 데이터 분석 스위트(UDAS)의 특징
2
※ 미래창조과학부에서 시행한 정보통신․방송연구개발사업의 결과임
제9회 2016 한국 소프트웨어 아키텍트 대회
빅데이터 활용 개선점
• 일반사용자의 사용성
3
데이터 수집
데이터 가공
데이터 전달
• 분석 Know-How의 휘발성
• 반복 분석의 고비용
• 데이터 처리 단계의 복잡성
데이터 수집
10%
데이터 정제
70%++
통계분석
15%
5%
데이터 정제의 프로세스화
시각화
분석 메타데이터 유실
데이터 수집 데이터 정제 통계분석 시각화
메타 데이터
메타 데이터
메타 데이터
• 데이터 통합 수집기 • 데이터 분해, 정제, 적재 • 수집관리 정책 및 규칙 저장소 • 통합 데이터 저장소
데이터 수집
• 정제 프로세스 디자이너 • 쿼리 / ERD / 매핑 디자이너
• ETL 에이전트 • 데이터 정합성 검증 모듈
데이터 정제
• 분석 모델 디자이너 • 분석 프로세스 자동화 마법사 • 분석 템플릿 관리도구 • 통계 분석 알고리즘 추천 시스템 • 분석 결과 조회 및 배포
통계 분석
• 시각화 제어 모듈 • 통합 메타데이터 관리 도구 • 시각화 그래프 추천 시스템 • 시각화 결과 조회 및 배포
시각화
수집/정제/분석/시각화
제9회 2016 한국 소프트웨어 아키텍트 대회
빅데이터 활용 개선점
• 빅데이터 관련 기술 현황
4
데이터 수집
데이터 적재
데이터 조회SQL
데이터 정제 통계분석 시각화 NoSQL 실시간
데이터분석 Hardware Appliance Crawling
Cloud for Big Data
Informatica Apache Hadoop
2.0 R D3/
Visual.ly Cassandra
SAP Hana
Oracle Exadata
Salesforce.com
Radian6
Amazon (IaaS+
Hadoop)
Talend (Open Studio)
Cloudera (CDH 4.0
Impala 2.0) SAS Qliktech Mongo
CEP Esper
EMC Greenplum
SAS SMA
SoftLayer (IaaS+
Hadoop
IBM InfoSphere DataStage
HortonWorks (Data Plaform 2.0
Stinger) SPSS Micro
Strategy Oracle Teradata Aster
Rackspace (IaaS+
Hadoop)
MapR (M5 hadoop, M7 hbase) Tableau Riak Tibco IBM
Netizza Cloudant (DBaaS)
Splunk (proprietary DB) Spotfire HP APS
Amazon Dynamo (DBaaS)
Sumologic
빅데이터 인프라 빅데이터 서비스
Open Source
유료 SW
데이터 정제
통합 데이터 분석 스위트 (UDAS)
제9회 2016 한국 소프트웨어 아키텍트 대회
통합 데이터 분석 스위트(UDAS) 아키텍처 Overview
• 분석을 위한 UDAS 아키텍처
5
제9회 2016 한국 소프트웨어 아키텍트 대회
통합 데이터 분석 스위트(UDAS) 아키텍처 Overview
6
1
2
3
4
5
6 7
8
통계분석 알고리즘 지속적 추가 반영 시각화 그래프 지속적 추가 반영
• 주요 요소기술 - 수집/정제/분석/시각화
제9회 2016 한국 소프트웨어 아키텍트 대회
통합 데이터 분석 스위트(UDAS) 아키텍처 Overview
• 주요 Layer View
7
Presentation Layer •통합 IDE •ER 디자이너 •쿼리 디자이너 •매핑 디자이너 •분석모델 디자이너 •결과분석 뷰어
Business Layer
•분석관리자 •데이터 연결관리 •데이터 패턴분석 •분석결과 관리 •분석 엔진관리
Data Access Layer
•분석 메타데이터 •쿼리매핑 데이터 •리버스엔지니어링 데이터 •분석 실행 •분석결과 데이터
제9회 2016 한국 소프트웨어 아키텍트 대회
통합 데이터 분석 스위트(UDAS) 아키텍처 가이드
8
• 수집 프로세스
데이터 통합 수집 도구
통합 데이터 수집 모듈
통합 데이터 저장소
데이터 가공
통합 데이터 수집 프로세스 관리 도구
빅데이터
수집 정책 및 규칙 저장소
데이터 수집 정책 복합 데이터 분해 규칙 정보 보호 규칙 데이터 스키마 데이터 전송 정책
메일 데이터 수집 모듈
인터넷 데이터 수집 모듈
SNS 데이터 수집 모듈
RDB 데이터 수집 모듈
로그 데이터 수집 모듈
메일 데이터 수집 가공 적재
인터넷 데이터 수집 가공 적재
SNS 데이터 수집 가공 적재
RDB 데이터 수집 가공 적재
로그 데이터 수집 가공 적재
인터넷 데이터 수집 전문가
메일 데이터 수집 전문가
SNS 데이터 수집 전문가
RDB 데이터 수집 전문가
로그 데이터 수집 전문가
메일 데이터 수집 모듈
인터넷 데이터 수집 모듈
SNS 데이터 수집 모듈
RDB 데이터 수집 모듈
로그 데이터 수집 모듈
통합 데이터 수집 전문가
가공 적재
데이터 통합 수집 도구
중복 작업 (수집 전체 공정의 약 70%)
중복 작업 간소화
최초 수집 행위는 데이터의 저장 장소, 형태에 따라 다양한 방식이 존재하지만 단순 수집 이후 적재 단계까지 약 70%의 작업은 거의 공통적인 경향을 보임. 이런 공통 작업을 통합하여 구조를 단순화/일반화 다양한 수집에 집중
제9회 2016 한국 소프트웨어 아키텍트 대회
통합 데이터 분석 스위트(UDAS) 아키텍처 가이드
9
• 수집 프로세스
멀 티 데이터 수집 모듈
수집모듈 제어기
복합 데이터 분해 모듈
데이터 브로커
데이터 클린징 모듈
정보 보호 모듈
수집 정책 및 규칙 저장소
통합 데이터 저장소
실시간 모니터링 모듈
정책 및 규칙 저장 모듈
데이터 뷰 모듈
수집 데이터 흐름
정책 및 규칙 메타데이터 흐름
처리 및 상태 로그 데이터 흐름
통합 데이터 수집 프로세스 관리 도구
정책 및 규칙 메타데이터 기반의 통합 제어 및 관리 수집 데이터 뷰, 프로세스 실시간 상태 모니터링
정책 및 규칙 메타데이터 관리 (GUI 에디터)
데이터 수집의 효율성 증가 데이터 품질 관리 데이터 수집의 유연성 및 정확성 제공
제9회 2016 한국 소프트웨어 아키텍트 대회
통합 데이터 분석 스위트(UDAS) 아키텍처 가이드
10
• 정제 프로세스 시나리오
전산실
병원 전산 시스템 OCS (Order Communication System) 처방전달시스템
EMR (Electronic Medical Record) 전자의무기록
의사
분석 전문가 부재
환자에 대한 데이터 요청
요청한 데이터
조건 또는 범위 변경 요청
요청한 데이터
데이터 가공 요청
가공된 데이터
1 주
2 주
3 주
4 주
제9회 2016 한국 소프트웨어 아키텍트 대회
통합 데이터 분석 스위트(UDAS) 아키텍처 가이드
11
• 정제 프로세스 원본 데이터를 분석할 수 있는 데이터로 변환하는 과정을 프로세스로 관리하고 재사용
데이터 정제 비용 50% 이상 절감 가능, 데이터 정제 작업 시간 50% 이상 단축 가능
데이터 모델링 도구로 Reverse / Forward 엔지니어링을 통한 정제
• 비정형 및 반정형 데이터 불확실성 내재
• 정형 데이터 데이터의 본질과 의미를 훼손하지 않음.
• 비정형 데이터의 정규화 어떤 속성도 파악되지 않은 비정형 데이터가 최소한의 구조로 저장 될 수 있도록 설계 • 통합성(Integrated) 데이터가 항상 일관된 형태로 유지되고 동일한 명칭으로 다수의 개념을 포함할 수 있도록 데이터를 통합
빅데이터 분석 ODS 데이터 웨어하우스 데이터 마트 분석 모델
• 주제 지향성(Subject Oriented) 데이터 분석 개념과 원리에 따라 주제별로 구성되도록 설계 • 데이터의 의미적 다양성 도출 여러 가지 조합으로 재생산 된 의미를 가지는 분석 대상으로서의 데이터 집합체 설계
• 구체적 반복적 분석을 위한 데이터 구축 분석 작업, 데이터의 의미, 표현 및 사용의 용이성 등의 측면에서 분석가의 명확한 요구에 부합하는 데이터를 제공할 수 있도록 설계
• 체계적인 분석 모델 설계 데이터 설계 측면에서 관리와 가독성이 떨어지는 스크립트 코딩 방식이 아닌, 관리적 GUI 도구를 제공하여 분석 모델 설계
정형, 비정형 및 반정형 데이터
Union Data Model
HDFS (Hadoop)
분석 ODS 데이터 웨어하우스
데이터 마트
분석 모델 분석 결과
제9회 2016 한국 소프트웨어 아키텍트 대회
통합 데이터 분석 스위트(UDAS) 아키텍처 가이드
12
• 정제 프로세스
1 대상 데이터베이스 설계 데이터 원본 쿼리 설계 데이터 매핑 설계
데이터 원본 및 기존 대상 데이터베이스의 메타데이터를 활용한 ERD 설계
ERD 디자이너 쿼리 디자이너
데이터 원본 쿼리 결과 구조
결과 구조 타입 지정
매핑 디자이너
쿼리 결과 구조 항목 선택
항목별 집계 방식 설정
항목배치
데이터 프레임에 데이터 구조 연결
ERD 디자이너
메타데이터
통합 메타데이터 관리
2 3
Source 빅데이터
Target DB 및 분석모델
제9회 2016 한국 소프트웨어 아키텍트 대회
통합 데이터 분석 스위트(UDAS) 아키텍처 가이드
13
• 정제 프로세스 – ER 디자인 ERD 디자이너는 정확한 데이터 모델제작, 데이터의 중복 감소, 생산성을 개선, 표준을 준수
기능 설명
1. ERD 관련 개체 제공 Entity, Relationship, Sub-Type 등 ERD 관련 개체 제공
2. 논리/물리 설계 논리구조와 물리구조 변경 UI 제공
3. 대상 데이터베이스 개체 탐색기 대상 데이터베이스의 데이터 모델 구조 탐색 및 확인
4. 데이터 원본 구조 메타데이터 선택된 데이터 원본의 메타 구조 탐색 및 확인
5 모델정합성 체크 모델의 정합성을 체크
1
데이터베이스 개체 탐색기
데이터 원본 스키마 정보
논리/물리 설계
ERD 작성을 위한 다양한 개체 지원
ERD 디자이너
모델 정합성 체크 2
3 4
5
제9회 2016 한국 소프트웨어 아키텍트 대회
통합 데이터 분석 스위트(UDAS) 아키텍처 가이드
14
• 정제 프로세스 – 쿼리 디자인
데이터 원본 스키마 정보 역공학
데이터 원본 스키마 정보 탐색 창
쿼리 디자이너
ERD 디자이너
1
2
3
4
데이터 원본(하둡 ,데이터베이스 및 파일)을 역공학하여 스키마 정보를 구축하여 사용자에게 제공
정보를 계층 구조 형태로 확인
GUI 도구를 활용한 쿼리 디자이너
데이터 원본의 역공학된 스키마 정보를 ERD로 보여 줌
역공학으로 데이터 원본 스키마 정보를 제공하며, 이 정보는 ERD 뿐만 아니라 엔티티, 관계정보 및 인덱스까지 제공하여 쿼리 설계를 가능하게 함. 쿼리 디자이너는 직관적인 GUI 환경을 제공하며 쿼리를 스크립트로 작성하거나 ERD를 설계하는 방식으로 간편하게 작성할 수 있게 함
제9회 2016 한국 소프트웨어 아키텍트 대회
통합 데이터 분석 스위트(UDAS) 아키텍처 가이드
15
• 정제 프로세스 – 매핑 디자인
쿼리 결과 구조 항목 선택
항목별 집계 방식 설정
항목배치
데이터 프레임에 데이터 구조 연결
기능 설명
1. 대상 데이터베이스 구조 역공학
대상 데이터베이스를 역공학 하여 전체 데이터베이스의 스키마 정보를 획득
2. 데이터 원본 쿼리 결과 스키마 정보 조회
쿼리 메타데이터를 이용하여 데이터 원본 쿼리 결과 스키마 정보를 획득
3. 매핑 메타데이터 생성 및 관리
쿼리 메타데이터와 대상 데이터베이스 스키마 정보를 서로 연결하여 작업 저장함
연결의 기본 원칙은 테이블단위의 매핑이지만, 추출 결과셋의 여러 테이블 간에 동일한 식별자를 지정하고 서로 다른 컬럼들을 조합하여 대상 데이터베이스의 특정 테이블에 매핑할 수 있음. 데이터 원본 쿼리 결과 구조에 대하여 산술 및 집계 연산 지정이 가능함
4. 매핑 메타데이터 구성 정보
매핑 메타데이터는 ETL 에이전트의 동작 단위임
• 데이터 원본 연결 및 인증 정보(암호화) • 데이터 원본 쿼리 • 쿼리 결과 구조 메타데이터 • 대상 데이터베이스 구조 일부 (매핑과 관련한 구조) • 쿼리 결과 구조 및 대상 데이터베이스 구조의 연결 정보(1:1, 비정규화 매핑, 조인 매핑 정보 포함)
데이터 매핑 설계 개념도
데이터 정제 작업은 대부분 스크립트로 이루어져 관리 및 재사용이 어려움 매핑 디자이너를 통해 데이터 원본 쿼리 작성을 간소화하고 쿼리 결과를 대상 데이터베이스 구조와 다양한 방식으로
매핑하여 적재 정보를 생성
제9회 2016 한국 소프트웨어 아키텍트 대회
통합 데이터 분석 스위트(UDAS) 아키텍처 가이드
16
• 정제 프로세스 – ETL
ETL 상세 개념도
하둡 및
데이터베이스
Source
통합 메타
데이터 저장소
매핑 메타데이터
ETL
에이전트
서비스
매핑 디자이너
즉시 적재
쿼리 저장
매핑 정보 저장 데
이터적재
데이터로딩
쿼리 디자이너
Target
데이터베이스 및
분석 모델
ETL 에이전트 동작 개념도
쿼리 메타데이터
데이터 원본
대상 데이터베이스
쿼리 결과 데이터 추출 결과 변환 및 적재
매핑 메타데이터
ETL 에이전트 동작 설정
ETL은 매핑 메타데이터 정보를 기반으로 동작, 쿼리 결과는 메타데이터를 기반으로 대상 데이터베이스에 적재 사용자는 쿼리 디자이너에서 즉시 적재를 실행, ETL 에이전트를 통해 배치 작업으로도 실행 매핑 메타데이터 정보 및 관리자가 설정한 동작 스케줄에 따라 ETL 에이전트가 동작 ETL 에이전트 로그 정보가 기록, 오류 관리, 전체 분석 프로세스의 한 부분으로 동작
제9회 2016 한국 소프트웨어 아키텍트 대회
통합 데이터 분석 스위트(UDAS) 아키텍처 가이드
17
• 분석 프로세스 시나리오
전산실
기간계 시스템
분석 위한 데이터 요청 (요구사항 전달)
요청한 데이터
생산 기획
업무 전문가
분석 전문가
분석 결과
업무 적용
제9회 2016 한국 소프트웨어 아키텍트 대회
통합 데이터 분석 스위트(UDAS) 아키텍처 가이드
18
• 분석 프로세스 – 템플릿 관리 분석 템플릿은 빅데이터 분석 과정에서 발생한 데이터베이스, 쿼리, 매핑 및 분석 모델 메타데이터의 재활용 및 빅데
이터 분석 서비스를 가능하게 함
분석 템플릿 관리 빅데이터 분석 서비스
쿼리
매핑
ERD 결과 뷰
분석 모델
분석 템플릿
분석 템플릿 관리 도구
쿼리 쿼리
쿼리 쿼리
ERD ERD
ERD ERD 분석 모델
분석 모델
분석 모델
분석 모델 매핑 매핑
매핑 매핑
통계 분석 알고리즘 및 시각화 그래프 실행
환경 설정
- 데이터 정제 프로세스 설정 - 통계 분석 설정
분석 템플릿
실시간 분석 결과뷰
데이터 정제 프로세스 별 ETL 실시간 동작
분석 모델 데이터 적재 ETL 실시간 동작
사용자
- 의사 결정 - 모니터링 - 전략 수립
통합 메타데이터
정제 프로세스 메타데이터 분석 모델 메타데이터
제9회 2016 한국 소프트웨어 아키텍트 대회
통합 데이터 분석 스위트(UDAS) 아키텍처 가이드
19
• 분석 프로세스 - 분석자동화
분석 프로세스 자동화 마법사
업무 전문가는 미리 준비된 분석 템플릿을 선택하여 분석 프로세스 자동화 마법사에서 제공하는 단계별 설정 기능을 통해 분석 프로세스의 전 과정을 간소화하여 진행
분석 템플릿 선택
데이터 정제 프로세스 환경설정
분석 모델 환경설정 분석실행 결과조회
• 분석 영역 별로 제공하는 분석 템플릿 선택
• 프로젝트에 필요한 사항 식별
• 데이터 정제 프로세스 변경 가능
• 데이터 정제 단계별 데이터 원본 및 대상 데이터베이스 설정
• 정제 프로세스 무결성 자동 검증
• 통계 분석 결과 및 시각화 그래프 개별 확인
• 분석 및 시각화 결과뷰 조회
• 분석 모델 데이터 적재 및 분석 실행 주기 설정
• 분석 및 시각화 결과 뷰 배포 설정
• 통계 분석 알고리즘 및 시각화 그래프 변경 기능
• 분석 및 시각화 결과뷰 커스트마이징
•분석 템플릿을 적용한 분석 프로세스 자동화 마법사를 통해 업무 전문가가 분석 작업에 바로 착수
•분석 결과 측면에서 검증된 분석 템플릿을 사용하면 업무 전문가는 분석 결과 보고서, 대시보드 및 모니터링 화면을
스스로 제작할 수 있음
제9회 2016 한국 소프트웨어 아키텍트 대회
통합 데이터 분석 스위트(UDAS) 아키텍처 가이드
20
• 분석 프로세스 – 통계 알고리즘 자동추천
입력 데이터 (input Data)
데이터 타입 검사 (Check Data Type)
응답 변수 결정 (Determine Response
Variable)
사용 가능한 통계 분석 알고리즘 검색
(Find Available Package)
Elements type
Stack type
Class S3 S4
Vector
Numeric
Data.frame Array List
Factor character
Generalized linear regression
T-test Continuous
Discrete
Multivariate
Linear regression ANOVA
Kernel smoothing
Machine learning Cochran Mental Henzel test
Generalized estimating equation
Linear mixed effect model
Generalized linear mixed effect model
Multivariate linear regression Principal component analysis
Fourier analysis Weibull
Generalized estimating equation
Survival
Clustering Factor analysis Multi dimensional scaling CART
stats
stats Continuous
Discrete
Multivariate
MASS fftw
lme4
MASS RandomForest
e1071
glmnet
lme4
skmeans pscore
reliaR survival
car
KernSmooth
FactoMineR mclust smacof
blme glmnet
glmmlasso lm.br robustlmm CLME
cplm
arm
nplr
kknn
stats rmgarch
gee nnet
ordinal
cclust
MVN bootSVD
통계알고리즘의 추천은 입력데이터의 데이터 타입을 검사하여 데이터의 유형에 맞는 알고리즘을 추천, 데이터전문가인 경우 직접 알고리즘 선택도 가능
Analysis Server
With R Engine
제9회 2016 한국 소프트웨어 아키텍트 대회
통합 데이터 분석 스위트(UDAS) 아키텍처 가이드
21
• 분석 프로세스 – 알고리즘, 그래프 자동 추천 분석 모델의 데이터 스키마와 통계 분석 알고리즘 및 시각화 그래프의 메타데이터를 이용하여 추천 기능을 제공. 분석가가
구성한 분석 모델의 데이터 스키마 및 실제 데이터의 유형을 자동으로 파악하여 실행 가능한 통계 분석 알고리즘 및 시각화 그래프를 추천
통계 분석 알고리즘 및 시각화 그래프 추천 시스템 개념도
데이터 유형 별 통계 분석 알고리즘 및 시각화 그래프 룰 기반 매핑 DB
데이터 유형 분석
통계 분석 알고리즘 및 시각화 그래프 메타데이터
추천된 통계 분석 알고리즘 및 시각화 그래프
•데이터 유형 별 통계 분석 알고리즘
및 시각화 그래프의 룰 기반 매핑
DB 구축 (지속적인 추가 반영)
•데이터의 유형에 따른 가설 검정과
통계 기법 및 시각화 그래프를 1차
정리
• 2차로 통계 분석 알고리즘을 통계
기법 기준으로 분류
• 최종적으로 데이터 유형에 따른 통계
분석 알고리즘 및 시각화 그래프의
관계를 지식화하여 룰 기반 매핑
DB로 구축
분석 모델
통계 분석 알고리즘 및 시각화 그래프 추천 시스템
데이터 유형 정보
분석가
제9회 2016 한국 소프트웨어 아키텍트 대회
통합 데이터 분석 스위트(UDAS) 아키텍처 가이드
22
• 분석 프로세스 – 엔진 서버 서비스 분석 실행 시 분석 모델의 구성 데이터 크기 및 분석 종류에 따라 개인 PC에서는 처리 하지 못하는 경우 분석 엔진 서버 서비스
를 통해 처리
분석 엔진 서버 서비스
Client
Smart client
• 개별 분석 실행 • 분석 프로세스 자동화 마법사 • 결과 조회
UDAS
• 분석 프로세스 자동화 마법사 • 결과 조회
분석 포털 Site
Web Application
Application Server
Web Hosting
• 서버 모니터링 • 분석 상태 모니터링 • Data Access
분석 서버 제어
• 분석 관리 서비스
분석 작업 관리
• 분석 서버 상태 정보 • 분석 요청 서버 배정 • 우선 순위 관리 • 작업 취소
분석 요청 큐 관리
분석 모델 관리
• 분석 이력 • 분석 결과 관리
분석 상태 관리
• 분석 진행 상황 정보 • 분석 상태에 따른 Notice
오류 및 진단
• 오류 처리 및 Notice • 무한 처리 및 대기 감지
분석 관리 서비스
Analysis Server
With R Engine
Analysis Server
With R Engine
Analysis Server
With R Engine
제9회 2016 한국 소프트웨어 아키텍트 대회
통합 데이터 분석 스위트(UDAS) 아키텍처 가이드
23
데이터를 시각화하는 방법은 굉장히
많음. flowingdata.com에서 어떤 툴
로 시각화를 하는지 설문 결과
마이크로소프트의 엑셀과 R이 과반을
넘고 있는 상황
엑셀은 훌륭한 도구이지만 빅데이터를
분석하기엔 적합하지 않음
R은 엑셀만큼 손쉽게 빅데이터를 분석
하기 어려움
업무 전문가들을 위한 최적의 솔루션
필요
사용하고 싶은 분석 및 시각화 툴
[자료 : flowingdata.com]
• 시각화 - 분석 시각화 도구
제9회 2016 한국 소프트웨어 아키텍트 대회
통합 데이터 분석 스위트(UDAS) 아키텍처 가이드
24
• 시각화
분석 결과뷰 배포
통계 분석 및 시각화 결과뷰를 분석 포털에 배포하여 사용자에게 공유
- 분석 결과 편집 - 분석 결과 배포
- 의사 결정자 - 조직 구성원 - 분석 결과 리서치 - 재분석
•분석가는 여러 결과 중 특정 분석 및
시각화 결과뷰를 분석 포털에 공유할
수 있음
•결과뷰를 분석 포털에 배포 시 특정
그룹 및 사용자에게만 공개할 수
있도록 권한 제어
• 배포된 분석 및 시각화 결과뷰에
대해서 사용자는 분석 모델을
재구성하여 새로운 분석을 진행 할
수 있음. 이 기능은 분석 프로세스
자동화 마법사를 통해 진행 됨
사용자
분석 결과 DB 분석 결과 조회 및 관리
클라우드 배포 및 공유
CLOUD
분석 포털
제9회 2016 한국 소프트웨어 아키텍트 대회
통합 데이터 분석 스위트(UDAS) 아키텍처 가이드
25
• 통합 메타데이터 관리 분석 프로세스에서 발생한 개별적인 메타데이터는 통합 메타데이터 저장소에서 관리되며, 각 메타데이터를 재구성하고 통합
하여 정형화된 구조의 분석 템플릿 생성 및 관리
정보 정의 메타데이터 관리 메타데이터 활용
분석가
관리자
설계자
업무 전문가
분석 프로세스 실행 및 분석 서비스 구축
분석 프로세스 관리 정보
분석 프로세스 구축 및 재활용
분석 프로세스 자동화 마법사를 통한 분석
분석 템플릿
쿼리
매핑
ERD 분석모델
통합 메타데이터 저장소
분석 템플릿 ERD 정보
ERD ERD
ERD ERD
쿼리 정보
쿼리 쿼리
쿼리 쿼리
매핑 정보
매핑 매핑
매핑 매핑
분석모델 정보 분석 모델
분석 모델
분석 모델
분석 모델
제9회 2016 한국 소프트웨어 아키텍트 대회
통합 데이터 분석 스위트(UDAS)의 효과
26
일반 사용자 분석(End User Analytics) 환경 제공 업무 전문가가 쉽고 빠르게 빅데이터를 분석할 수 있는 환경 제공
일반 사용자도 손쉽게 빅데이터를 분석할 수 있는 일반 사용자 분석 환경 제공
데이터 정제 프로세스 관리 및 정제 도구 데이터 분석을 위한 데이터 정제 프로세스 관리 및 재사용 가능 환경 제공
데이터 정제 작업 관리 도구 (데이터 정제 프로세스 디자이너)
데이터 정제 작업 시간/비용 50% 이상 단축/감소 및 직관적인 데이터 정제 기능 제공
수집부터 분석까지 모든 작업을 지원하는 통합 데이터 분석 스위트 빅데이터 분석을 위해 데이터 수집, 정제, 통계 분석 및 시각화를 위한 기능을 통합 제공
개별 작업의 연관성 및 검증은 메타데이터를 기반으로 연결 및 검증
분석 전문가뿐만 아니라 업무 전문가도 통계 분석 및 시각화가 가능
빅데이터 수집부터 분석 결과 배포까지 통합된 스위트 제공 (IDE)
마법사를 통한 손쉬운 데이터 통계 분석 및 시각화 통계 분석 알고리즘 추천 시스템과 시각화 그래프 추천 시스템을 통해 손쉬운 데이터 통계 분석 및 시각화 가능
메타데이터를 기반으로 통계 분석 및 시각화 프로세스를 단순화 시킴
외산 빅데이터 분석 솔루션 대체 효과 증가하는 외산 빅데이터 분석 솔루션을 국산으로 대체
빅데이터 시장에서의 Win-Win 전략 (사업자 수익성 제고 + 고객사 비용 절감 + 고객사 신뢰도 확보 )
제9회 2016 한국 소프트웨어 아키텍트 대회
Q & A
27