빅 데이터 분석의 새로운 패러다임을 제시합니다 · 빅 데이터 분석의...

10
ZDNet Korea Tech Inside 빅 데이터 분석의 새로운 패러다임을 제시합니다 Powered by

Upload: others

Post on 26-Sep-2019

5 views

Category:

Documents


0 download

TRANSCRIPT

ZDNet Korea Tech Inside

빅 데이터 분석의 새로운 패러다임을 제시합니다

Powered by

빅 데이터 분석의 새로운 패러다임을 제시합니다.2

Bigdata Cluster Part

Cubedoop ClusterTM

BICube는 빅데이터 머신러닝 플랫폼을 보유한 회사로써 빅데이터 머신러닝 플랫폼 내에 파일을 저장

하고 MapRedue를 실행 해야 하는 요소가 필 수였다. 이에 BICube는 플랫폼 내에서 안정성과 성능, 그

리고 효율성을 위해서 Apache Hadoop 을 이용해 Cubedoop Cluster™라는 빅데이터 클러스터 플랫

폼을 만들었으며, 자체 빅데이터 클 러스터를 개발 운영하면서 축적한 노하우를 바탕 으로 Cubedoop

Cluster™를 상품화 했다.

Cluster Appliance

Cubedoop Cluster™ 는 Rack 단위로 확장 해 갈 수 있는 S/W & H/W 일체형의 Cluster Appliance

이다. 일단 Cluster 전문가에 의해 고객의 문제 해결 에 적합한 클러스터 사이즈가 결정되면, 성능 최적

화 H/W Spec을 따라 구성된 Cluster 위에 최적화 Parameter를 갖는 Cubedoop이 얹어진 Cubedoop

Cluster™이 고객에게 제공 된다.

Cluster S/W 특징

Cubedoop 최적화 파라메터 가이드를 통해 각 클러스터 타입에 맞는 Cubedoop Cluster가 세팅 이 되며,

일정 주기 별로 Cubedoop 설정 파라메터 에 대한 평가가 클러스터 사용자에게 레포팅되어 분산작업 시

간을 최소화 시켜준다. 또한 다른 Hadoop 배포판과 마찬가지로 노드들 을 효율적으로 관리 할 수 있는

모니터링 Tool이 별도로 제공이 되며, 분산 Job 처리시에 각 노드로 분산되는 로깅을 일괄적으로 편하게

확인 할 수 있 는 등 Job 처리 편의성을 높였다.

Cluster H/W 특징

클러스터를 구성하는 노드들의 하드웨어 관리를 편하고 효율적으로 하기 위해서 메인보드와 하드 디스

크 그리고 파워서플라이를 분리 시켜 그룹화 했으며, 각 노드들의 상태(Status)와 전력 상태등 을 전담

모니터링하는 서버를 각 Rack 마다 하나 씩 추가했다. 그 결과 고장난 노드 교체 비용을 최 소화 했으며,

복잡한 클러스터 운영을 많은 부분 단순화 시켰다.

빅 데이터 분석의 새로운 패러다임을 제시합니다. 3

Cluster 종류(노드수)

Type – A : 16 * 8 = 128 nodes

Type – B : 16 * 16 = 256 nodes

Type – C : 16 * 24 = 384 nodes

Type – D : 24 * 24 = 576 nodes

Cluster 종류

표준형 : 실행 잡이 CPU 계산 혹은 파일 I/O 작업 어느 한쪽으로 편중 되지 않고 분산처리 작업의 유 형

이 다향한 경우 선택 CPU 편중형 : 데이터 마이닝 혹은 파생 데이터를 이용한 계산이 많은 경우 선택

(예: 자연어처리, HPPC) I/O 편중형 : 파일 입/출력이 많은 작업의 비중이 높은 경우 선택 (예:전형적인

MapReduce job, Sorting)

Appliance + 지원 서비스

거대 규모의 빅데이터 클러스터를 안정적으로 운 영하기 위해서는 클러스터 전문가의 기술이 절대적 으

로 필요하다. 일반적으로 클러스터 운영의 노하우는 오랜 기간 에 걸쳐 쌓이기 때문에 빅데이터 클러스

터 전문가 를 보유하기가 쉽지 않은 고객사는 빅데이터 클러 스터 도입을 망설일 수 밖에 없다. 당사는

고객사에 대한 빅데이터 클러스터 전문가 의 지속적인 지원 계획을 통해, 빅데이터 클러스터 어플라이언

스를 도입한 고객이 안정적인 클러스터 운영을 보장 받을 수 있도록 최대한 노력할 것이다.

CubePi ClusgterTM

CubePi Cluster는 분산처리의 성능을 벤치마킹하 기 위해 BICube가 디자인한 Raspberry Pi 2 Cluster

에서 시작되어 상품화 되었다. Raspberry Pi 2 각각의 성능은 PC와 비교가 안될 정도로 미약하지만

다수의 Raspberry Pi 2가 클러 스터링 됐을 때 분산처리의 성능은 엔터프라이즈 용도로도 손색이 없

을 정도로 훌륭하다. BICube는 CubePi Cluster™의 잠재적 고객 니 즈를 예상해 제품화했다. (HPCC

(HighPerformance Computing Cluster), or DAS (Data Analytics Supercomputer)

빅 데이터 분석의 새로운 패러다임을 제시합니다.4

BICubeTM: 빅데이터 머신러닝 플랫폼 Part

BICube™는 빅데이터 비즈니스 모델을 고객의 니즈에 맞게 One-stop 으로 구현하기 위한 빅데이터 머

신러닝 플랫폼이다.

빅데이터 솔루션의 한계

대부분의 빅데이터관련 솔루션들은 단일 기능을 구현 하는데 촛점이 맞춰져 있기 때문에 원하는비즈니

스 모델을 구현하기 위해서는 아키텍터가 다양한 솔루션을 직접 선택해서 조합해야한다. 이러한 상황은

툴간의 호환성 문제와 솔루션 추가 구매 시 발생하는 비용문제 그리고 새롭게 추가된 솔루션의 안정적인

운영과 기술지원등 다양한 이슈를 야기하게 되고 결국 고객이 원하는 빅데이터 비즈니스 모델을 구현하

는데 어려움을 겪을 가능성이 높아지게 된다.

BICubeTM: 단일 플랫폼

BICube™는 각각의 기능별 레이어가 합해진 단일 빅데이터 플랫폼이다.

▶ Layer 1 - 데이터 추출, 변환 및 로딩

▶ Layer 2 - 데이터 저장

▶ Layer 3 - 머신러닝 엔진

▶ Layer 4 - 애플리케이션 레이어 (비즈니스 모델이 구현되는 레이어) 이렇게 Vertical 한 구조를 갖는

빅데이터 플랫폼은 세계에서도 유일한 플랫폼이며 비즈니스 모델 구현 이 단일 플랫폼에

서 이뤄진다.

빅 데이터 분석의 새로운 패러다임을 제시합니다. 5

다양한 데이터 커넥터 다양한 데이터 커넥터

빅데이터 분석 플랫폼에서 데이터의 연결은 가장 기본이며 중요한 부분이다. BICube™의 기본데이터

저장소인 HDFS로 데이터를 가져오기 위한 다양한 데이터 커넥터가 제공 되며 이를 이용하여 다양한 소

스의 데이터를 BICube™로 가져 올 수 있다.

리얼타임 스트리밍

BICube™는 실시간 분석을 위해 스트리밍을 위한 오픈소스를 다수 채택하고 있으며, 성능 향상을 위해

자체적으로 개발된 스트리밍 처리 모듈도 보유하고 있다.

데이터 변환 모듈

정형데이터를 전처리 하는 다양한 데이터 변환 모듈 이 내장되어 있어 플랫폼 안에서 기본적인 데이터

변 환을 간편하게 수행할 수 있다. - 데이터 탐색기, table 관련 연산, row/column 연산, summary 연산,

릴레이션 연결등.

Cubedoop

BICube™는 기본 저장소로 Hadoop을 사용한다. Apache에서 제공되는 Hadoop을 그대로 엔터프라

이즈 용으로 사용하면 운영상 번거로운 점들이 많이 있다. Hadoop의 원활한 모니터링과 관리를 위해

Cubedoop 이라는 BICube에 특화된 Hadoop 배포판을 만들었으며 BICube™의 저장소로 사용된다.

왜 머신러닝인가?

업계에서 빅데이터 붐이 시작된지 4~5년이 다 되어 가지만 아직 이렇다할 빅데이터 관련 성공 사례가 전

무 하다시피 하다. 빅데이터 관련 성공사례가 없는 가장 큰 이유는 비즈니스 접근이 잘못됐기 때문이다.

많은 사람들이 빅데이터 비즈니스를 과거 그대로의 데이터 분석 모델에 분석할 데이터만 많아진 상태로

인지했다. 이러한 답보 상태에서 벗어나게 해줄 가장 중요한 Key가 바로 머신러닝이다. 분석대상이 되

는 엄청난 데이터위에 머신러닝의 기술이 올라가면 이전에 생각하지 못했던 새로운 가치들이 창출 될 수

빅 데이터 분석의 새로운 패러다임을 제시합니다.6

있다. 실제로 여러 회사들이 머신러닝을 이용해서 새로운 비즈니스를 만들고 있으며 활용사례도 보고되

고 있다.

비즈니스 로직의 구현

BICube™의 애플리케이션 레이어는 프레임워크의 가장 상위 레이어로써 비즈니스 로직이 구현되는 레

이어다. 총 8개의 그룹으로 나눌 수 있으며 각 그룹의 역할은 아래와 같다.

▶ Manipulation: 각종 리모트 시스템 제어관련 컴포넌트 (java, Spark, Scalar, Python, R, Hadoop,

Graph)

▶ Mashup: 데이터 커넥터와 크롤러, 오픈API 컴포넌트

▶ Preprocess: 자연어처리, 각종파서, 인코더 컴포넌트

▶ Classify: 각종 분류 알고리즘이 구현된 컴포넌트

▶ Cluster: 각종 군집 알고리즘이 구현된 컴포넌트

▶ Associate: 연관분석 관련 알고리즘이 구현된 컴포넌트

▶ Bioinfomatic: 바이오 분석을 위한 컴포넌트

▶ Visual: 각종 시각화 컴포넌트 → 각 컴포넌트들을 이용하여 고객이 원하는 비즈니스 모델을 구현할

수 있다.

빅 데이터 분석의 새로운 패러다임을 제시합니다. 7

왜 머신러닝인가?

리카온-에프(Lycaon-F)는 이상금융거래 탐지를 위해 (주)비아이큐브에서 제작한 Neural Stream-

FDS(Fraud Detection System) 어플라이언스이다.

NeuralStream 구조 채택

Neural Steam은 복잡한 대량의 데이터를 빠르고 정확하게 처리하기 위해 고안된 BICube만의 독자적

인 스트림 처리 방식이다.

뇌신경이 동작하는 방식에 아이디어를 얻어 만들어 졌으며 기능단위의 뉴런들을 원하는 순서와 구조로

구성할 수 있다.

[Neural Stream에서 뉴런]

입력을 받아들여 연산/저장 후 결과를 내보내는 가장 작은 단위의 계산 유닛

NeuralStream 특징

▶ 빠른 스트림 처리

뉴런 - 초당 최대 200만 메세지 처리

▶ 뉴런을 서로 이어서 원하는 동작을 구현

→ 프로그래밍 언어 방식의 코딩 아님

→ 프로그래밍이 힘든 기능을 구현 가능

→ 일부 CQL(continuous query language)방식처리

▶ 분산처리 가능

→ 뉴런의 기능그룹을 코텍스로 묶어서 원하는 만큼 복제 가능

▶ 가독성 높음

→ 뉴런의 구성을 GUI 작업 공간에서 한눈으로 조망할 수 있음

FDS part

빅 데이터 분석의 새로운 패러다임을 제시합니다.8

사용자 프로파일 생성

모든 사용자의 거래 프로파일, 고객속성 프로파일, 기기정보 프로파일을 실시간 분석하면서 검사한다

FP를 낮추기 위한 기법

▶ Danger Zone

Danger Zone 이라는 용어는AIS(인공면역시스템) 의 Danger Theory에서 사용되는 용어이다.

Danger Theory는 면역 시스템이 위험을 감지했을 때 항원이나 외부 침입자를 kill하는 하는 매커니

즘으로써 이상 거래가 의심되는 트랜젝션을 Danger Zone으로 넘겨서 재 검사 함으로써 탐지 정확

도를 높인다.

Danger Zone → AIS(인공면역시스템)으로 구성

▶ Artificial Immune System(AIS)

인간의 면역체계의 메커니즘을 그대로 재현한 인공면역시스템을 오탐/과탐을 낮추는데 사용

빅 데이터 분석의 새로운 패러다임을 제시합니다. 9

False Positive & False Negative

구분 오류 종류 결과

False Positive정상 → 사기

(과탐)정상거래 차단고객항의 빈발

False Negative사기 → 정상

(오탐)사기거래발생

은행 피해

기존 FDS와의 차별성

기존 FDS NeuralStream FDS

Batch 처리 ○ ○

실시간 Stream 처리 △ ○

Low Latency × ○

온라인 러닝 × ○

머신러닝 × ○

분산처리 △ ○

Scal Out × ○

유연한 기능 확장 × ○

•주소: 서울시 서초구 반포대로12길 33 305호

•구매 및 상담 문의: 070-7568-1166

•E_mail: [email protected]

•홈페이지: www.bicube.co.kr