ankus 제품소개서 1개발배경

2

01. 제품 개발 배경

Table of Contents

4

정보기술(IT)의 발달로 다양한 형태의 대용량 데이터를 신속히 처리해야 하는 환경에 직면 하게 되면서,

빅데이터 1세대에서는 데이터의 3가지 특징 (Volume, Velocity, Variety)에 주목하게 되었습니다.

이러한 배경속에서 ‘하둡과 같은 빅데이터 시스템(인프라)’분야가 빠르게 발전했습니다.

1. 1 빅데이터의변화

빅데이터의 3V

5

빅데이터 2세대에서는 데이터에 숨어있는 ‘가치’를 찾는 일 에 집중합니다.

대용량의 데이터를 수집하고 관리하던 문제는

기업이 보유한 데이터에서 핵심 가치를 찾아내는 문제로 발전했습니다.

이제는 데이터로부터 숨겨진 ‘가치’를 찾기 위한 ‘데이터 분석 기술’이 필요 한 때입니다.

1. 1 빅데이터의변화

빅데이터의 4V

KNOWLEDGE

6

1. 2 전통적데이터분석도구

GUI 기반데이터마이닝 / 기계학습분석 스크립트언어기반통계/ 응용분석및시각화

워크플로우기반데이터마이닝 / 기계학습분석

IBM SPSS Modeler SAS Enterprise Miner ECMiner

WEKA R (Rstudio)

빅데이터가나타나기이전부터데이터

에숨어있는새롭고, 가치있고, 유용한

정보를찾기위한노력은계속되어왔으

며, 데이터마이닝/ 기계학습은가장중

요한데이터분석기법으로자리잡았

습니다.

데이터마이닝/기계학습기반의데이

터분석을위해서전통적으로WEKA,

R, SAS Enterprise Miner,

ECMiner, IBM SPSS Modeler

등이사용되어왔습니다.

7

1. 3 전통적데이터분석도구의한계

데이터 전처리 요청

하둡기반빅데이터인프라

…namenode datanode-1 datanode-2 datanode-3 datanode-n

전처리 데이터 추출

관리

데이터수집및분석서버

전통적도구를이용한

빅데이터분석

분산/병렬처리인프라

에서의분석필요

• 분석하고자 하는데이터의 전처리 및추출 작업필요

• 분석 수행을 위한 별도의 서버 필요• 분석 서버 용량을 초과하는 대용량데이

터 처리불가

Hadoop 기반의 분산 빅데이터 환경

전통적데이터분석도구들은분석도구

가설치된개별서버에서분석이이루어

집니다.

하둡과같은빅데이터인프라와데이터

연계는가능하지만, 분석자체를하둡의

분산·병렬처리인프라에서수행하지못

하고, 별도의분석서버에서수행해야

합니다.

이때문에, 하둡기반의빅데이터환경

에서직접운용가능한분산기반데이

터분석도구들의필요성이대두되었습

니다.

8

HbaseColumnar

Store

HCatalogMeta Data

MapReduceDistributed Processing

Framework

1. 4 하둡기반데이터분석도구

* Apache Hadoop Ecosystem

AmbariProvisioning, Managing and Monitoring Hadoop Clusters

OozieWorkflow

HDFSHadoop Distributed File System

TajoReal-timeSQL Query

ImpalaReal-time SQL Query

HiveSQL Query

PigScripting

MahoutData Mining

Zookeeper

Coordination

AvroData

Serialization System

HihoData

Exchanger

ScoopData

Exchanger

ChukwaLog Collector

FlumeLog Collector

하둡 작업에 대한워크 플로우 관리 SQL/Script/CLI 기반 데이터 분석

빅데이터분산관리/처리환경인하둡

시스템에서운용가능한데이터분석도

구로는Pig, Hive, Mahout, Tajo,

Impala 등이있으며,

워크플로우관리를위한도구로는

Oozie가있습니다.

이중Mahout은유일하게데이터마

이닝/ 기계학습기반의데이터분석이

가능한도구로알려져있습니다.

9

1. 5 하둡기반데이터분석도구의출현배경

하둡기반의분석도구들은전통적데이

터분석도구와같이별도의분석서버

를이용하지않고, 하둡기반빅데이터

인프라내에서분석을직접수행할수

있도록하는기능을제공합니다.

특히, 하둡기반빅데이터인프라에서

데이터마이닝/ 기계학습분석이가능

한도구로mahout의한계점을극복

하기위한ankus가개발되었습니다.

데이터 전처리 및 추출 데이터 분석 등 알고르즘 수행

전통적도구기반의데이터분석

데이터수집및분석서버

하둡인프라기반의데이터분석

• 전처리 및 추출 등 처리기반데이터 분석 도구

• 데이터 마이닝/ 기계 학습기반 데이터 분석 도구

하둡기반빅데이터인프라

…namenode datanode-1 datanode-2 datanode-3 datanode-n

관리

Hadoop 기반의 분산 빅데이터 환경

ankus 제품소개서 1개발배경

Technology