ankus 제품소개서

21
ANKUS 오픈소스 웹 기반 빅데이터 마이닝 도구 제품소개서

Upload: onycom1

Post on 25-Jan-2015

548 views

Category:

Technology


6 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Ankus 제품소개서

ANKUS오픈소스웹기반빅데이터마이닝도구

제품소개서

Page 2: Ankus 제품소개서

1

01. 제품개발배경

02. 제품소개(ankus)

Table of Contents

03. 별첨

Page 3: Ankus 제품소개서

2

정보기술(IT)의 발달로 다양한 형태의 대용량 데이터를 신속히 처리해야 하는 환경에 직면 하게 되면서,

빅데이터 1세대에서는 데이터의 3가지 특징 (Volume, Velocity, Variety)에 주목하게 되었습니다.

이러한 배경속에서 ‘하둡과 같은 빅데이터 시스템(인프라)’분야가 빠르게 발전했습니다.

1. 1 빅데이터의변화

빅데이터의 3V

Page 4: Ankus 제품소개서

3

빅데이터 2세대에서는 데이터에 숨어있는 ‘가치’를 찾는 일 에 집중합니다.

대용량의 데이터를 수집하고 관리하던 문제는

기업이 보유한 데이터에서 핵심 가치를 찾아내는 문제로 발전했습니다.

이제는 데이터로부터 숨겨진 ‘가치’를 찾기 위한 ‘데이터 분석 기술’이 필요 한 때입니다.

1. 1 빅데이터의변화

빅데이터의 4V

KNOWLEDGE

Page 5: Ankus 제품소개서

4

1. 2 전통적데이터분석도구

GUI 기반데이터마이닝 / 기계학습분석 스크립트언어기반통계/ 응용분석및시각화

워크플로우기반데이터마이닝 / 기계학습분석

IBM SPSS Modeler SAS Enterprise Miner ECMiner

WEKA R (Rstudio)

빅데이터가나타나기이전부터데이터

에숨어있는새롭고, 가치있고, 유용한

정보를찾기위한노력은계속되어왔으

며, 데이터마이닝/ 기계학습은가장중

요한데이터분석기법으로자리잡았

습니다.

데이터마이닝/기계학습기반의데이

터분석을위해서전통적으로WEKA,

R, SAS Enterprise Miner,

ECMiner, IBM SPSS Modeler

등이사용되어왔습니다.

Page 6: Ankus 제품소개서

5

1. 3 전통적데이터분석도구의한계

데이터 전처리 요청

하둡 기반 빅데이터 인프라

…namenode datanode-1 datanode-2 datanode-3 datanode-n

전처리 데이터 추출

관리

데이터수집및분석서버

전통적도구를이용한

빅데이터분석

분산/병렬처리인프라

에서의분석필요

• 분석하고자 하는데이터의 전처리 및추출 작업필요

• 분석 수행을 위한 별도의 서버 필요• 분석 서버 용량을 초과하는 대용량데이

터 처리불가

Hadoop 기반의 분산 빅데이터 환경

전통적데이터분석도구들은분석도구

가설치된개별서버에서분석이이루어

집니다.

하둡과같은빅데이터인프라와데이터

연계는가능하지만, 분석자체를하둡의

분산·병렬처리인프라에서수행하지못

하고, 별도의분석서버에서수행해야

합니다.

이때문에, 하둡기반의빅데이터환경

에서직접운용가능한분산기반데이

터분석도구들의필요성이대두되었습

니다.

Page 7: Ankus 제품소개서

6

HbaseColumnar

Store

HCatalogMeta Data

MapReduceDistributed Processing

Framework

1. 4 하둡기반데이터분석도구

* Apache Hadoop Ecosystem

AmbariProvisioning, Managing and Monitoring Hadoop Clusters

OozieWorkflow

HDFSHadoop Distributed File System

TajoReal-timeSQL Query

ImpalaReal-time SQL Query

HiveSQL Query

PigScripting

MahoutData Mining

Zookeeper

Coordination

AvroData

Serialization System

HihoData

Exchanger

ScoopData

Exchanger

ChukwaLog Collector

FlumeLog Collector

하둡 작업에 대한워크플로우관리 SQL/Script/CLI 기반 데이터 분석

빅데이터분산관리/처리환경인하둡

시스템에서운용가능한데이터분석도

구로는Pig, Hive, Mahout, Tajo,

Impala 등이있으며,

워크플로우관리를위한도구로는

Oozie가있습니다.

이중Mahout은유일하게데이터마

이닝/ 기계학습기반의데이터분석이

가능한도구로알려져있습니다.

Page 8: Ankus 제품소개서

7

1. 5 하둡기반데이터분석도구의출현배경

하둡기반의분석도구들은전통적데이

터분석도구와같이별도의분석서버

를이용하지않고, 하둡기반빅데이터

인프라내에서분석을직접수행할수

있도록하는기능을제공합니다.

특히, 하둡기반빅데이터인프라에서

데이터마이닝/ 기계학습분석이가능

한도구로mahout의한계점을극복

하기위한ankus가개발되었습니다.

데이터 전처리 및 추출 데이터 분석 등 알고리즘 수행

전통적도구기반의데이터분석

데이터수집및분석서버

하둡인프라기반의데이터분석

• 전처리 및 추출 등 처리기반데이터 분석 도구

• 데이터 마이닝/ 기계 학습기반 데이터 분석 도구

하둡 기반 빅데이터 인프라

…namenode datanode-1 datanode-2 datanode-3 datanode-n

관리

Hadoop 기반의 분산 빅데이터 환경

Page 9: Ankus 제품소개서

8

2. 1 ankus

워크플로우기반하둡

분석및운영관리

분산기반데이터마이닝및

기계학습분석알고리즘

하둡클러스터관리

및모니터링

분산빅데이터환경에서운용가능한

웹기반빅데이터마이닝도구

분산기반데이터마이닝및기계학습분석알고리즘기술

웹UI 기반워크플로우작성및관리모듈

하둡데이터관리및작업수행모니터링

ankus는하둡기반의분산빅데이터

환경에서데이터마이닝/ 기계학습분

석을할수있도록하는웹기반빅데이

터마이닝도구입니다.

ankus는mahout과같이데이터마

이닝/기계학습분석기능을제공하는

것외에하둡에코시스템인oozie,

ambari의주요기능을하나의프레임

워크안에서제공함으로써빅데이터분

석을위한통합환경을구축할수있습

니다.

Page 10: Ankus 제품소개서

9

지속적으로다양한데이터마이닝/기계학습알고리즘을추가/개발하여제공하고, 다양한분야에의적용을위한자연어

및SNS처리분석기능, 시각화기능등을제공할예정입니다.

ankus는하둡기반의분산빅데이터

환경에서운용할수있는기술로써

S/W아키텍처는다음그림과같습니

다.

현재까지는기초통계및데이터전처리,

데이터유사/상관분석, 데이터마이닝/

기계학습분석, 개인화추천분석기능

과웹워크플로우기반의분석및하둡

관리인터페이스를제공합니다.

ankus framework

Hadoop Platform

Operating System

H/W and N/T Infra structure

ankus core

Visualization UI module

Personalization / Recommendation NLP/SNS Analysis

Data Mining and Machine LearningStatistics and Preprocessing

Statistics and Preprocessing

2. 2 ankus architecture

Page 11: Ankus 제품소개서

10

DATA 분석결과알고리즘

2. 3 주요기능–알고리즘 : 기초통계및전처리분석

주요분석수행하기이전에기초통계

를이용한데이터1차분석및데이터전

처리를수행할수있는알고리즘이제

공됩니다.Numeric Statistics벡터기반수치형데이터기초통계수치산출

합계, 평균, 분산, 표준편차, 최대·최소값

등의기초통계정보제공

선택한속성값의빈도수와비율정보

제공

선택한속성값의확신도기반합정보

제공

Nominal Statistics벡터기반범주형데이터기초통계(빈도수와비율) 수치산출

Normalization벡터기반수치형데이터정규화(Min/Max기반) 수행

Certainty Factor based Sum벡터기반수치형데이터확신도합계산출

전처리가필요한속성을선택하여정

규화작업수행

Page 12: Ankus 제품소개서

11

2. 3 주요기능–알고리즘 : 데이터마이닝/기계학습분석

데이터마이닝/기계학습에서대표적으

로사용되고있는유사/상관분석과군

집/분류분석을수행할수있는알고리

즘이제공됩니다.

DATA 분석결과

Boolean Similarity/Correlation특징벡터기반바이너리형데이터유사/상관분석

바이너리형자료 u와w의유사정도

를자카드계수, 다이스계수, 해밍거리

를기반으로산출

수치형자료u와w의유사정도를코

사인계수, 피어슨계수, 맨해튼계수,

유클리디안거리를기반으로산출

“string”과“stream”의유사정도를

편집거리, 해밍거리를기반으로산출

Numeric Similarity/Correlation특징벡터기반수치형데이터유사/상관분석

String Similarity특징벡터기반문자열데이터유사분석

알고리즘

Page 13: Ankus 제품소개서

12

2. 3 주요기능–알고리즘 : 데이터마이닝/기계학습분석

데이터마이닝/기계학습에서대표적으

로사용되고있는유사/상관분석과군

집/분류분석을수행할수있는알고리

즘이제공됩니다.

DATA 분석결과

ID3 ClassificationID3 의사결정나무분류분석

ID3기반의사결정나무노드의규칙에부합하는

데이터개수, 클래스분포최대순도, 대표클래스등

의정보제공

K-Means 군집에사용된속성정보, 할당된군집번

호, 할당된군집중심과의거리등의정보제공

EM군집에사용된속성정보, 할당된군집번호, 할당

된군집에서의소속확률등의정보제공

K-Means ClusteringK-means 군집분석

EM ClusteringEM(expectation-maximization)군집분석

알고리즘

Page 14: Ankus 제품소개서

13

2. 3 주요기능–알고리즘 : 맞춤형추천분석

온라인쇼핑몰, 극장등콘텐츠유통도

메인에서적용가능한사용자맞춤형

아이템추천분석알고리즘이제공됩

니다.

DATA 분석결과알고리즘

Content based Similarity콘텐츠내용기반(content-based collaborative filtering)상관성분석

콘텐츠간의유사도제공

사용자와아이템의유사도제공

아이템간의유사도제공

CF based Similarity협력적여과collaborative filtering)기반사용자/아이템상관성분석

User basedRecommendation사용자상관성기반추천분석

Item basedRecommendation아이템상관성기반추천분석

사용자간의유사도제공

Page 15: Ankus 제품소개서

14

2. 3 주요기능–기타:하둡인프라관리 및모니터링

ankus에서는웹인터페이스를통하

여하둡분석작업을워크플로우기반으

로관리할수있으며, HDFS 내의분산

파일관리및하둡작업의수행/종료상

황을모니터링할수있습니다.

웹워크플로우기반하둡분석작업관리

웹브라우저에서드래그앤드롭을통하여분석알고리즘을선택하고, 분석작업

의수행워크플로우를설계

분석알고리즘의상세파라미터설정을위한인터페이스

설계된작업의저장/로드및하둡클러스터연동실행

데이터 파일 관리를 위한 HDFS 파일 브라우저

윈도우파일브라우저와동일한UI/UX를통한HDFS내파일관리인터페이스

파일복사, 이동, 변경, 업로드, 다운로드, 삭제등의관리

하둡 분석 작업에 대한 실행/종료 모니터링

대시보드를통한실행/종료및실패등하둡작업의수행상황을모니터링

하둡작업에대한수행일자, 소요시간, 진행비율등을확인

날짜또는워크플로우이름을통하여수행작업검색

에러및실행로그확인및분석

Page 16: Ankus 제품소개서

15

2. 3 주요기능–기타:사용자관리

ankus에서는사용자관리및계정보안

을위하여회원가입, 사용자계정및비밀

번호찾기기능과관리자가사용자들의

권한및등급을관리할수있습니다.

사용자관리를위한회원가입기능

사용자이름, 이메일, 비밀번호항목제공

사용자관리를위한최소필요한정보만입력받아빠른회원가입기능제공

사용자 계정 및 비밀번호 찾기 기능

이메일과비밀번호를사용하여사용자계정찾기기능제공

사용자계정과이메일을사용하여비밀번호찾기기능제공

사용자 계정들을 관리하는 사용자 관리

관리자계정만사용가능

모든사용자들을관리

조건에따른사용자검색기능

사용자권한및등급변경관리

Page 17: Ankus 제품소개서

16

ankus mahout

입력파일 텍스트형태의입력파일에별도의전처리작업없

이분석수행가능

분석을하기위해서는입력파일을Sequence 파일

형태로변환필요

분석

원본선택하여새로운데이터파일을생성하지않

고분석수행

데이터파일로부터분석하고자하는속성만을

원본데이터파일로부터분석하고자하는속성으로구

성된데이터파일을새롭게생성하여분석을수행

인터페이스

웹GUI 기반의워크플로우를이용한인터페이스 개발/서버지식이필요한CLI 중심인터페이스

ankus를 이용한 K-means 분석 예 mahout을 이용한 K-means 분석 예

ankus는mahout과는다르게, 개발

지식이부족한마케터나기획자등기존

의데이터분석업무를하던사용자들이

빅데이터기반의분석을다양하고, 손쉽

게수행할수있도록하는환경을제공

합니다.

2. 4 ankus vs mahout

Page 18: Ankus 제품소개서

17

하둡작업모니터링

하둡파일시스템관리

분석워크플로우고객카드

사용데이터

2. 5 분석적용시나리오

웹기반의GUI 인터페이스

를통해서ankus의알고리

즘을이용한분석을할수있

습니다.

웹을통해서분석수행을모

니터링하고, 하둡시스템

내에생성된분석결과를손

쉽게관리할수있습니다.

분석결과를시각화할수있

으며이를의사결정에반영

할수있습니다.

○○카드사의마케팅부서에서근무하

는A씨는다음달에있을고객이벤트를

준비하기위해서,ankus를이용하여

고객들의카드사용데이터패턴을

분석하려고합니다.

분석결과

Page 19: Ankus 제품소개서

18

3. 1 추가정보

시스템요구사항 듀얼라이선스 기술지원

ankus 프레임워크운영환경요구사항입니다.

• Java 7.0 이상

• Hadoop 1.0.3 이상

• MySQL 5.5 이상

• Tomcat 7.0 이상

• Linux OS

ankus는듀얼라이선스정책을따릅니다.

• Community License

연구또는비영리목적으로사용하는모든개인

사용자에게적용되는라이선스로apache 2.0,

GPL v3의공개SW라이선스규정이적용됩니

다.

• Commercial License

영리목적으로사용하거나공공/기관등개인사

용자가아닌경우에적용되는라이선스입니다. 추

가적으로제품배포시적용되는코드공개등의

공개SW 라이선스의무사항을회피하고싶은경

우에도적용가능합니다. ankus framework를

이용하여새로운상업용SW를개발하거나민간/

공공프로젝트에솔루션형태로사용하고자하는

경우에도Commercial License가적용되어야

합니다.

다음과같은다양한경로를통해기술지원을받을수있습니다.

• ankus공식홈페이지

공개SW인ankus를다운로드받고, 메뉴별정의서, 사용자매뉴얼, 테스트케이

스등을확인하실수있습니다.

http://www.openankus.org

• ankus프레임워크다운로드

http://github.com/suhyunjeon/ankus

http://github.com/suhyunjeon/ankus-web

http://sourceforge.net/projects/ankus

• ankus프레임워크정보확인및토론이가능한사용자그룹입니다.

http://www.facebook.com/groups/openankus

http://goo.gl/d8nP81 (구글그룹스사용자포럼)

• 데모동영상

문자형데이터셋유사도

http://goo.gl/YjR05G

• 바이너리형데이터셋유사도

http://goo.gl/0vp3pO

• 문의처

[email protected]

Page 20: Ankus 제품소개서

19

3. 2 회사소개

성공적인 비즈니스로 세상을 이끌어가는 주역 ‘어니컴'

어니컴 주식회사는 설립이래 항상 시대의 주역이 되기 위해 끊임없이 노력하고

성장하고 있습니다.

어니컴은 IT에 대한 기술적 전문성과 고객산업에 대한 이해를 바탕으로 고객지

원솔루션, BCI, Application 등 다양한 산업 분야 전반에 걸쳐 컨설팅에서 시스템

구축 및 유지 보수에 이르기까지 IT와 관련된 Total Service를 제공하며 고객가

치 극대화에 기여해 왔습니다.

또한, 모바일 관련 분야를 중점으로 SmartSolution, Smart Service, SI 분야로

Smart한 세상에 한발 앞서 나가기 위해 끊임없는 노력을 하고 있습니다.

어니컴은 성공적인 비즈니스로 새로운 세상을 이끌어 가는 주역이 되겠습니다.

인증및수상내역 기업정보

설립일:1998년 9월

회사명:어니컴 주식회사

대표이사:지영만

직원수:200명

사업분야:SmartSolution/

SmartService/ SI

위치정보

본사

서울시 중구 세종대로21길, 22

태성빌딩4층

기업부설연구소

경기도 용인시 기흥구 영덕동 1029

U-Tower 2809호 어니컴㈜ 기업부

설연구소

Page 21: Ankus 제품소개서

20

감사합니다http://www.openankus.org

[email protected]