harnessing and capitalizing on new sources of big...

30
새로운 빅데이터 소스의 제어 및 활용 단순한 Hadoop 이상!

Upload: others

Post on 05-Aug-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Harnessing And Capitalizing On New Sources Of Big Datapublic.dhe.ibm.com/software/kr/IM_CPO_Event_Seoul/... · 2013-10-15 · 랜딩및분석 영역 Hadoop ... 비즈니스사용자역할

새로운빅데이터소스의제어및활용

단순한 Hadoop 이상!

Page 2: Harnessing And Capitalizing On New Sources Of Big Datapublic.dhe.ibm.com/software/kr/IM_CPO_Event_Seoul/... · 2013-10-15 · 랜딩및분석 영역 Hadoop ... 비즈니스사용자역할

204 -새로운빅데이터소스제어및활용Harnessing And Capitalizing On New Sources Of Big Data

세계가상호연결되면서데이터의양이폭발적으로증가

소셜미디어

클라우드컴퓨팅

모바일

사물인터넷

Page 3: Harnessing And Capitalizing On New Sources Of Big Datapublic.dhe.ibm.com/software/kr/IM_CPO_Event_Seoul/... · 2013-10-15 · 랜딩및분석 영역 Hadoop ... 비즈니스사용자역할

304 -새로운빅데이터소스제어및활용

빅데이터는단순한 Hadoop이상

Service Oriented Finance CMO IBM

빅데이터란무엇입니까?

Hadoop에대한모든것을알고싶습니다.

빅데이터는단순한 Hadoop 이상입니다!

경쟁업체는이점을이해하지못하고있으며, 빅데이터유스케이스의전체요소에대한가치를전달하지못하고있습니다.

Page 4: Harnessing And Capitalizing On New Sources Of Big Datapublic.dhe.ibm.com/software/kr/IM_CPO_Event_Seoul/... · 2013-10-15 · 랜딩및분석 영역 Hadoop ... 비즈니스사용자역할

404 -새로운빅데이터소스제어및활용

실시간분석영역

4

IBM 빅데이터플랫폼은빅데이터과제를해결할수있는완전한에코시스템

랜딩및분석영역

Hadoop시스템

스트림컴퓨팅

엔터프라이즈데이터영역

BLUAcceleration

시각화및보고분석영역

Cognos 및 SPSS

정보통합및거버넌스영역

InfoSphere Information Server

외부데이터소스

데이터전달

Page 5: Harnessing And Capitalizing On New Sources Of Big Datapublic.dhe.ibm.com/software/kr/IM_CPO_Event_Seoul/... · 2013-10-15 · 랜딩및분석 영역 Hadoop ... 비즈니스사용자역할

504 -새로운빅데이터소스제어및활용

실시간분석영역

두 가지주요빅데이터유형

랜딩및분석영역

Hadoop시스템

스트림컴퓨팅

일반적으로데이터가저장되지않음

매우빠른속도

여러데이터소스

엄청난규모의비정형데이터

매우빠른처리시간을필요로함

움직이는데이터(Data in motion)

데이터가디스크에저장됨

엄청난규모의비정형데이터

사전정의된스키마가없음

규모가너무커서기존도구로는제시간에처리할수없음

움직이지않는데이터(Data at rest)

경쟁업체들은움직이는데이터를고려하지않습니다!

Page 6: Harnessing And Capitalizing On New Sources Of Big Datapublic.dhe.ibm.com/software/kr/IM_CPO_Event_Seoul/... · 2013-10-15 · 랜딩및분석 영역 Hadoop ... 비즈니스사용자역할

604 -새로운빅데이터소스제어및활용

새로운프로그래밍모델과저렴한비용의하드웨어가빅데이터문제를해결

스트리밍데이터및 Apache Hadoop 애플리케이션

대량데이터처리에검증된프레임워크

움직이는데이터에는스트리밍, 움직이지않는데이터에는 Hadoop어플리케이션에게는투명하게대규모노드클러스터에서병렬로작업이수행됨

스트리밍애플리케이션

비용이저렴한System x 서버

클러스터는 Hadoop 및스트리밍애플리케이션에이상적임

Hadoop클러스터

스트리밍클러스터

Page 7: Harnessing And Capitalizing On New Sources Of Big Datapublic.dhe.ibm.com/software/kr/IM_CPO_Event_Seoul/... · 2013-10-15 · 랜딩및분석 영역 Hadoop ... 비즈니스사용자역할

704 -새로운빅데이터소스제어및활용

움직이는데이터에서가치얻기

데이터소스 비즈니스가치분석

수신데이터에대해매우빠르게, 대기시간이거의없이복잡한계산수행

POS(Point of Sale) 데이터와고객의관계데이터를실시간으로결합

정확하고시기적절한정보를시장관리자에게제공

현재구매상황에서제품에대한상향판매기회최대화

POS데이터

의료장비생명에위협이되는상황을미리감지하여개입

다양한의료기기를실시간으로모니터링하여추세및이상식별

주식거래

Page 8: Harnessing And Capitalizing On New Sources Of Big Datapublic.dhe.ibm.com/software/kr/IM_CPO_Event_Seoul/... · 2013-10-15 · 랜딩및분석 영역 Hadoop ... 비즈니스사용자역할

804 -새로운빅데이터소스제어및활용

빅데이터를통해경쟁우위를확보하려하는Service Oriented Finance

우리의마켓관리자는이애플리케이션으로실질적인혜택을누릴수있습니다.

Service Oriented Finance 시장관리자

Service Oriented Finance는다음요구사항을충족하는주식거래애플리케이션을배포하고자함

초당수백만건의거래처리

애플리케이션이확장가능해야함

일관된입력데이터플로우

마이크로초단위의지연시간

비정형거래데이터입력

정교한분석논리

Page 9: Harnessing And Capitalizing On New Sources Of Big Datapublic.dhe.ibm.com/software/kr/IM_CPO_Event_Seoul/... · 2013-10-15 · 랜딩및분석 영역 Hadoop ... 비즈니스사용자역할

904 -새로운빅데이터소스제어및활용

초당수백만건의이벤트

마이크로초대기시간

센서, 비디오, 오디오, 텍스트및관계데이터소스

시기적절한의사결정

강력한분석

InfoSphere Streams는이러한요구사항을충족시킬수있습니다.

Streams는빅데이터를위한실시간분석플랫폼입니다.

경쟁업체에는이러한기능이없습니다.

InfoSphere Streams는움직이는빅데이터를위한실시간분석플랫폼

Page 10: Harnessing And Capitalizing On New Sources Of Big Datapublic.dhe.ibm.com/software/kr/IM_CPO_Event_Seoul/... · 2013-10-15 · 랜딩및분석 영역 Hadoop ... 비즈니스사용자역할

1004 -새로운빅데이터소스제어및활용

애플리케이션구현(최적화된컴파일)

Drag and Drop 방식을통한간편한 Streams 프로그래밍

소스어댑터 싱크어댑터오퍼레이터저장소

Page 11: Harnessing And Capitalizing On New Sources Of Big Datapublic.dhe.ibm.com/software/kr/IM_CPO_Event_Seoul/... · 2013-10-15 · 랜딩및분석 영역 Hadoop ... 비즈니스사용자역할

1104 -새로운빅데이터소스제어및활용

움직이는데이터에대한프로그래밍을손쉽게수행

개발자역할Eclipse 기반도구비주얼어플리케이션모니터링

내장액셀러레이터

관리자역할시각화된어플리케이션관리

스트림데이터시각화

작업시작/중지

비즈니스사용자역할어플리케이션모니터링시각화

스트림데이터시각화

InfoSphere Streams Console

Page 12: Harnessing And Capitalizing On New Sources Of Big Datapublic.dhe.ibm.com/software/kr/IM_CPO_Event_Seoul/... · 2013-10-15 · 랜딩및분석 영역 Hadoop ... 비즈니스사용자역할

1204 -새로운빅데이터소스제어및활용

다양한 Eclipse 기반도구세트를제공하는Streams Studio

끌어서놓기의간단한조작

Page 13: Harnessing And Capitalizing On New Sources Of Big Datapublic.dhe.ibm.com/software/kr/IM_CPO_Event_Seoul/... · 2013-10-15 · 랜딩및분석 영역 Hadoop ... 비즈니스사용자역할

1304 -새로운빅데이터소스제어및활용

비주얼애플리케이션모니터링은실행중인애플리케이션에대한명확한뷰를제공

Streams Studio의개발시간모니터링

Streams Console의프로덕션모니터링

메트릭기반색상지정구성표

시각적으로애플리케이션상태모니터링

색상은데이터비율을나타냄

Page 14: Harnessing And Capitalizing On New Sources Of Big Datapublic.dhe.ibm.com/software/kr/IM_CPO_Event_Seoul/... · 2013-10-15 · 랜딩및분석 영역 Hadoop ... 비즈니스사용자역할

1404 -새로운빅데이터소스제어및활용

단일노드또는노드클러스터에Streams 작업배치

Streams 인스턴스(또는간단히인스턴스)로알려진 Streams 런타임환경에작업배치

인스턴스는단일처리노드를포함(하드웨어)

또는여러처리노드를포함

Streams인스턴스

연산자

연산자

소스

소스

싱크

싱크

연산자

스트림

하드웨어노드

노드 노드노드

노드

노드 노드노드

Streams 작업연산자집합

스트림을통해연결됨 연산자연산자

소스

소스

싱크

싱크연산자

스트림

Page 15: Harnessing And Capitalizing On New Sources Of Big Datapublic.dhe.ibm.com/software/kr/IM_CPO_Event_Seoul/... · 2013-10-15 · 랜딩및분석 영역 Hadoop ... 비즈니스사용자역할

1504 -새로운빅데이터소스제어및활용

스마트한병원의빅데이터분석

IBM Data Babyyoutube.com

University of Ontario 의료진은빅데이터를통해신생아모니터링을적용함으로써24시간전에 ICU의감염을예측합니다.

Page 16: Harnessing And Capitalizing On New Sources Of Big Datapublic.dhe.ibm.com/software/kr/IM_CPO_Event_Seoul/... · 2013-10-15 · 랜딩및분석 영역 Hadoop ... 비즈니스사용자역할

1604 -새로운빅데이터소스제어및활용

실시간분석영역

16

IBM 빅데이터플랫폼은빅데이터과제를해결할수있는완전한에코시스템

랜딩및분석영역

Hadoop시스템

스트림컴퓨팅

엔터프라이즈데이터영역

BLUAcceleration

시각화및보고분석영역

Cognos 및 SPSS

정보통합및거버넌스영역

InfoSphere Information Server

외부데이터소스

데이터전달

Page 17: Harnessing And Capitalizing On New Sources Of Big Datapublic.dhe.ibm.com/software/kr/IM_CPO_Event_Seoul/... · 2013-10-15 · 랜딩및분석 영역 Hadoop ... 비즈니스사용자역할

1704 -새로운빅데이터소스제어및활용

소매웹사이트매출최대화

e-commerce 사이트에서온라인쇼핑객동작분석

소셜미디어

기상데이터

웹로그

움직이지않는데이터에서가치얻기

데이터소스 비즈니스가치분석

고객감정및경험분석

방대한양의기상데이터내역분석

고객유치및유지

최적의풍력발전용터빈배치결정

Page 18: Harnessing And Capitalizing On New Sources Of Big Datapublic.dhe.ibm.com/software/kr/IM_CPO_Event_Seoul/... · 2013-10-15 · 랜딩및분석 영역 Hadoop ... 비즈니스사용자역할

1804 -새로운빅데이터소스제어및활용

InfoSphere BigInsights는 Apache Hadoop을활용합니다

처리

스토리지입력

Hadoop클러스터

MapReduceJava 프로그램

결과

저렴한하드웨어클러스터로구성

노드에프로세서, 메모리및디스크가있음

특별한파일시스템 – HDFS(Hadoop Distributed File System)

특별한프로그래밍모델 – MapReduce

Page 19: Harnessing And Capitalizing On New Sources Of Big Datapublic.dhe.ibm.com/software/kr/IM_CPO_Event_Seoul/... · 2013-10-15 · 랜딩및분석 영역 Hadoop ... 비즈니스사용자역할

1904 -새로운빅데이터소스제어및활용

B2B1 R3

HDFS(Hadoop Distributed File System)

노드 1 노드 2 노드 3 노드 n

B1 B2 B3

inputFile.txt

R1R2

B3

R3

R2

R1

HDFS(Hadoop Distributed File System)는Hadoop 클러스터에데이터를분산시킴

Hadoop 클러스터의모든노드에펼쳐져있는분산파일시스템

로드시파일이블록으로자동분할되어여러데이터노드로펼쳐짐

시스템은노드가실패할것으로가정여러노드에서데이터를복제하여신뢰성확보

유연하게확장가능

B = 블록

R = 복제본

Page 20: Harnessing And Capitalizing On New Sources Of Big Datapublic.dhe.ibm.com/software/kr/IM_CPO_Event_Seoul/... · 2013-10-15 · 랜딩및분석 영역 Hadoop ... 비즈니스사용자역할

2004 -새로운빅데이터소스제어및활용

MapReduce 작업

노드 1 노드 2 노드 3 노드 n

MapReduce 프레임워크는프로그램을데이터노드로전송

MapReduce 작업은개별노드로전송됨

Map-Reduce 태스크는여러노드에서동시에실행됨

Hadoop 프레임워크는많은양의 “대규모이동”을수행예: map-reduce 태스크간데이터이동

Map-Reduce 태스크

Map-Reduce 태스크

Map-Reduce 태스크

Map-Reduce 태스크

HDFSHDFS HDFSHDFS

Page 21: Harnessing And Capitalizing On New Sources Of Big Datapublic.dhe.ibm.com/software/kr/IM_CPO_Event_Seoul/... · 2013-10-15 · 랜딩및분석 영역 Hadoop ... 비즈니스사용자역할

2104 -새로운빅데이터소스제어및활용

간단한 MapReduce 예: 텍스트에서문자열발생횟수계산

ReduceMap

apha 1

beta 1

gamma 1

alpha 1

beta 1

gamma 1

gamma 1

alpha 1

beta 1

beta 1

gamma 1

HDFS

alpha 1

beta 1

gamma 1

키/값

Hadoop 프레임워크

alpha 1

1

1

1

gamma 1

1

1

1

1

beta 1

1

1

1

1

키/값배열

목표: 텍스트파일에서 alpha, beta 및 gamma 발생횟수를계산합니다.

beta iota me

gamma beta

HDFS

ab iota beta

beta beat

alpha iota

beta alpha

gamma beta

beta iota me

Map

Map

Map

alpha 4

Reduce

Reduce

gamma 5

beta 5

Page 22: Harnessing And Capitalizing On New Sources Of Big Datapublic.dhe.ibm.com/software/kr/IM_CPO_Event_Seoul/... · 2013-10-15 · 랜딩및분석 영역 Hadoop ... 비즈니스사용자역할

2204 -새로운빅데이터소스제어및활용

관리자역할클러스터전체관리− 구성요소모니터/시작/중지− 노드추가/제거포털스타일대시보드

개발자역할Eclipse 기반도구HDFS에대한읽기/쓰기액세스시스템의작업및워크플로우에대한통합된뷰애플리케이션스테이징, 런칭및스케줄링센터여러내장액셀러레이터

비즈니스사용자역할Java 프로그래밍스킬필요없음스프레드시트도구시각화

BigInsights를통해모든빅데이터역할을용이하게수행

InfoSphere BigInsights Console

Page 23: Harnessing And Capitalizing On New Sources Of Big Datapublic.dhe.ibm.com/software/kr/IM_CPO_Event_Seoul/... · 2013-10-15 · 랜딩및분석 영역 Hadoop ... 비즈니스사용자역할

2304 -새로운빅데이터소스제어및활용

고객불만사항을분석하려하는Service Oriented Finance

Service Oriented Finance CMO IBM

고객이무엇에불만을가지고있는지알아야합니다.

IBM은 BigInsights를통한감성분석으로도움을드립니다.

Page 24: Harnessing And Capitalizing On New Sources Of Big Datapublic.dhe.ibm.com/software/kr/IM_CPO_Event_Seoul/... · 2013-10-15 · 랜딩및분석 영역 Hadoop ... 비즈니스사용자역할

2404 -새로운빅데이터소스제어및활용

감성분석 –빅데이터의과제이자기회

다음사항을결정

방대한규모의비정형데이터

느낌 -태도

감정 -의견

생각 -희망

소셜미디어데이터에서감성파악

제품수요

신제품수용

경쟁위협

브랜드위상에대한위협

광고목표

제품수요

신제품수용

경쟁위협

브랜드위상에대한위협

광고목표

Page 25: Harnessing And Capitalizing On New Sources Of Big Datapublic.dhe.ibm.com/software/kr/IM_CPO_Event_Seoul/... · 2013-10-15 · 랜딩및분석 영역 Hadoop ... 비즈니스사용자역할

2504 -새로운빅데이터소스제어및활용

데모: BigInsights로Twitter에서의부정적감성분석

호감 반감

서비스담당자가친절했으며도움이

되었다.

서비스담당자가친절했으며도움이

되었다.수표보호기능이맘에든다 !

수표보호기능이맘에든다 !

웹사이트에서의온라인뱅킹을신뢰하지않는다.

웹사이트에서의온라인뱅킹을신뢰하지않는다. ATM 수수료가

터무니없다!

ATM 수수료가터무니없다!

수표보호기능에만족

온라인청구서지급기능에만족

ATM이도시곳곳에배치되어있는것에만족

서비스담당자에만족

온라인뱅킹기능을신뢰하지않음

오래대기하는것을꺼림

ATM 수수료에불만족당좌대월수수료에불만족

데이터소스Twitter

주제Service Oriented

Finance

Page 26: Harnessing And Capitalizing On New Sources Of Big Datapublic.dhe.ibm.com/software/kr/IM_CPO_Event_Seoul/... · 2013-10-15 · 랜딩및분석 영역 Hadoop ... 비즈니스사용자역할

2604 -새로운빅데이터소스제어및활용

BigInsights는다른 Hadoop 배포에없는기능을제공

보안LDAP 인증역할기반권한부여

성능및최적화어댑티브 MapReduce고급스케줄러대규모인덱싱을위한 BigIndex빠르고, 분할가능한압축

Optim Development StudioEclipse 기반 Java IDE

빅데이터통합

Information Server, InfoSphere Streams, Netezza, DB2

분석액셀러레이터

BigSheets 스프레드시트및시각화장비데이터

소셜미디어

고급텍스트분석

JAQL 쿼리언어

“Cloudera는 어플리케이션수준에서의 Hadoop 처리를위한스택확장및제품개발에대한계획이없습니다… IBM은엔터프라이즈급오퍼링에근접한배포에초점을두고있습니다.”

Page 27: Harnessing And Capitalizing On New Sources Of Big Datapublic.dhe.ibm.com/software/kr/IM_CPO_Event_Seoul/... · 2013-10-15 · 랜딩및분석 영역 Hadoop ... 비즈니스사용자역할

2704 -새로운빅데이터소스제어및활용

개발자의생산성을크게향상시키는Machine Data Accelerator

작업 DIY MDA

IDE 설치 5분 5분

코드개발 30분 5분

패키징및배포 10분 5분

코드테스트 7분 5분

코드라인수 57 70

10

20

30

40

50

60

DIY ApacheHadoop

BigInsights

Machine Data Accelerator는로그파일분석작업에서개발시간을절반으로단축

새로운코드가 8배더적게필요함

로그파일분석

52분

20분

생산성향상은테스트케이스범위에따라달라지며, MDA 모듈을더많이재사용할수록향상률이커집니다.

Page 28: Harnessing And Capitalizing On New Sources Of Big Datapublic.dhe.ibm.com/software/kr/IM_CPO_Event_Seoul/... · 2013-10-15 · 랜딩및분석 영역 Hadoop ... 비즈니스사용자역할

2804 -새로운빅데이터소스제어및활용

"IBM은가장깊이있는 Hadoop 플랫폼및애플리케이션포트폴리오를보유하고있습니다."

Forrester, IBM을 Hadoop 솔루션분야의최고로선정

약함 전략 강함

강함

현재오퍼링

약함

약함 전략 강함

시장입지

전체공급업체참여

약체 추격업체 우수업체 선두업체

Page 29: Harnessing And Capitalizing On New Sources Of Big Datapublic.dhe.ibm.com/software/kr/IM_CPO_Event_Seoul/... · 2013-10-15 · 랜딩및분석 영역 Hadoop ... 비즈니스사용자역할

2904 -새로운빅데이터소스제어및활용

실시간분석영역

29

Hadoop 에코시스템을위한엔터프라이즈급 SQL 지원

랜딩빛분석영역

Hadoop시스템

스트림컴퓨팅

엔터프라이즈데이터영역

BLUAcceleration

시각화및보고분석영역

Cognos 및 SPSS

정보통합및거버넌스영역

InfoSphere Information Server

외부데이터소스

데이터전달

Big SQL 엔진

Page 30: Harnessing And Capitalizing On New Sources Of Big Datapublic.dhe.ibm.com/software/kr/IM_CPO_Event_Seoul/... · 2013-10-15 · 랜딩및분석 영역 Hadoop ... 비즈니스사용자역할

3004 -새로운빅데이터소스제어및활용

IBM은가장완전한빅데이터플랫폼보유

Streams는빠른속도의실시간분석을위한강력한도구Drag and Drop 방식의간편한개발광범위한시각화기능

BigInsights는 Hadoop을엔터프라이즈급빅데이터플랫폼으로확장고급액셀러레이터가빠른가치실현지원

Hadoop 데이터에대한 ANSI SQL 지원제공

"IBM은가장깊이있는 Hadoop 플랫폼및애플리케이션포트폴리오를보유하고있습니다."

경쟁업체에서는움직이는데이터를고려하지않음