빅데이터 분석 필요 요소_kt_0320

15
1 빅데이터 분석 단계별 필수 요소와 활용전략 SKC&C Biz.컨설팅팀 위원 전철희 ([email protected]) Smart, Mobile, SNS 시대의 경영환경은 많은 영역에 있어서 변화를 견인하고 있으며, 이러한 SMS 환경은 또한, 빅데이터를 생성하고 활용할 밖에 없는 기술의 변화를 촉발하고 있다. (12 데이터 생산량은 2.8ZettaBytes 예상하고 있으며, 향후 10 년간 50 증가 예상, IDC 자료 참조) 대량의 정보를 획득, 저장, 분석 의사결정에 활용하는 Business Intelligence 있어서도 SMS 기반의 빅데이터를 활용하여 다양한 Insight 얻기 위한 노력들이 진행되고 있으며, 시점에 효율적인 Insight 확보를 위하여 고려하여야 기술적 요소와 추진 방법론적 측면의 고려 요소들을 살펴보도록 하겠다. BI 있어서 빅데이터의 의미와, 필요한 빅데이터 확보, 가공, 저장, 분석 활용의 단계별로 반영하여야 사항들을 도출하고, 이를 현재의 IT 자원과 연계하기 위한 방법들을 정의하도록 하겠다. BI 있어서, 빅데이터의 의미는, 다양한 내외부 대량 데이터를 기반으로, 분석 전략적 활용을 지원할 있도록 하는 활용요건의 확장을 의미하며, 효율적인 비용으로 분석의 Right Time/Collaboration Decision Making지원할 있도록 시스템 아키텍쳐와 데이터 Positioning대한 컨설팅 System Integration설계하여야 하는 대상이며, 빅데이터를 확보한 새로운 Insight확보하는 것이 아니라, 불확실한 경영환경에서 살아남기 위한 새로운 서비스 상품 개발을 위하여 필요한 정보 Insight정의하고 이에 필요한 데이터(형태가 정형.비정형이던, 사내 혹은 사외에 존재하는 데이터이던) 유형을 정의하고, 활용의 방향을 설정한 후에 정보를 획득하여야 한다. 필요한 데이터에 빅데이터가 포함될 있다. , 데이터의 형태나 확보가능 원천의 구분 없이 필요한 정보를 확보하여 활용할 있어야 한다. 이는 활용영역 정의, 필요데이터 소싱의 단계를 거치는 것이며, 불필요한 대량의 데이터를 획득 가공하는 시간을 최소화할 있게 것이다. IT기술과 환경의 발전은 대량의 데이터를 용이하게 다룰 있게하고 있으나 그와는 반대로 불필요한 빅데이터를 양산할 수도 있다. Big Data is Big Traffic’이 아니기 위하여 많은 들을 고려하여야 한다. 주제어 : 빅데이터, BI

Upload: giru-jang

Post on 20-Dec-2014

2.138 views

Category:

Documents


6 download

DESCRIPTION

 

TRANSCRIPT

Page 1: 빅데이터 분석 필요 요소_kt_0320

1

빅데이터 분석 단계별 필수 요소와

활용전략

SKC&C Biz.컨설팅팀 위원

전철희 ([email protected])

Smart, Mobile, SNS 시대의 경영환경은 많은 영역에 있어서 변화를 견인하고 있으며, 이러한

SMS 환경은 또한, 빅데이터를 생성하고 활용할 수 밖에 없는 기술의 변화를 촉발하고 있다.

(‘12 년 데이터 총 생산량은 2.8ZettaBytes 를 예상하고 있으며, 향후 10 년간 50 배 증가 예상, IDC 자료 참조)

대량의 정보를 획득, 저장, 분석 및 의사결정에 활용하는 Business Intelligence 에 있어서도

SMS 기반의 빅데이터를 활용하여 좀 더 다양한 Insight 를 얻기 위한 노력들이 진행되고 있으며,

이 시점에 효율적인 Insight 확보를 위하여 고려하여야 할 기술적 요소와 추진 방법론적 측면의

고려 요소들을 살펴보도록 하겠다.

BI 에 있어서 빅데이터의 의미와, 필요한 빅데이터 확보, 가공, 저장, 분석 및 활용의 단계별로

반영하여야 할 사항들을 도출하고, 이를 현재의 IT 자원과 연계하기 위한 방법들을 정의하도록

하겠다. BI 에 있어서, 빅데이터의 의미는, 다양한 내외부 대량 데이터를 기반으로,

분석 및 전략적 활용을 지원할 수 있도록 하는 활용요건의 확장을 의미하며,

효율적인 비용으로 분석의 Right Time/Collaboration Decision Making을 지원할 수

있도록 시스템 아키텍쳐와 데이터 Positioning에 대한 컨설팅 및 System Integration을

설계하여야 하는 대상이며,

빅데이터를 확보한 후 새로운 Insight를 확보하는 것이 아니라, 불확실한 경영환경에서

살아남기 위한 새로운 서비스 및 상품 개발을 위하여 필요한 정보 Insight를 정의하고 이에

필요한 데이터(형태가 정형.비정형이던, 사내 혹은 사외에 존재하는 데이터이던) 유형을 정의하고,

활용의 방향을 설정한 후에 정보를 획득하여야 한다. 이 필요한 데이터에 빅데이터가 포함될 수

있다. 즉, 데이터의 형태나 확보가능 원천의 구분 없이 필요한 정보를 확보하여 활용할 수 있어야

한다. 이는 선 활용영역 정의, 후 필요데이터 소싱의 단계를 거치는 것이며, 불필요한 대량의

데이터를 획득 가공하는 시간을 최소화할 수 있게 할 것이다. IT기술과 환경의 발전은 대량의

데이터를 용이하게 다룰 수 있게하고 있으나 그와는 반대로 불필요한 빅데이터를 양산할 수도

있다. 즉 ‘Big Data is Big Traffic’이 아니기 위하여 많은 것 들을 고려하여야 한다.

주제어 : 빅데이터, BI

Page 2: 빅데이터 분석 필요 요소_kt_0320

2

1. 왜 빅데이터를 분석하여야 하는가?

2. 빅데이터를 분석하기 전에 고려하여야 하는 것은?

3. 빅데이터를 분석을 위한 필수 요소

4. 빅데이터 시대 BI 구축 방안

5. 도구로서의 빅데이터

1. 왜 빅데이터를 분석하여야 하는가?

최근 우리 주변에 가장 많이 이야기되고 있는 것이 스마트, 모바일, 소셜이란 단어일 것이다.

스마트한 하드웨어나 소프트웨어는 지금까지는 기대할 수 없었던 정도의 정보 처리능력을

제공하고 있으며, 지능화된 능력은 산업간의 융합을 이루는 매개체 역할을 하면서 기존에 없던

새로운 산업을 만들거나 혁신하고 있다. 변화의 한 축을 담당하고 있는 모바일의 경우, 온라인과

오프라인의 경계를 소멸시켜 언제, 어디서든,

어느 장비(Device)로도 인터액티브

(Interactive)하게 정보를 공유, 획득하거나

소비할 수 있는 환경을 이루어 냈다. 소셜은

웹 상에서 개인 또는 집단간 상호의존적인

관계에 의해 만들어지는 새로운 사회관계

구조를 만들어 냈으며, 사람들간의

관계(소셜)을 기반으로 게임, 지역, 쇼핑, 검색

등의 다양한 분야의 서비스를 제공받고

제공할 수 있게 되어, 진정한 의미의

개인화를 확보할 수 있는 기반이 되었다. 이러한

환경의 변화는 기존의 데이터 관리 시스템에서 축적/관리/분석할 수 없는 정도의 대량의 정보를

생산하고 있다. 이러한 대량의 정보를 필요에 따라 활용목적에 맞게 분석, 응용할 수 있다면 무한

경쟁 환경에서 살아남을 수 있는 강력한 무기를 갖추는 것이라 판단된다.

스마트-모바일-소셜은 개인의 라이프 스타일은 물론, 회사의 고객이나 내부 직원, 외부

공급사 등 관련된 전 서비스 체인에 영향을 주고 있으며, 고객에 대한 가치제공 방식 및

비즈니스 모델에도 많은 변화를 가져올 것이다.

<그림1. 빅데이터 생성환경>

Page 3: 빅데이터 분석 필요 요소_kt_0320

3

1.1. 마케팅 패러다임의 변화

스마트-모바일-소셜(이하 SMS)은 기업의 마켓터 입장에서 보면, 고려하여야 할 요소들이

너무나 많아졌다는 것이고, 고객이 항상 다른 고객(혹은 고객군)과 연결(Connection)되어 있다는

것이다. 비즈니스는 기업/사업과 사람이 하는 것이고 이들은 항상 SMS를 통하여 더욱 더 연결이

강화되고 있다는 것이다. 마켓터들이 인지하지 못하는 사이에 고객은 정보탐색과 의사결정을

다른 사람과의 관계(Connection)에 기반하여 수행하고 있다. 그렇다면, SMS시대의 마켓터들은

사람과 사람간의 관계를 통하여 영업(Sales)을 수행할 수 있도록 SMS를 새로운 채널과

정책결정의 정보원천으로 인식하여야 한다.

<표1. 마케팅 패러다임 변화>

구분 기존 마케팅 SMS기반 마케팅 비고

접근방식 급변하지 않고, 고정된

시각에서의 접근

고객의 심적 변화 및 Context환경

이해에 기반한 접근 고객주도적

커뮤니케이션

특성

수행자 주도의 단방향성

Communication 위주

실시간 쌍방향 Communication

온.오프라인 채널통합활용 실시간 쌍방성

마케팅

인사이트

출처

기업 내 존재하는 정보/

데이터 중심의 인사이트

활용(정보 신뢰성이 높음)

내.외부 경계가 없는 정형. 비정형

데이터를 활용한 인사이트

- 정보에 대한 신뢰성 향상을 위한

별도의 절차 필요

내.외부 데이터

고객맞춤형

서비스 제공

제공자/마켓터 주도의

맞춤형 서비스 제공

고객주도(니즈, 선호도, 심리상태

등) 기반 맞춤형 서비스 제공 개인화

잠재된 이슈

대응

마케터의 경험기반 혹은

사후 대응

사전에 동향 파악 및 예측을 통한

선제적 대응

선제적 이슈

대응

중점사항 고객만족을 통한 이윤의

추구(기업입장)

지속적인 연결을 통하여 고객의

니즈와 변화에 대응하는 서비스

제공을 통한 만족도 향상 (고객입장)

1.2. 분석에 활용될 수 있는 빅데이터

마켓터 혹은 현업이 데이터를 통하여 얻고자 하는 정보가 무엇이며, 그러한 정보를 어떻게

활용하여야 하는지에 대한 니즈를 명확하게 정의하여야 하며, 필요한 데이터가 기업 내부에

존재하는 정형데이터일 수도 있고, 기업이 가지고 있지 않은 외부에 산재한 비정형데이터일 수도

있을 것이며, 이러한 유형의 데이터를 어떻게 획득하고 분석에 활용할 수 있을지를

IT엔지니어들이 고민하여야 하는 것이다.

그렇다면, 분석에 활용될 수 있는 빅데이터들은 어떤 것들이 있을까? 웹 디자인 및

어플리케이션 개발 업체인 ‘Go-Gulf.com’의 게시물 중에 ’60 Seconds – Things that happen on

internet every sixty seconds’를 보면, 얼마나 많은 양의 정보가 다양한 도구 및 방식을 통하여

Page 4: 빅데이터 분석 필요 요소_kt_0320

4

생성되는지를 볼 수 있다. 이러한 데이터(가공되지 않은 원석)의 홍수 속에서 활용에 필요한

정보(보석)를 찾아내는 것을 고민할 수 밖에 없다는 것을 느끼게 될 것이다.

이 모든 데이터가 전부 분석의 대상인가? 그렇지 않다. 경영의 의사결정 과정에서 필요한

정보를 가지고 있는 데이터 원천만이 분석의 대상인 것이다. “그 많은 데이터를 많은 비용을

들여서 축적하고, 활용영역 및 비즈니스 수행에 대한 새로운 통찰력을 확보하는데

활용하겠습니다”라는 보고를 받은 경영자는 과연 실체가 모호한 ‘빅데이터’분석을 위한 인프라

구축에 돈을 투자할 것인가? 어떤 경영자도 투자하지 않을 것이며, 이는 새로운 정보원천 발굴을

시도하기도 전에 폐기되는 계획서가 될 것이다.

<그림2. 60 Seconds>

고정된 분석대상 빅데이터가 있는 것이 아니라, 직면한 이슈를 해결하기 위하여 필요한

정보가 무엇인지에 대한 정의를 선행하고 이에 따라 필요한 데이터를 어디서 확보할 수 있는지를

판단하여야 필요한 빅데이터가 정해지는 것이다. “이러한 문제를 해결하기 위해서 필요한 정보가

이것이며, 이 정보를 확보할 수 있는 원천이 빅데이터입니다. 따라서 이 인프라 구축에 IT예산을

투자하여야 합니다”로 접근하여야 할 것이다.

1.3. 빅데이터 활용을 위한 도구

빅데이터를 분석하여 기존에 확보하지 못했던 통찰력(Insight)을 의사결정에 활용할 수 있는

가장 빠른 접근수단은 Business Intelligence 환경에 빅데이터를 정보원천으로 반영하는 것이다.

따라서, ‘4.빅데이터 시대 BI 구축방안’에 대하여 자세히 살펴보도록 하겠다.

Page 5: 빅데이터 분석 필요 요소_kt_0320

5

2. 빅데이터를 분석하기 전에 고려하여야 하는 것은?

2.1. 분석 대상이 되는 빅데이터 선정

어떤 데이터가 필요한지에 대해서 우선 정의하여야 한다. 이는 곧 어떤 정보에 기반하여 어떤

통찰력이 필요한지 결정하고, 어느 문제 혹은 이슈를 해결하는데 활용할지에 대한 시나리오를

결정한다는 것이다. BI를 활용한 분석 시나리오의 유형은 두 가지로 크게 구분될 수 있을

것이다.

첫째, 내부 데이터에 기반한 ‘케이스별 분석 시나리오’이다. 기 확보한 내부 데이터를 기반으로

정보를 가공하여 분석.활용하는 경로를 설계하는 작업을 의미하며, 대부분의 기존 BI프로젝트에서

분석 뷰를 도출하고 설계하는 작업의 산출물이다. 이미 발생된 결과에 기반하여 분석을 수행하는

것이며, 결과에 대한 원인을 분석하고 미래에 대한 의사결정에 참고하는데 많이 활용된다.

둘째, ‘시뮬레이션 기반 예측 시나리오’이다. 이 경우 필요한 데이터는 내.외부 시스템 및

정형.비정형 구조와 무관하게 예측에 필요한 항목으로 정의될 것이다. 기존에 발생하지 않았던

경영상황을 가정하여 이에 대응할 수 있는 방안을 도출할 수 있도록 지속적인 시뮬레이션을

수행하는 것을 의미한다. 물론, Business Analytics는 빅데이터를 가장 잘 활용할 수 있는 도구

중의 하나라고 판단된다. 이에 대한 논의는 뒷 부분에서 하기로 하자.

따라서, 분석대상이 되는 빅데이터 선정 단계를 정리하면, <그림 3>과 같으며,

<그림 3. 분석대상 빅데이터 선정 방안>

이러한 단계로 접근하여야 “Big Data is Big Traffic”이 되지 않을 것이다.

Page 6: 빅데이터 분석 필요 요소_kt_0320

6

2.2. 빅데이터의 특성을 반영한 아키텍쳐 설계 고려사항

일반적으로 빅데이터 특성을 3V(Volume, Velocity, Variety) 및 Complexity로 분류하고

있지만, 기존 데이터에 대비한 특성을 정의한다면1), 대규모(Huge Scale), 현실성(Reality),

시계열성 (Trend) 및 결합성(Combination)으로 표현할 수 있을 것이다. 각 특성별 활용 효과와

고려사항에 대하여 살펴보도록 하겠다.

<표2. 빅데이터 특성 및 효과1)측면의 고려사항>

빅데이터 특성 효과 고려사항

대규모

(Huge Scale)

기술 발전으로 데이터를 수집, 저장,

처리 능력 향상

현실세계 데이터를 기반으로 한

정교한 패턴분석 가능

데이터가 많을수록 유용한 데이터,

전혀 새로운 패턴의 정보를 찾아낼

수 있는 확률도 증가

얼마나 많은 데이터를 수집, 처리할

것인가?

데이터의 수집, 저장, 처리를 물리적

으로 복제, 생성하여 처리할 것인가?

이러한 정보를 기반으로 패턴 정보를

찾아낼 수 있는 인적자원이 확보되어

있는가?

현실성

(Reality)

우리사회 일상에서의 데이터 기록물

의 증가 등 현실 정보, 실시간 정보

의 축적이 급증될 전망

개인의 경험, 인식, 선호 등 인지적인

정보 유통 증가

실시간의 특성과 배치의 특성이

결합된 정보

정보의 신뢰 수준을 전제로 의사결정

활용 정도(Depth) 결정

시계열성

(Trend)

현시점뿐만 아니라 과거 데이터의

유지로 시계열적인 연속성을 갖는

데이터의 구성

과거, 현재, 미래 등 시간 흐름상의

추세분석 가능

시계열성 분석을 적용하기 위한 키

관리 구조에 대한 설계가 전제

결합성

(Combination)

의료, 범죄, 환경 등 타분야, 이종

데이터 간의 결합으로 새로운 의미의

정보 발견

실제 물리적인 결합 이전에, 데이터

결합을 통한 사전 시뮬레이션,

안전성 검증 분야 발전 가능

내부의 데이터와 외부 데이터간

연계를 위한 관리 체계에 대한 설계

전제

1) 한국정보문화진흥원(2011), 新가치창출 엔진, 빅 데이터의 새로운 가능성과 대응 전략, pp. 18.발췌 편집

대규모의 데이터를 항상 물리적으로 복제, 정제, 축적하는 것은 자원의 낭비를 초래할 것이다.

항상 물리적으로 생성되어야 하는 데이터와 휘발성으로 유지하여도 가능한 데이터에 대한 결정이

필요하며, 휘발성으로 존재하는 데이터를 실시간으로 연계 분석할 수 있는 인프라를 설계하여야

한다. 무엇보다도, 이러한 데이터를 적용하여 유용한 패턴정보를 찾아낼 수 있는 인력의 확보는

필수적이다. 또한 외부에서 확보한 정보의 신뢰수준에 따른 활용범위를 설정하여야 하며,

내부데이터와 외부 데이터의 적절한 연계를 설계하여야 좀 더 의미있는 정보로서의 역할을

Page 7: 빅데이터 분석 필요 요소_kt_0320

7

이끌어 낼 수 있다. 빅데이터 분석을 위한 필요요소에서 다시 한번 자세히 기술하도록 하겠다.

2.3. 빅데이터 활용을 위한 인프라로서 BI 역할

빅데이터를 활용하기 위한 주요 인프라이면서, 정보를 활용하여 의사결정에 적용하는

대표적인 서비스가 Business Intelligence(이하 BI)이다. BI를 중심으로 이후의 내용들을

기술하도록 하겠다.

<그림 4. BI에 있어서 빅데이터의 의미>

BI에 있어서 빅데이터는 활용 가능한 정보의 확장을 의미하며, 이는 앞에서 언급한 ‘BI를

활용한 분석 시나리오의 유형’에 따라 확장의 범위가 결정된다. 물론, 이러한 확장을 담보하는

것이 Business Analytics(이하 BA)를 적용한 예측/시뮬레이션 분석 기능이다. 즉 빅데이터의

활용성을 보장하는 것은 BA에 기반한 분석 시나리오이며, 앞으로의 BI추진에 있어서 필수적인

고려사항이며, 이는 추진방안에 있어서도 많은 변화를 필요로 한다. 앞으로의 BI의 달성 목표는

‘요건의 다양성 및 활용성’에 기반한 ‘Big Data Analytics’이다. <그림 5. 문제-해결 매트릭스>2)를

참고하면, Big Data Analytics가 적용될 영역을 이해하는데 도움이 될 것이라 판단한다.

Page 8: 빅데이터 분석 필요 요소_kt_0320

8

『신영역이란 문제도 해결책도 알 수

없는 상황을 가르키는 것으로, 무지의 세계

속에 빠진 것이나 다름이 없다. 실제로

우리가 맞이할 미래의 모습은 대부분

신영역과 같다』라고 표현된 신영역의

급진적 혁신을 달성하기 위하여 가장

효과적으로 활용될 수 있다. 그러나 가장

중요한 것은, “가능한 많은 정보를 모아 효율적으로 처리하는 일만 중요한 게 아니다. 이보다 더

우선되어야 할 것은 올바른 정보가 무엇인지를 이해하고, 이에 대해 고민하여 지혜로운 결론을

얻거나 적절한 문제제기를 통해 심층적으로 정보를 조사하는 과정이다.”라는 메시지라 생각한다.

3. 빅데이터 분석을 위한 필요 요소

3.1. 데이터 확보

데이터의 원천이 내.외부인지에 대한 구분은 없어졌으며, 어떤 정보가 필요한지가 확보하여야

할 데이터를 결정하는 주요 요소이다. 내부의 데이터의 경우는, ETL, EAI, CDC등 솔루션을

적용하여 확보하거나 물리적인 이동없이 분석에 적용할 수 있는 EII(Enterprise Information

Integration)를 활용할 수 있을 것이다. 분석의 뷰(View)가 수시로 변화하는 상황에서는 물리적인

이동/생성보다는 EII를 통한 처리가 훨씬 유용할 것으로 판단된다. 외부 데이터의 경우, Crawling

Engine을 활용한 키워드 검색을 수행하거나 스캐닝을 통하여 데이터를 확보할 수 있을 것이다.

물론 비구조적인 데이터를 이 단계에서 구조화할 필요는 없을 것이다. 이미 활용되고 있는

파일시스템(하둡)이나 NoSQL DB에 저장한 상태로 필요한 정보를 추출할 수 있을 것이다. 단,

외부에서 확보한 데이터만 가지고 유용한 통찰력(Insight)을 확보한다는 것은 제한적일 수 밖에

없을 것이다. 따라서 구조화된 DB형태로 저장된 내부의 정보와 연계하여야 더욱 효과적인

통찰력을 얻을 수 있을 것이다. 이러한 연계를 이룰 수 있도록 파일시스템 혹은 NoSQL

DB영역과 일반 DBMS영역을 연계하는 어탭터(혹은 Bridge)가 필요하다.

3.2. 데이터 처리 및 저장

빅데이터의 처리 및 저장에 있어서, 데이터가 활용되는 분석요건의 시급성 및 특성에 따라

저장위치(Data Positioning)를 결정하여야 한다. 실시간으로 활용되는 빅데이터는 하둡(Hadoop)

을 적용한 영역에 보관하고(혹은 원본 데이터는 HDFS에 저장), 좀 더 시간적 여유가 있는

<그림5. 문제-해결 매트릭스>

Page 9: 빅데이터 분석 필요 요소_kt_0320

9

데이터는 Big Data Appliance영역에 저장(혹은 대용량 분산 데이터의 저장은 NoSQL영역에

저장)할 것인지를 결정하여야 한다. 통신사의 CDR(Call Detail Record)데이터 분석 시,

생명주기(분석의 유효성)가 50일 정도된다고 가정할 경우, 50일 간의 CDR은 하둡영역에, 50일

에서 6개월 이내 CDR은 BDW영역에, 나머지는 아카이브 영역에 저장한다든지 등의 정책을

결정하여야 한다. 이러한 정보생명주기 관리(Information Life-Cycle Management)가 빅데이터

시대의 데이터 처리 및 저장의 가장 중요한 요소라고 판단된다. 또한 내부 정보와 외부 정보를

연계하여 분석하기 위하여서는 내부 정보와 연계할 수 있는 키를 도출하여 외부 정보에 반영하는

작업도 중요한 과정일 것이다. 이에 따라서 전사적인 메터데이터 시스템의 중요성도 함께

증가하고 있다. 물론 외부 데이터를 의사결정의 한 요소로 적용한다는 것 자체가 약간의

위험성을 내포하고 있으나 이러한 위험을 최소화할 수 있도록 정보품질관리에 대한 심도있는

검토가 필요하다. 대규모의 데이터를 다루는 비용적 부담 때문에 많은 사람들이 클라우드

서비스를 고민하고 있으나, 정보생명주기관리, 메터데이터 시스템 및 데이터 품질 측면에서 다시

한번 고려하여야 할 시점이라 판단된다.

3.3. 데이터 분석

외부의 유용한 정보와 내부 정보를 같이 활용하기 위한 연계 분석영역(Federation Mart)을

유지하여 활용정보를 지속적으로 확장하는 형태로 유지하는 것이다. 물론, 데이터 사이언티스트

(다양한 정의를 가지고 있는 의미이지만, 분석 및 활용 측면에서 정의한다면, 당면한 이슈 혹은

불확실한 미래를 예측하기 위하여 필요한 정보를 정의하고, 이를 분석에 활용할 수 있는 형태로

정보가공 알고리즘을 도출하여 적용할 수 있는 창의적인 역량을 보유한 분석가들이라 말할 수

있다)들이 지속적으로 알고리즘을 활용하여 새로운 비즈니스 룰들을 생성하고 적용

(Deployment)할 수 있도록 일정영역(Test-Bed성 DB영역)을 유지하여야 한다. 이를 통하여

활용성과 정확도를 높일 수 있을 것이다.

“BI는 그동안 대쉬보드 형태로 기업에 보급되어왔으나 그 한계를 크게 벗어나지 못했다.

최근들어 BI의 근본이라 할 수 있는 데이터 중요성이 ‘빅데이터’이슈와 맞물리며 격렬한

화확반응을 일으키고 있다.[중략]금융권은 BI고도화의 요건으로 ▲운영 프로세스와 분석이

연계되는 시스템인 운영 BI, ▲데이터를 이해하고 탐구하는 가장 빠른 방식인 ‘비주얼

분석(Visual Analytics)’, ▲원가절감과 신속한 개발이 장점이 SaaS BI등을 꼽고 있다” 3)

기존의

BI는 ‘비주얼 분석’을 위하여 관련 툴에 특회된 형태의 별도 저장영역을 유지하고 있었다. 그러나

실시간 예측 및 시뮬레이션 기능을 통하여 의사결정을 내여야 하는 상황에서의 비주얼 분석은

실시간 분석정보 시각화에 초점이 맞추어져야 한다.

Page 10: 빅데이터 분석 필요 요소_kt_0320

10

3.4. 정보활용

빅데이터를 포함한 정보를 활용하는 장점에는 몇 가지가 있을 수 있다. 첫째가 효율적인

의사결정이다. 앞에서 언급한 바와 같이 BI입장에서 보면, 활용영역의 확장과 활용정보의

확장이며, 이는 곧 정보에 기반한 의사결정이 좀 더 효율적이고 시기 적절하게 이루어 질 수

있다는 것이다. 과거의 시계열적인 정보에 따른 결정이 아닌 미래의 예측에 기반한 선제적

의사결정을 내릴 수 있게 될 것이다. 이러한 의사결정이 올바로 이루어 졌는지에 대한 평가는

사후적일 수 밖에는 없지만, 의사결정권자가 선택하는 권한을 좀 더 확장시킨다는 의미를 가지고

있다. 좀 더 폭 넓은 권한이 주어진다. 시계열 분석정보에 기반하거나 예측 및 시뮬레이션에 따른

방향을 결정할지에 대한 선택을 데이터 사이언티스트들은 적극적으로 개입하여 지원하여야 한다.

결국은 데이터 사이언티스트 역할을 수행하는 인력들이 그 만큼 많이 필요하게 되는 것이며,

이러한 인력들이 본연의 역할을 얼마나 잘 수 행하는지가 빅데이터에 기반 한 정보분석의

활용가치를 더욱 더 높이는 것이다. 현업에 종사하는 인력들이 이러한 정보를 효과적으로

활용하게 하기 위하여서는 시각적 요소가 가장 중요하다. 물론 도표나 그래프를 활용한 분석정보

표현과 버튼을 활용한 변수 값 조정 등의 기능들을 포함한다. 그러나 가장 중요한 것은 분석

시나리오에 따라 관련 분석정보들을 순차적으로 혹은 동시에 분석하는 ‘분석경로’를 설계하여

구축에 반영하는 것이다. 이러한 설계를 바탕으로 한 주제에 대한 분석 뷰(View)들이 구성되어

있어야 한다.

두 번째가 혁신적인 서비스(혹은 신규 비즈니스 모델)를 지원하는 도구로서의 역할이다. 기업은

각각의 비즈니스 혹은 서비스 모델을 유지하며 경쟁하고 있다. 경쟁환경에서 살아남기 위하여

혁신적인 서비스 개발을 위해 총력을 기울이고 있다. 데이터 서비스를 통하여 비즈니스를

수행하는 기업이 아니라면, 신규 서비스를 창출하기 위하여 기존 및 경쟁환경을 이해하기 위하여

빅데이터 분석정보를 활용할 수 있다는 것이다. 즉, 빅데이터를 활용한 신규 비즈니스 모델을

도출하는 것이 아니라 신규 비즈니스 모델을 도출하는데 빅데이터를 활용한다는 것이다. BI를

통하여 신규 상품 및 신규 서비스(예. 통신사의 경우 번들링 요금제, 증)를 출시하는데 사용한

성공사례들이 있듯이, 빅 데이터를 통해 신규 비즈니스 모델의 구체화 인사이트를 확보할 수

있을 것이다. 빅데이터가 신규 비즈니스 모델의 중심이 아니라 도구이여야 한다.

세 번째, 진정한 개인화 서비스를 제공하는데 활용하는 것이다. 기 축적된 고객정보와

실시간으로 획득되는 외부 정보를 연계하여 좀 더 정교한 고객 맞춤형 서비스를 제공할 수 있다.

물론, 내부정보와 획득정보를 연계할 수 있는 키관리를 전제하여야 하지만, 따라서 빅데이터가

획득되는 경로인 SMS환경은 새로운 고객 서비스 채널 및 정보원천으로 활용된다.

정보활용 측면에 있어서 가장 중요한 것은, 사용자가 빅데이터라는 도구를 어디에, 어느 시점에,

무엇을 위해서 활용할지를 선택하는 것이며, 이러한 선택의 유효적절성이 빅데이터 활용성과

Page 11: 빅데이터 분석 필요 요소_kt_0320

11

정도를 측정하는 지표일 것이다.

4. 빅데이터 시대 BI구축 방안

다양한 분야 및 산업에서 활용사례가 나타나고, 예측되고 있지만 현재까지 뚜렷한 Best

Practice 가 없는 상황에서, BI를 중심으로 적용하는 방안에 대하여 기술할 것이며, BI구축을

위하여 무엇이 달라져야 하는지에 대한 고찰도 의미가 있을 것으로 판단한다.

<그림 6. Hype Cycle for BI 2011> <그림6>을 가지고 BI프로젝트에서 고려하여야 하는 사항을 그룹핑하여 보면 BI프로젝트의

범위, 활용 패턴, 프로젝트 유형을 판단할 수 있으며, 정보 신뢰성 향상을 위한 ‘정보의

의미(Meaning of Information)’관리의 중요성을 파악할 수 있다. 이들은 BA와 Big Data

관점에서 BI를 구현하기 위해 과거에 비해 중요성이 증가된 사항들이다.

<표3. 주요 관점별 BI 구현 변경사항>

주요 관점 BI 구현 변경사항 내용

BA

BI 프로젝트 범위

- Business Activity Monitoring

- Predictive Analysis

- Content Analysis

Meaning Of Information

- 비즈니스 용어 정의

- 메터데이터 및 데이터 품질

- 비즈니스 룰 관리 저장소, 등

Big Data BI 활용 패턴 - Collaboration Decision Making

(예. 분석 정보 + 소셜미디어 정보)

Page 12: 빅데이터 분석 필요 요소_kt_0320

12

- 실시간 의사결정

- 정보생명주기 관리, 등

프로젝트 유형 - 컨설팅 및 구현

구축을 위하여 컨설팅 단계(정보화 계획 및 요건분석 단계), 설계단계 및 구현단계로 크게

분리하여 살펴보기로 하겠다.

4.1. 컨설팅 및 분석단계

본 단계에서는 정보활용 전략 및 분석 요건 도출을 수행하며, BA를 고려하여 전략과 요건을

정의한다.

Fixed(기업 내부 혹은 외부에서 확보한 구조적 데이터) 정보 기반 : 유형별 분석

시나리오 개발

Un-Fixed 정보 기반 : 예측 및 시뮬레이션 기반 분석 시나리오 개발

분석경로 정의 : 상기 유형의 시나리오를 구성하는 분석 뷰(View)의 분석 순서 및

분석 방안(순차적 혹은 병렬적)을 정의

이 단계에서 추가적으로 고려하여야 하는 것들은, 분석주제 영역의 다양성이다. 기존

BI영역에서 주를 이루던 고객, 서비스/상품, 채널 등등의 분석 영역 외에 경영계획, 기업성과관리

및 재무영역 등에 대한 포괄적인 분석영역을 고려하여야 한다.

원천정보를 생성하는 정보원천은, 기간계 시스템(ERP, MIS, CRM 등)외에 SNS, 멀티미디어

컨텐츠, M2M에서 발생하는 실시간 캡쳐링되는 정보 등등 포괄하는 범위로 검토하여야 한다.

4.2. 설계단계

아키텍쳐 설계 및 구성요소 설계에 있어서는,

Volume 측면에서는 Information Life-Cycle Management : 활용 특성에 따라 실시간

성, 준 실시간성 및 배치성 정보, 혹은 규제에 의한 저장용도 등의 기준들을 설정하고

관리 정책에 따라 정보를 필요한 위치에 저장 관리하는 활동에 대한 설계가 필요

Velocity 측면에서는 In-Memory 처리, HDFS(Hadoop File System), Big Data

Appliance 등에 대한 아키텍쳐를 설계 하여야 함

Variety 측면에서는, 분석요건(활용 시나리오)의 특성에 따라 정형, 비정형 및 반정형

형태의 데이터를 인터페이스 하는 아키텍쳐를 설계 에 반영하여야 한다.

Data Positioning은 Volume 측면의 ILM과 맥락을 같이하는 기능들을 고려하여야

하며, 활용 특성에 따라 데이터를 어느 위치에 저장할지에 대한 1차적인 정의

수행하여야 한다. 물론 구축 단계에서 실제적(물리적으로 구성)인 위치를 재 정의할 수

Page 13: 빅데이터 분석 필요 요소_kt_0320

13

있다.

사용자 인터페이스 측면에서는 다양한 형태의 데이터를 조합하여 활용하는 사용자의

활용 편의성 제고를 위하여 비쥬얼 분석에 대한 고려가 가장 중요한 요소이며, 정보의

명확한 의미를 공유할 수 있도록 비즈니스 용어를 관리할 수 있는 기능이 제공되어야

한다. 물론, 이 용어 관리 기능에서는 데이터의 변형단계, 산출 룰 등의 내재된 정보도

포함하여야 한다.

조직 적인 측면에서의 설계는, 기존의 BICC(BI Competency Center)의 기능이 확장된

BACC(Business Analytics Competency Center)에 대한 고민을 반영하여야 하며,

기업의 특성에 부합하는 데이터 사이언티스트의 역할에 대한 정의도 수반되어야 할

것이다.

4.3. 구현단계

기존의 BI구축이든, 빅데이터를 고려한 구축이든 중요한 것은, 사용자가 가공된 정보에

기반하여 의사결정을 내리고 경영의 방향에 영향을 미치므로, 정보의 신뢰성이다. 여기에 외부에

존재하는 정보에 대한 신뢰성 정도는 다양한 유형의 정보의 활용이 얼마나 효율적인지를

평가하는 척도이다. 따라서, 지금은 그 어느 때보다도 정보의 품질에 대한 중요성이 높은

상황이며 이데 대한 적정한 수준의 품질포장 정책이 수립 반영되어야 한다.

상기 항목들을 고려한 아키텍쳐는 적어도 아래의 요소들을 포함하고 있어야 할 것이다.

<표4. 아키텍쳐 구성요소>

구분 역할 및 기능 비고

① ⑨ 실시간 분석을 지원하기 위한 실시간 툴 및 통계 CDC, EII

② ③ ⑬ Big Data분석을 위한 정보원천의 확대, 정보포맷 유형별 수집

도구, 텍스트 마이닝을 통한 Key Word분석 등

④ 사외정보와 사내정보간의 연계Bridge 역할을 할 수 있는 주요

Key Values/연계식별자, Key Words

⑤ 사내.외 정보 연계를 통한 정보취합/활용지원

⑥ Case/Scenario기반의 의사결정 및 예측을 지원할 수 있도록

구성된 DB영역

테스트베드의

성격 포함

⑦ ⑧

장기간의 Historical정보, 성능 및 비용이 저렴한 HW활용,

단, 대량의 정보를 분석하여야 하므로 이에 특화된 분석도구

필요

응답속도에

민감하지 않은

분석

⑩ ⑪ ⑫ 시뮬레이션 가능 모듈, Social Target Marketing 수행 기능,

경영성과 및 KPI등 관리

Page 14: 빅데이터 분석 필요 요소_kt_0320

14

<그림 7. Big Data Analytics 아키텍쳐>

5. 도구로서 빅데이터

끝으로, 빅데이터 시대에 부응하면서 가장 효과적으로 IT자원을 활용할 수 있는 방안에

대해서는 많은 고민들이 필요할 것이라 판단하며, 이러한 고민들에 앞서 전하고 싶은 메시지를

요약하자면,

첫째, 고정된 분석대상 빅데이터가 있는 것이 아니라, 직면한 이슈를 해결하기 위하여 필요한

정보가 무엇인지에 대한 정의를 선행하고 이에 따라 필요한 데이터를 어디서 확보할 수 있는지를

판단하여야 필요한 빅데이터가 정해지는 것,

둘째, 정보활용(정보원천이 기업 내.외부 경계 없이)에 대한 시나리오를 명확하게 작성한 후,

필요한 정보원천을 고민, 즉, 빅데이터를 모아 놓고 분석하면 유용한 통찰력을 도출할 수 있는

것이 아니라, 유용한 통찰력이 필요한 이슈나 문제에 대한 선 정의 후 필요 데이터를 찾아라.

이것이 ‘Big Data is not Big Traffic’이다.

끝으로, 빅데이터를 활용한 신규 비즈니스 모델을 도출하는 것이 아니라 신규 비즈니스 모델을

도출하는데 빅데이터를 활용한다는 것이다. 빅 데이터를 통해 신규 비즈니스 모델의 구체화

Page 15: 빅데이터 분석 필요 요소_kt_0320

15

인사이트를 확보할 수 있을 것이다. 빅데이터가 신규 비즈니스 모델의 중심이 아니라 도구이여야

한다.

참고문헌

1) 한국정보문화진흥원(2011), 新가치창출 엔진, 빅 데이터의 새로운 가능성과 대응 전략, pp. 18.

2) 울프 필칸(2009), 트렌드와 시나리오, pp62, 155 발췌 편집, (주) 웅진씽크빅 刊

3) www.bicdata.com, “빅데이터 후폭풍….금융권, BI 고도화 총력전”기사 발췌