빅데이터의 현실, 기대와 큰 격차 · 빅데이터의 현실, 기대와 큰 격차...

14
LGERI 리포트 2 LG Business Insight 2015 3 11 빅데이터가 미래 세상을 바꿀 주요 동인으로 주목받고 있고 향후 시장이 크게 성장할 것으로 기대되고 있지 만, 아직 현실적으로는 많은 기업들이 빅데이터를 활용하는데 어려움을 겪고 있다. 데이터 확보의 문제, 정보보 호 및 보안의 문제, 예산 문제, 분석 역량 및 전문가 부족 문제 등이 빅데이터 활용을 어렵게 하는 요인들이다. 외부 데이터는 고사하고 기업 내부 데이터들도 파편화되어 통합되어 있지 않은 경우가 많다. 또한 필요한 외부 데이터가 있어도 확보하기 어려운 경우가 많다. 이미지, 텍스트, 동영상 등 비정형 데이터들은 확보하기도 어렵 지만 의미 있는 결과를 얻을 수 있을 정도로 기술 수준도 충분히 발달하지 못하였다. 특히 영어에 비해 한글 텍 스트 분석은 더 어렵고 갈 길이 멀다. 개인정보보호에 따른 리스크도 크다. 개인정보는 특정 개인을 식별할 수 없도록 하는 비식별화 조치를 취한 후에 이용할 수 있지만, 비식별화가 생각보다 쉽지 않다. 수집되는 데이터 소스가 다양해지고 데이터 마이닝 등 분석 기법이 정교해지면서 개인정보의 비식별화는 점점 더 어려워지고 있 다. 데이터 과학자에 대한 수요는 급증하고 있는 반면 공급이 수요를 따라가지 못하면서, 빅데이터 관련 인력 수 급의 불균형 또한 장애 요인이 되고 있다. 빅데이터를 활용하는데 어려움이 있지만, 가용하기 비교적 쉬운 데이터 분석으로 접근하여 오히려 성과를 내고 있는 사례들도 많다. 코노코필립스, 유나이티드 헬스케어, 클라이밋 코퍼레이션 등은 기업 내부 데이터나 외부 공개 데이터 같이 비교적 손쉽게 얻을 수 있는 데이터를 가지고 의미 있는 결과를 도출하였다. 그리고 제 스트파이낸스와 트립어드바이저는 다양한 비정형 데이터를 활용한 사례이다. 비정형 데이터가 처리, 정제 및 분 석 기술의 한계 때문에 분석하는 것이 어렵지만 분석의 대상을 잘 디자인 할 경우 적지 않은 성과를 낼 수 있 음을 보여주는 사례들이다. 아직은 복잡하고 정제되지 않은 데이터로부터 신호와 노이즈를 구분해 내기가 어렵 지만 선별과 정제 과정을 거치면서 분석 역량을 높여가는 것이 당장의 성과뿐 아니라 미래를 위한 역량 축적을 위해서도 필요한 과정으로 보인다.■ 빅데이터의 현실, 기대와 큰 격차 가용한 데이터 분석으로 성과 거둔 사례들 김민희 책임연구원 [email protected] 1. 기대에 비해 더딘 진행 2. 빅데이터 활용을 어렵게 하는 요인들 3. 가용한 데이터부터

Upload: others

Post on 26-May-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 빅데이터의 현실, 기대와 큰 격차 · 빅데이터의 현실, 기대와 큰 격차 가용한 데이터 분석으로 성과 거둔 사례들 김민희 책임연구원 mhkim0325@lgeri.com

LGERI 리포트

2 LG Business Insight 2015 3 11

빅데이터가 미래 세상을 바꿀 주요 동인으로 주목받고 있고 향후 시장이 크게 성장할 것으로 기대되고 있지

만, 아직 현실적으로는 많은 기업들이 빅데이터를 활용하는데 어려움을 겪고 있다. 데이터 확보의 문제, 정보보

호 및 보안의 문제, 예산 문제, 분석 역량 및 전문가 부족 문제 등이 빅데이터 활용을 어렵게 하는 요인들이다.

외부 데이터는 고사하고 기업 내부 데이터들도 파편화되어 통합되어 있지 않은 경우가 많다. 또한 필요한 외부

데이터가 있어도 확보하기 어려운 경우가 많다. 이미지, 텍스트, 동영상 등 비정형 데이터들은 확보하기도 어렵

지만 의미 있는 결과를 얻을 수 있을 정도로 기술 수준도 충분히 발달하지 못하였다. 특히 영어에 비해 한글 텍

스트 분석은 더 어렵고 갈 길이 멀다. 개인정보보호에 따른 리스크도 크다. 개인정보는 특정 개인을 식별할 수

없도록 하는 비식별화 조치를 취한 후에 이용할 수 있지만, 비식별화가 생각보다 쉽지 않다. 수집되는 데이터

소스가 다양해지고 데이터 마이닝 등 분석 기법이 정교해지면서 개인정보의 비식별화는 점점 더 어려워지고 있

다. 데이터 과학자에 대한 수요는 급증하고 있는 반면 공급이 수요를 따라가지 못하면서, 빅데이터 관련 인력 수

급의 불균형 또한 장애 요인이 되고 있다.

빅데이터를 활용하는데 어려움이 있지만, 가용하기 비교적 쉬운 데이터 분석으로 접근하여 오히려 성과를

내고 있는 사례들도 많다. 코노코필립스, 유나이티드 헬스케어, 클라이밋 코퍼레이션 등은 기업 내부 데이터나

외부 공개 데이터 같이 비교적 손쉽게 얻을 수 있는 데이터를 가지고 의미 있는 결과를 도출하였다. 그리고 제

스트파이낸스와 트립어드바이저는 다양한 비정형 데이터를 활용한 사례이다. 비정형 데이터가 처리, 정제 및 분

석 기술의 한계 때문에 분석하는 것이 어렵지만 분석의 대상을 잘 디자인 할 경우 적지 않은 성과를 낼 수 있

음을 보여주는 사례들이다. 아직은 복잡하고 정제되지 않은 데이터로부터 신호와 노이즈를 구분해 내기가 어렵

지만 선별과 정제 과정을 거치면서 분석 역량을 높여가는 것이 당장의 성과뿐 아니라 미래를 위한 역량 축적을

위해서도 필요한 과정으로 보인다.■

빅데이터의 현실, 기대와 큰 격차가용한 데이터 분석으로 성과 거둔 사례들

김민희 책임연구원 [email protected]

1. 기대에 비해 더딘 진행

2. 빅데이터 활용을 어렵게 하는 요인들

3. 가용한 데이터부터

Page 2: 빅데이터의 현실, 기대와 큰 격차 · 빅데이터의 현실, 기대와 큰 격차 가용한 데이터 분석으로 성과 거둔 사례들 김민희 책임연구원 mhkim0325@lgeri.com

LGER

I 리포

LG Business Insight 2015 3 11 3

대다수 국내 기업들은

빅데이터를 제대로

활용하지 못하고

있다.

“1. 기대에 비해 더딘 진행

빅데이터는 ‘21세기 원유’라고 불리며, 수년 전부터 관심을 끄는 주요 IT 트렌드가

되었다. 리서치 회사인 위키본(Wikibon)은 빅데이터 시장의 규모가 2015년에 384

억달러에 이르고, 2017년에는 501억달러 규모로 성장할 것으로 전망하였다. 다른

시장조사기관인 IDC도 다소 수치상의 차이는 있으나1 향후 빅데이터에 대한 수요가

급증할 것이라고 예측하였다. 기업들의 빅데이터 투자에 대한 관심도 꾸준히 증가

하고 있다. 미국 IT 리서치 기업인 가트너(Gartner)가 기업 IT 책임자들을 대상으로

실시한 조사 결과에 따르면, 빅데이터 투자 계획이 있다고 응답한 비율이 2013년

64%에서 2014년 73%로 증가한 반면, 투자 계획이 전혀 없다고 응답한 비율은 2013

년 31%에서 2014년 24%로 감소한 것으로 나타났다.

전세계적으로 빅데이터 시장이 지속적으로 성장할 것으로 전망되지만, 빅데이터에

대한 회의론도 나타나고 있다. 가트너는 2014년 기준으로 빅데이터가 과잉 기대의 정

점을 지나 ‘환멸기(Trough of Disillusionment)’ 단계에 진입하였다고 한다. 이는 빅데이

터 기술이 이미 널리 알려지고 그 한계를 드러내면서 어느 정도 거품이 꺼진 상태가 되

었음을 의미한다. 빅데이터의 효과에 대한 의문도 꾸준히 제기되고 있는데, 2013년에

미국의 컨설팅 회사인 인포침스(Infochimps)의 조사 결과도 전체 빅데이터 프로젝트

중 절반 이상이 실패했으며 성공한 기업들조차 운영 효율 측면에서는 성공하지 못했음

을 보여주고 있다. 또한 빅데이터 프로젝트를 통해 제대로 된 효과를 거두었다고 응답

한 기업이 열 개 중 한 개도 되지 않는다는 조사결과도 있다2.

국내의 경우는 빅데이터 산업의 발전이 더 더디게 진행되고 있는 것으로 보인다.

IT 미디어 전문기업인 한국IDG가 지난해 초 국내 IT 전문가 및 관련 담당자들을 대

상으로 조사한 결과에 따르면, 국내에서 빅데이터 기술을 도입한 기업은 11%에 불과

하다. 향후 2년 내에 도입할 예정인 기업도 1/3 수준인 것으로 조사되었다. 구글, 아

마존, 페이스북 등 해외 글로벌 기업들이 빅데이터의 중요성과 그로 인한 잠재가치를

크게 평가하고 실질적인 빅데이터 활용 역량을 내부적으로 축적하고 있는 것과는 달

리 대다수 국내 기업들은 빅데이터를 제대로 활용하지 못하고 있는 것으로 보인다.

1 빅데이터 시장의 규모가 연평균 26%씩 성장하여 2018년에 415억달러 규모에 이를 것으로 전망(IDC, 2014.10).

2 “빅데이터 효과 거둔 기업 고작 7%… 원인은 잘못된 접근방식”(전자신문 2013.5.15)

Page 3: 빅데이터의 현실, 기대와 큰 격차 · 빅데이터의 현실, 기대와 큰 격차 가용한 데이터 분석으로 성과 거둔 사례들 김민희 책임연구원 mhkim0325@lgeri.com

LGERI 리포트

4 LG Business Insight 2015 3 11

2. 빅데이터 활용을 어렵게 하는 요인들

지난해 대한상공회의소의 조사 결과에 따르면, 500개 국내 기업들이 생각하는 빅데

이터 활용의 가장 큰 걸림돌은 ‘데이터 분석 역량 및 경험 부족’, ‘시스템 구축비, 관

리비 등 예산 부족’, ‘정보보호 및 안정성에 대한 우려’ 등이다(<그림 1> 참조).

또한 비즈니스 인텔리전스 업체인 마이크로스트레티지코리아와 한국IDG도 국

내 전문가 1,030명을 대상으로 빅데이터를 도입하려고 할 때 어려운 사항으로 어떤

것들이 있는지를 조사하였다. 그 결과 ‘신뢰할 수 있는 데이터 확보’, ‘분석 역량(사

람)’, ‘데이터의 다양성’, ‘비용’ 순으로 어려움을 느끼는 것으로 나타났다(<그림 2>

참조). 빅데이터를 도입하고자 하는 단계이므로 데이터를 어떻게 확보할 것인지와

어떠한 분석을 하여 기업에게 보다 가치 있는 결과를 도출해낼 것인지에 대해 어려

움을 겪고 있고, 실제 빅데이터 프로젝트를 진행하는 단계에서는 데이터 통찰력을

가진 인력 부족에 대해 가장 크게 어려움을 느끼는 것으로 나타났다3. SAS나 R 같

은 분석 엔진이 갖추어져 있더라도 이것은 분석을 위한 소

프트웨어일 뿐이고, 최종적으로 통찰력을 끄집어내는 것

은 해당 업무 분야에 대한 지식과 함께 분석 역량까지 갖추

고 있는 사람이기 때문이다.

이상의 조사결과들을 종합하여 빅데이터의 활용을 저해

하는 요인들을 ‘데이터 확보의 문제’, ‘정보보호 및 보안에 대

한 우려’, ‘예산 문제’, ‘분석 역량 및 분석가 부족의 문제’로 나

누어 하나씩 구체적으로 살펴보면 다음과 같다.

데이터 확보의 문제

오늘날 사람들은 매 순간 기술을 이용하면서 디지털 정보

를 남긴다. 디지털 기기들과 웹사이트들에 계속해서 쌓이

는 외부의 디지털 정보들이 기업 내부의 재무, 마케팅, 판

3 ‘데이터 통찰력을 가진 인력 부족’(61.7%), ‘빅데이터에 대한 이해 부족’(50.1%), ‘데이터 정합성/신뢰도’(43.2%) 순으로 나타남(마

이크로스트레티지코리아와 한국IDG, 2014.9).

기업들은 빅데이터를

도입하려고 할 때

신뢰할 수 있는

데이터를 확보하는데

어려움을 느끼고

있다.

17.5

19.4

15.9

15.1

12.5

19.6데이터 분석 역량 및 경험 부족

적합한 데이터 관리 솔루션의 부재

투자 대비 수익(ROI)의 불투명성

빅데이터에 준비되지 않은 기업문화

시스템 구축비, 관리비 등 예산 부족

정보보호 및 안정성에 대한 우려

(단위: %)

<그림 1> 빅데이터 활용의 걸림돌

자료 : 대한상공회의소, 2014.6

기타

비용

분석 역량(사람)

데이터 처리 속도

신뢰할 수 있는 데이터 확보

사내 데이터 통합

데이터의 다양성

데이터 량 35.0

45.0

35.1

64.0

41.6

56.8

43.2

2.2 (단위: %)

<그림 2> 빅데이터 프로젝트를 도입할 때 고민 사항

자료 : 마이크로스트레티지코리아와 한국IDG, 2014.9

Page 4: 빅데이터의 현실, 기대와 큰 격차 · 빅데이터의 현실, 기대와 큰 격차 가용한 데이터 분석으로 성과 거둔 사례들 김민희 책임연구원 mhkim0325@lgeri.com

LGER

I 리포

LG Business Insight 2015 3 11 5

매 등의 데이터와 합쳐지면 그것이 바로 빅데이터가 된다.

내부 데이터의 경우 데이터를 생산하는 주체, 분석하는 주체, 사용하는 주체가

다 다르기 때문에 빅데이터로 만들어지지 못하는 경우가 많다. 마케팅, 영업, 기획,

회계 등 부서별로 데이터의 형식과 의미를 다르게 받아들이고 사용한다면, 연계 및

공동 활용 시에 문제가 발생할 여지가 있다.

외부 데이터의 경우, 정부 및 공공기관이 보유한 각종 통계 데이터, 기후 정보, 지

도 정보 등 비교적 어렵지 않게 확보할 수 있는 외부 데이터도 있지만, 기업의 입장에

서 시간이나 비용 등의 대가를 지불하더라도 확보하기 어려운 경우가 아직은 많다.

기업이 원하는 데이터가 아직 분석이 가능한 수준으로 개발되지 않은 경우가 많고,

데이터가 존재한다고 하더라도 데이터를 공유 및 구매하기 어려운 경우도 많다.

또한 웹 로그 데이터, 음성 데이터, 이미지 데이터, 텍스트 및 이미지나 동영상이

조합된 데이터 등 다양한 형태와 유형을 가진 비정형 데이터의 양이 급격하게 증가하

면서 그 중요성도 부각되고 있다. 그러나 비정형 데이터는 많은 경우 제대로 분석되

지 않은 채 유실되고 있다. 2014년 기업이 분석중인 빅데이터 형태를 묻는 가트너의

조사 결과에 따르면, 정형 데이터인 거래 정보를 분석하고 있는 기업은 전년 대비 9%

증가한 79%인 반면, 비정형 데이터인 로그 정보를 분석하고 있는 기업은 오히려 2%

하락한 58%로 나타났다.

확보한 데이터의 품질도 문제가 된다. 기업들이 외부에서 데이터를 수집하고 활용

하는 기회가 늘어나면서 출처가 불명확하거나 질이 떨어지는 데이터가 섞여 들어오기

때문이다. 그리고 소셜 미디어의 사용자 편향성, 기업들이 지원하는 대가성 소셜 미디

어 평가와 리뷰가 증가하는 현상, 쓸모 없는 정보가 많아져서 오히려 진정성 있는 고

객의 목소리가 모호해지는 상황 등으로 인해 소셜 데이터의 양과 질의 문제도 끊임없

이 지적되고 있다4.

정보보호 및 보안에 대한 우려

기업이 활용하는 데이터의 범위가 광범위하게 넓어지면서 개인정보보호에 관한 문

제는 반드시 해결해야 할 과제가 되었다. 현행 정보통신망법 등 개인정보보호 관련

4 걸음마 뗀 소셜 분석, 한계 아는 만큼 가치가 보인다 (LG Business Insight, 2013.2.20)

소셜 미디어의 사용자

편향성, 대가성 소셜

미디어 평가와 리뷰가

증가하는 현상 등으로

인해 소셜 데이터의

양과 질의 문제도

끊임없이 지적되고

있다.

Page 5: 빅데이터의 현실, 기대와 큰 격차 · 빅데이터의 현실, 기대와 큰 격차 가용한 데이터 분석으로 성과 거둔 사례들 김민희 책임연구원 mhkim0325@lgeri.com

LGERI 리포트

6 LG Business Insight 2015 3 11

법령상 개인정보를 수집하고 이용하고자 할 때는 이용자의 사전동의를 반드시 받아

야 한다. 그러나 빅데이터는 대량의 데이터를 수집하고 처리해야 하는 작업이므로

개인들에게 사전동의를 일일이 받는 것이 쉽지 않다. 또한 빅데이터는 다른 데이터

와 결합하여 재사용될 때 실제적으로 가치를 발현하게 되는데, 정보 활동 방법에 대

한 사전동의는 이것을 어렵게 만든다. 방송통신위원회가 개인정보보호를 위해 기업

이 지켜야 할 사항을 구체적으로 규정한 ‘빅데이터 개인정보보호 가이드라인’을

2014년 12월에 발표하였다. 이에 따르면, 다른 정보와 결합하더라도 특정 개인을 식

별할 수 없도록 하는 비식별화 조치를 취한 경우에 한해 이용자들의 동의 없이 개인

정보를 수집·이용하고, 이를 제3자에게 제공할 수 있으며, 이용자가 거부 의사를

표시하지 않는 한 내부에서 이용할 수 있도록 규정하고 있지만, 비식별화가 생각보

다 쉽지 않다는 점이 문제이다.

수집되는 데이터 소스가 다양해지고 데이터 마이닝 등 분석 기법이 정교해지면

서 개인정보 비식별화는 점점 더 어려워지고 있다. 실제로 미국 MIT대 컴퓨터공학

부에 재학 중인 학생들은 페이스북의 인맥 정보 등을 활용하여 비공개 정보도 간접

적으로 찾을 수 있음을 증명하였다. 그들은 페이스북 회원들 사이의 인맥 링크의 연

관성을 찾아내어 동성애자 여부를 밝히지 않은 회원도 동성애자인지 아닌지를 알아

낼 수 있음을 보여주었다. 개인들이 공개하기를 원하지 않는 정보도 다른 공개된 정

보를 조합함으로써 알아낼 수 있음을 보여주는 사례라고 할 수 있다. 미국의 일부

헬스케어 기업들은 개인 의료 기록에 접근하지 않으면서도 데이터 브로커, 약국,

SNS가 제공하는 빅데이터로부터 개인 의료 정보를 간접적으로 수집하고 있다고 한

다5. 이들은 데이터 마이닝을 통해 개인 의료 정보를 프로파일링하고 이를 기

반으로 임상실험 대상자를 찾아내는 것으로 알려져 있다. 미국에서 환자의 의

료기록에 있는 개인식별 가능한 정보는 보호되고 있지만, 그들이 쇼핑한 내역,

인터넷을 검색하면서 남긴 건강 정보나 콘텐츠 이용 정보, 자동차 소유 여부

등 라이프스타일 정보들은 보호받지 못하고 있기 때문이다.

개인정보보호의 문제와 함께 개인정보유출 등과 같은 보안의 문제도 중요

한 이슈이다. 보안회사 세이프넷(SafeNet)이 제공하는 지난해 ‘개인정보 유출

5 “Data Mining to Recruit Sick People”(The Wall Street Journal 2013.12.17)

수집되는 데이터

소스가 다양해지고

데이터 마이닝 등 분석

기법이 정교해지면서

개인정보 비식별화는

점점 더 어려워지고

있다.

<표 1> 방송통신위원회에 신고된 개인정보 누출 신고 현황

자료 : 방송통신위원회

구분개인정보

누출 신고현황

개인정보

누출 수

2012년 17건 903,771명

2013년 5건 187,209명

2014년 64건 20,461,648명

합계 86건 21,552,628명

Page 6: 빅데이터의 현실, 기대와 큰 격차 · 빅데이터의 현실, 기대와 큰 격차 가용한 데이터 분석으로 성과 거둔 사례들 김민희 책임연구원 mhkim0325@lgeri.com

LGER

I 리포

LG Business Insight 2015 3 11 7

사고 TOP’ 15위6를 살펴보면, 15위권에 한국이 6개나 포함되어 있다. 2013년 대비

2014년에 국내에서 개인정보 유출사고가 더 많이 발생하였으며 리스크 스코어도 크

게 증가하였음을 확인할 수 있다. 최근 기업들의 광범위한 데이터 수집으로 인해 개

인정보 유출사고가 많이 나타나고, 사고 규모가 대형화되면서 이로 인한 리스크도

증가하고 있는 것으로 보인다. 방송통신위원회의 자료에 따르면, 지난 3년간 개인

정보가 유출된 건수는 2,155만건에 달하며, 2012년의 90만건에서 2014년에 2천만

건으로 폭증하였음을 알 수 있다(<표 1> 참조).

예산 문제

단순히 비용이 문제가 아니라 투자 대비 수익(ROI) 측면에서 확신이 없어서 빅데이

터의 도입을 망설이는 경우가 있다. 물론 이런 경우에는 현업 부서에서 부분적으로

적용하여 빅데이터 활용의 가능성을 확인한 후에 전사적으로 확대 적용하는 것도

하나의 방안이 될 수 있다. 또한 빅데이터 기술 인프라를 가지고 있는 기업과 기술

제휴나 MOU 체결 등을 통해 빅데이터를 기반으로 한 시스템을 공유하는 것도 생각

해 볼 수 있다. 그러나 이런 방안들은 전사 차원으로 빅데이터를 도입하기 전의 과

도기적인 대안이라고 할 수 있다.

하둡(Hadoop)7 등 공개소프트웨어(OSS: Open Source Software)를 활용하면

예산은 확실히 줄일 수 있다. 전통적인 관계형 데이터베이스에서 1TB를 1년간 저장

하는 비용이 3만 7천달러, 데이터 장치에서는 5천달러가 소모되지만, 하둡에서는 2

천달러만으로 가능하기 때문이다8. 그러나 하둡을 도입하고자 할 때는 보다 신중하게

접근을 할 필요가 있다. 최근 개발업체 패러다임4(Paradigm4)가 ‘빅데이터 분석에서

의 장애물’이라는 주제로 실시한 설문조사에 따르면, 분석가들 중 3/4 이상이 하둡

또는 하둡 배포 파일시스템에 구축된 연산 프레임워크인 스파크(Spark)를 사용하고

있지만9 하둡은 너무 느리고 프로그래밍에도 많은 노력을 요하는 등 각종 한계점을

가진다고 지적하고 있다. 비용 측면에서 보아도, 하둡이나 NoSQL 데이터베이스 등

6 http://www.breachlevelindex.com/#!breach-database

7 하둡은 오픈 소스로 공개된 대규모 데이터의 분산처리 기술임.

8 빅 데이터 @ 워크: 똑똑하게 다루고 적용하는 새로운 빅 데이터 패러다임, 2014.6

9 “하둡을 사용할 때와 하지 않을 때”(ITWorld 2014.8.14)

개인들이 공개하기를

원하지 않는 정보도

다른 공개된 정보를

조합함으로써

알아낼 수 있는 경우가

많다.

Page 7: 빅데이터의 현실, 기대와 큰 격차 · 빅데이터의 현실, 기대와 큰 격차 가용한 데이터 분석으로 성과 거둔 사례들 김민희 책임연구원 mhkim0325@lgeri.com

LGERI 리포트

8 LG Business Insight 2015 3 11

공개소프트웨어를 다룰 수 있는 기술을 보유한 인력이 기업 내부에 없다면 오히려 인

력에 대한 비용이 급격히 커지거나 의미 있는 분석 결과를 얻지 못할 가능성도 있다.

분석 역량 및 분석가 부족의 문제

빅데이터 프로젝트에서 가장 어려운 부분은 역량 있는 분석 인력을 확보하는 것이

다. 빅데이터와 분석 솔루션을 갖추었다고 할지라도 가치 있는 결과를 도출해낼 수

있는 데이터 과학자가 없다면 무용지물이 될 수 있다. 데이터 과학자는 기술, 산업,

통계에 대한 다양한 전문 지식을 바탕으로 여러 소스를 통해 유입된 데이터 속에서

숨겨진 가치를 찾아내고 의미 있는 통찰력을 제시할 수 있는 인재를 말한다. 빅데이

터에 대한 관심이 커지기 시작하던 초기에 한 아마존 수석 엔지니어는 포브스와의

인터뷰에서 데이터 과학자의 자질로 데이터를 분석하고 살펴볼 수 있는 수학적인

재능과 각종 솔루션을 사용할 수 있는 공학적인 능력은 기본이고 더불어 인문적인

소양도 필요하다고 언급하였다10. 가설을 세우거나 검증하는데 필요한 비판적인 시

각과 글쓰기 능력, 다른 사람에게 내용을 잘 전달할 수 있는 표현 및 대화 능력, 그

리고 호기심과 개인의 행복도 중요하게 요구되는 자질로 선정되었다.

전세계적으로 데이터 과학자에 대한 수요는 급증하고 있는 반면, 공급이 수요를

따라가지 못하면서 인력 수급의 불균형 문제도 해결되어야 할 과제다. 액센츄어

(Accenture)의 2013년도 보고서는 미국 내에서 2010년과 2015년 사이에 40만명의

데이터 분석 관련 일자리가 생겨날 것이지만 이에 적합한 자격을 갖춘 인력은 14만

명 정도에 불과할 것으로 보았다11. 영국의 비영리단체인 e-skills UK도 2017년까

지 영국 내 빅데이터 인력의 수요는 6만 9천명으로 전망되나 공급은 절반에도 못 미

칠 것으로 예측하였다12. 한편 국내에서 빅데이터 관련 인력 수급의 불균형은 보다

더 심각한 문제가 될 것으로 전망되고 있다. 2017년까지 국내에서 빅데이터 전문 인

력으로 1만 4천명 정도가 필요하지만, 현재 국내 6개 대학원에서 배출되는 인력은

170명 정도13에 불과한 것으로 조사되었다.

10 “Amazon's John Rauser on “What Is a Data Scientist?””(Forbes 2011.10.7)

11 The Team Solution to the Data Scientist Shortage, Accenture Institute for High Performance, 2013

12 국내외 기업과 정부의 빅데이터 인력 수급을 둘러싼 현안과 해결책 모색을 위한 행보, 2013.12

13 빅데이터 커리큘럼 참조 모델 Ver 1.0, 한국정보화진흥원, 2014.3

데이터 과학자에 대한

수요는 급증하고 있는

반면, 공급이 수요를

따라가지 못하고

있다.

Page 8: 빅데이터의 현실, 기대와 큰 격차 · 빅데이터의 현실, 기대와 큰 격차 가용한 데이터 분석으로 성과 거둔 사례들 김민희 책임연구원 mhkim0325@lgeri.com

LGER

I 리포

LG Business Insight 2015 3 11 9

3. 가용한 데이터부터

내부 데이터 및 외부 공개 데이터 활용 사례

데이터 확보가 어렵다고 느껴진다면, 우선 사내에 쌓여 있는 내부 데이터부터 분석하

여 의미 있는 결론을 도출하는 작업을 시도하는 것이 유용한 접근법이 될 수 있다. 특

히 비정형 속성이 적은 데이터, 개인정보보호 이슈가 적은 데이터의 분석이 상대적

으로 접근하기 쉽다.

미국 정유회사 코노코필립스(ConocoPhillips)는 시추선 고장이 날 때마다 장애

부품을 파악하고 대체품으로 교체해 수리하기까지 많은 시간과 비용이 낭비되는 문

제를 가지고 있었다. 코노코필립스는 방대한 부품 데이터를 분석하였고, 그 결과 시

추선 고장이 발생하기 전에 나타나는 일관된 패턴을 발견할 수 있었다. 이 분석을

통해 코노코필립스는 고장으로 인한 시추선 가동중단 발생률을 80% 줄이고 운영비

용으로 매년 7억달러를 절감할 수 있었다.

미국의 신시내티 동물원(Cincinnati Zoo)은 6개월간 동물원을 방문한 고객들의 행

아직 갈 길 먼 비정형 데이터 분석 기술

빅데이터 프로젝트에서 기업은 ‘빅’데이터 그 자체가 아니라

‘분석’에 초점을 맞추어야 데이터로부터 보다 가치 있는 결과를

얻을 수 있다. 그런데 하둡, 맵리듀스 등 데이터 관리 측면에서

의 빠른 발전 속도와 달리 빅데이터를 분석하는 기술은 매우

더디게 발전하고 있는 편이다. 빅데이터를 분석하여 성공한 사

례들이 꽤 있지만, 레퍼런스가 될 만한 사례들이 그리 많지 않

고 그 효과가 기대에 미치지 못하는 것도 이것 때문이라고 할

수 있다.

현재 기존의 데이터 마이닝 기법이 빅데이터를 분석할 때 가

장 많이 사용되고 있다. 또한 텍스트, 이미지, 음성 등 비정형

데이터를 분석하기 위해서 감성 분석, 오피니언 마이닝, 텍스트

마이닝, 소셜 네트워크 분석, 시각화 기법, 이미지 마이닝 등이

시도되고 있다.

최근 들어 이미지 정보로부터 패턴을 추출하여 의미를 분석

하는 방법도 소개되고 있기는 하지만, 아직까지는 텍스트에서

의미를 찾는 방법을 중심으로 발전하고 있다. 그러나 문서의 맥

락을 이해한다기보다는 특정 단어가 얼마나 자주 출현하는지,

특정 단어와 함께 자주 언급되는 단어가 어떤 것들이 있는지,

그리고 그 단어들이 긍정의 의미를 가지고 있는지 또는 부정의

의미를 가지고 있는지 등을 단순 집계하는 수준에 불과하다. 특

히, 한 단어가 하나의 형태소인 영어와 달리 한글은 각 단어에

서 형태소를 분리한 후 각각의 품사까지 결정해야 하는 등 훨

씬 더 복잡한 과정을 거쳐야 하기 때문에, 한글의 자연어 처리

연구는 여전히 걸음마 단계에 머물러 있다. 더군다나 한글은 약

어, 사투리, 은어, 반어법적인 표현에 존댓말까지 있어서 분석

하는데 더욱 더 어려움이 따른다.

Page 9: 빅데이터의 현실, 기대와 큰 격차 · 빅데이터의 현실, 기대와 큰 격차 가용한 데이터 분석으로 성과 거둔 사례들 김민희 책임연구원 mhkim0325@lgeri.com

LGERI 리포트

10 LG Business Insight 2015 3 11

외부 데이터라고 해서

무조건 비싸고

이용하기 어려운 것은

아니다.

“동 데이터를 분석하여 마케팅에 활용한 사례이다14. 매출 감소로 어려움을 겪던 신시내

티 동물원은 아이스크림이 해질 무렵에 가장 많이 판매된다는 것을 알아내고 운영시간

을 2시간 연장하는 등 내부에 이미 축적되어 있던 거래 데이터에 기반하여 상품별 마케

팅 전략을 새로 수립하였다. 이를 통해 여름 시즌 동안 아이스크림의 판매가 매일 2천

달러 가량 늘어났으며, 식음료와 유통 상품 판매도 35% 이상 증가하는 효과를 보았다.

국내에서는 코레일이 빅데이터 분석으로 운임체계의 효율성을 높인 것으로 알려져

있다. 공실률을 최소화하여 지난해 수요가 1.5% 늘었으며, 수익도

3.8% 증가했다15. 또한 코레일은 고객의 소리 빅데이터를 분석하여 개

선 과제를 발굴하고 제도를 개선하는 작업도 진행하고 있다.

한편 정형 데이터는 아니지만, 기업 내부의 음성 데이터를 분석

하여 효과를 얻은 사례도 있다. 건강보험회사인 유나이티드 헬스케

어(United Healthcare)는 고객의 불만을 더 잘 이해하기 위해 콜센터

에 걸려온 고객의 음성 전화 기록을 텍스트로 변환하여 분석하였다.

유나이티드 헬스케어는 텍스트 분석을 통해 강한 불만을 느끼고 있

는 고객들을 찾아내고 이 고객들이 느끼고 있는 불만을 해결해 줌으

로써 고객들의 만족감을 향상시키고 그들의 이탈을 방지하였다.

외부 데이터라고 해서 무조건 비싸고 이용하기 어려운 것은 아

니다. 정부 및 공공기관이 보유한 각종 통계 데이터를 이용하거나

데이터 거래 시장인 데이터 마켓플레이스를 활용하면 무료로 또는

저렴하게 외부 데이터를 확보하는 것이 가능하다.

외부 공개 데이터를 활용하여 또는 외부 공개 데이터와 기업 내

부 데이터를 결합함으로써 더 높은 가치를 실현한 몇 가지 사례들

이 있다. 미국의 클라이밋 코퍼레이션(The Climate Corporation)

은 기후 데이터와 토양 데이터 및 수확량 데이터를 활용하여 종합

기후보험(Total Weather Insurance)을 개발 및 판매하여 수익을

창출하였다. 아시아나 항공도 기상 데이터를 활용하여 최적의 연료

량, 항로 및 고도를 산출하였고 이를 통해 경제운항을 실현하였다

14 더 나은 미래를 위한 데이터 분석 Big Data 글로벌 선진사례 II, 한국정보화진흥원 빅데이터 전략연구센터, 2013.4

15 “최연혜, 만성적자 코레일 어떻게 흑자냈나”(BusinessPost 2015.2.13)

레시피 업체 쿡패드, 슈퍼마켓과 데이터 공유로 시너지 효과

월간 이용자가 4천 4백만명(2014년 4월 기준)인

일본 최대의 요리법 사이트인 쿡패드와 슈퍼마켓

체인들은 전략적인 제휴를 통해 데이터를 공유한

사례다. 쿡패드와 슈퍼마켓 체인들은 회원들의 레

시피 검색 기록과 구매 이력 데이터를 연계하여 ‘고

객들이 쿡패드에서 어떤 레시피를 검색하였는지’와

‘고객들이 슈퍼마켓에서 어떤 식재료를 구매하였는

지’를 같이 파악할 수 있게 되었다. 슈퍼마켓들은

레시피 검색 데이터를 활용하여 고객들이 무슨 요

리를 만들기 위해 그 식재료를 구매하려고 하는지

를 파악할 수 있게 되었고, 이를 이용해 고객 개개

인에게 맞춤형 쿠폰을 발행할 수 있게 되었다. 또한

고객들의 동선을 예상하여 진열 방식을 개선하고,

함께 자주 검색되는 재료들을 묶어서 파는 등의 전

략을 수립하는 것도 가능해졌다. 그리고 쿡패드는

고객들이 슈퍼마켓에서 구매한 식재료를 열람하여

그 재료로 만들 수 있는 다른 음식들의 레시피까지

선제안 할 수 있게 되었다.

쿡패드는 레시피 검색 데이터를 식품업체와 유통

업체에 판매하기도 한다. 쿡패드처럼 데이터를 모아

서 외부에 일괄 제공하는 중간 사업자를 ‘데이터 어

그리게이터(Data Aggregator)’라고 하는데, 이런 형

태는 금융과 통신을 중심으로 나타나기 시작했다.

이렇게 기업들간에 데이터를 공유하거나 판매하는

등 빅데이터가 비즈니스에 활용이 되면서 개인정보

보호에 관한 문제는 피해갈 수 없는 사항이 되었다.

Page 10: 빅데이터의 현실, 기대와 큰 격차 · 빅데이터의 현실, 기대와 큰 격차 가용한 데이터 분석으로 성과 거둔 사례들 김민희 책임연구원 mhkim0325@lgeri.com

LGER

I 리포

LG Business Insight 2015 3 11 11

고 한다. 날씨에 대한 예측의 정확도가 높아지면서 회항 건수가 감소하는 등 안전운

항도 가능해졌다고 한다.

또 다른 예로, 대한생명은 자사의 보험계약 데이터뿐 아니라 보험개발원, 보험협

회 등의 공공 데이터를 함께 활용하여 보험사기방지시스템을 업그레이드하였다. 대한

생명은 이를 통해 연간 50억원의 사기방지 효과를 얻었다고 자체적으로 분석하였다.

미국 전역 1억여 가구에 대한 지방자치단체의 기록, 세금 자료, 매매 및 대여 기

비교적 손쉽게 이용할 수 있는 빅데이터 솔루션

기업들이 자체적으로 빅데이터 시스템을 구축하여 운영할 수

도 있지만 시스템을 구축하지 않고도 비교적 손쉽게 빅데이터의

효용을 제공받을 수 있는 외부 솔루션들도 있다.

1. 네이버 애널리틱스(Naver Analytics)

대부분의 기업들이 갖고 있는 웹사이트의 웹 방문 기록 등은

기업에게 있어 중요한 빅데이터가 된다. 네이버 애널리틱스

는 무료로 웹사이트 방문자를 분석하여 방문자의 사이트 이

용 행태, 방문자의 유입 형태와 경로, 페이지별 PV(페이지뷰)

및 평균체류시간 등을 보여준다. 네이버 애널리틱스를 활용

하면 웹사이트의 운영 전략 수립 및 마케팅 활동의 성과 측

정이 가능하다. 또한 전자상거래의 거래건수, 매출 및 각 상

품별 판매 수량과 판매상품 등 거래에 대한 전반적인 현황도

볼 수 있다.

구글 애널리틱스도 네이버 애널리틱스와 유사하다. 멕시코의

호텔 체인인 Posadas는 구글 애널리틱스를 통해 웹사이트

방문자가 고객으로 전환되는 전환율을 각 호텔별로 파악하

고 이를 바탕으로 호텔별 전환율이 차이를 보이는 이유를 분

석함으로써 특정 호텔에 대해선 88%까지 전환율 상승을 달

성하였다. 미국 기상정보제공업체인 AccuWeather도 구글

애널리틱스를 통해 이메일 서비스의 광고효과 및 다른 경로

를 통한 효과를 파악하였다.

2. 왓슨 애널리틱스(Watson Analytics)

2014년 12월 5일에 IBM은 왓슨 애널리틱스 베타버전을 출시

했다. 왓슨은 자연어 처리 기술을 기반으로 제공되는 인지 컴

퓨팅 서비스이다. 이번에 공개된 왓슨 애널리틱스는 데이터

분석에 특화된 기술로, 비전문가들도 쉽게 사용할 수 있도록

했다. 예를 들어, 사용자가 검색창에 ‘A 제품을 구매하는 고객

들이 어떤 특징을 가지고 있을까’ 식의 질문을 입력하고 관련

데이터를 포스트하면, 왓슨이 알아서 알고리즘을 이용해 분석

을 하고 결과를 도출해준다. 왓슨 애널리틱스는 과거에 전문

가들이 수행했던 데이터 가공, 예측 분석, 시각적 스토리텔링

등의 업무를 자동으로 처리해 준다. 기업들이 느끼는 빅데이

터의 허들을 다소 낮춰주었다고 할 수 있다. 왓슨 애널리틱스

는 클라우드 기반의 부분 유료화(Freemium) 방식으로 데스크

톱 및 모바일 기기를 통해 제공되고 있다.

3. 인사이트스퀘어드(InsightSquared)

인사이트스퀘어드는 판매 및 판매 과정 분석을 위해 설계된

서비스이다. 인사이트스퀘어드는 퀵북스(QuickBooks), 젠데

스크(Zendesk), 구글 애널리틱스 등을 통해 수집한 데이터

를 추가하면 더욱 나은 결과물을 얻을 수 있다. 인사이트스

퀘어드는 매상 예측, 보급 경로 시각화, 마케팅 사이클 리포

트 등의 기능을 제공하고 있다.1

이 밖에도 캐노피 랩스(Canopy Labs), 라디우스(Radius), 퀄

트릭스(Qualtrics), 실렉터스(Sylectus), 트렌즈로직(Tranzlogic)

등 다양한 업체의 솔루션을 활용하여 빅데이터 분석을 하는 것

이 가능하다. 업체마다 다루는 영역, 규모, 역량의 차이가 있으

므로, 각 기업은 어떤 유형의 데이터를 다루기를 원하는지를 확

실히 하고 업체를 선택할 필요가 있다.

1 “중소기업을 위한 빅데이터 활용 가이드”(ITWorld 2013.8.30)

Page 11: 빅데이터의 현실, 기대와 큰 격차 · 빅데이터의 현실, 기대와 큰 격차 가용한 데이터 분석으로 성과 거둔 사례들 김민희 책임연구원 mhkim0325@lgeri.com

LGERI 리포트

12 LG Business Insight 2015 3 11

복잡하고 정제되지

않은 데이터도 기업이

분석 결과를 활용할

경우 어느 정도의

효과를 기대할 수

있다.

“록, 대출 정보 및 인구 정보 등을 취합하여 주택 가격 예측 시스템(Zestimate)을 개

발한 온라인 부동산 정보회사인 질로우(Zillow)의 사례도 있다.

이처럼 기업 내부 데이터나 외부 공개 데이터 같이 비교적 손쉽게 얻을 수 있는

데이터를 가지고도 의미 있는 결과를 도출하는 것이 가능하다.

비정형 데이터의 활용 사례

가트너의 닉 휴데커(Nick Heudecker)는 아무리 복잡하고 정제되지 않은 데이터 소

스라도 기업이 분석 결과를 활용할 경우 기대한 수준의 30~40%의 반응은 이끌어 낼

빅데이터의 활성화 vs. 개인정보보호

미국, EU, 일본 등 국가들은 개인정보보호의 필요성을 절감하

고 개인정보침해의 방지를 위한 규제 수단을 강화하고 있는 추세

이다. 미국은 2012년에 ‘빅데이터 R&D 이니셔티브(Big Data R&D

Initiative)’를 시작으로 다양한 빅데이터 활성화 정책들을 추진하였

지만 개인정보침해에 대한 우려가 확산되면서 지난해 들어 모든

빅데이터 정책을 다시 검토하였다. 미 행정부는 소비자가 인터넷

의 행동 추적을 거부할 수 있는 ‘추적 금지(Do Not Track)’를 기본

방침으로 하는 ‘소비자 개인정보보호 권리장전(Consumer Privacy

Bill of Rights)’의 통과를 촉구하고, 주별로 상이한 데이터 침해 대

응 조치의 표준화 및 간소화를 요구하는 ‘사이버보안 입법 제안

(Cybersecurity Legislative Proposal)’의 이행 등을 제안하였다. EU

는 2012년에 ‘데이터 보호 개혁(Data Protection Reform)’을 발표하

면서 개인 데이터 처리에 대한 책임 강화, 잊혀질 권리 등을 도입

하였다. 미국에 비해서 EU는 개인정보보호를 위한 규제 강도가 높

다. 2014년 5월 13일에 EU 사법재판소는 전세계에서 처음으로 ‘잊

혀질 권리(Right to be Forgotten)’에 대한 판결을 내렸다. 그 이후

구글에게 개인정보보호를 위한 가이드라인을 제시하는 등 국가 차

원에서 개인정보보호를 위해 적극적으로 나서고 있다.

미국 소프트웨어 및 정보산업 협회(Software & Information

Industry Association), 구글, 아마존 등 전자상거래 업체들이 지원

하는 연구기관인 Technology Policy Institute 등은 이런 법적인 규

제들이 빅데이터 산업의 활성화를 저해할 것이라고 우려를 표명

하였다. 개인정보보호를 위한 최소한의 법적인 규제는 필요하지

만, 빅데이터의 활성화와 개인정보보호 사이에서 균형을 잡을 필

요가 있을 것이다.

국내에서는 기업이 비식별화 등 ‘빅데이터 개인정보보호 가이

드라인’에서 제시한 기준에 부합하도록 정보 처리를 한다면, 개인

정보라고 할지라도 활용할 수 있도록 규정하고 있다. 일반적으로

비식별화 조치는 기존 개인정보를 제거하거나 가상 신원자로 대

체, 또는 개인식별정보를 부호화하고 이를 해제할 키를 제작하는

방식 등이 사용되고 있다. 예를 들어, 국민건강보험공단은 주요

유행성 질병에 대한 건강보험 정보와 소셜미디어 정보를 융합하

여 질병 예측모델을 개발하였는데, 이 때 계좌번호, 성명, 주민등

록번호, 주소, 전화번호 등의 개인식별정보를 텍스트 마이닝, 패

턴 매칭 기술을 통해 탐지하고 대체문자로 치환하였다. 그러나 개

인정보에 대해 비식별화 처리를 하였다 할지라도 다양한 소스의

정보들이 누적되면 재식별될 여지도 커지게 된다. 따라서 위에서

언급한 개인정보의 비식별화 조치와는 조금 다른 방식들이 함께

연구되고 있는데, 그 예로 개인의 프라이버시를 침해하지 않으면

서 데이터에 함축적으로 들어가 있는 지식이나 패턴을 찾아내는

프라이버시 보전형 데이터 마이닝(Privacy-Preserving Data

Mining), 정보수집 단계부터 개인별이 아니라 세분화된 그룹별로

저장 및 분석하는 방법 등이 있다. 이 밖에 데이터의 중요도별로

암호화 수준을 차등화하는 기술, 데이터에 대한 접근을 통제하는

기술 등도 연구되고 있다. 기업은 개인정보유출 등 사고를 방지하

기 위해 다방면으로 노력하면서, 정보 보안과 그와 연관된 리스크

를 어떻게 관리할 것인지에 대해서도 고민할 필요가 있다.

Page 12: 빅데이터의 현실, 기대와 큰 격차 · 빅데이터의 현실, 기대와 큰 격차 가용한 데이터 분석으로 성과 거둔 사례들 김민희 책임연구원 mhkim0325@lgeri.com

LGER

I 리포

LG Business Insight 2015 3 11 13

고객 데이터와 같이

데이터 소스와 데이터

내용이 어느 정도

제한되어 있는 비정형

데이터는 상대적으로

의미 있는 분석 성과를

내기가 쉽다.

“수 있다고 주장한다. 음성, 텍스트, 이미지 데이터 등은 좀 더 복잡하고 정제하는 것

이 더욱 어려운 반면, 센서나 로그 정보는 비정형 데이터이지만 상대적으로 간단하고

정제하기가 용이한 편이다. 따라서 비정형 데이터 중에서도 로그 정보나 센서 정보를

분석하려는 시도가 많이 이루어지고 있다.

예를 들어, 건설기계 제조회사인 코마츠(Komatsu)는 건설기계를 판매할 때 GPS와

각종 센서를 장착하여 기계의 현 위치, 가동 시간, 가동 상황, 연료 잔량 등의 데이터를

실시간으로 수집하였다. 이 센서 데이터를 활용하여 배차의 효율성을 달성하고, 도난 방

지 및 유지 관리 비용을 줄이는 효과를 거두었다.

또한 자동차 주행 정보를 수집하여 운전자별 맞춤형 보험료를 산정한 보험회사

들도 있다. 영국의 아비바생명(Aviva)은 급제동, 급가속, 급회전 등의 요인을 참고

하여 보험료를 20%까지 할인해 주고, 미국의 스테이트팜(State Farm)은 운행시간

대, 주행거리까지 포함하여 최대 50%까지 할인율을 적용하고 있다16.

텍스트나 이미지 등의 비정형 데이터도 고객 데이터와 같이 데이터 소스와 데이

터 내용이 어느 정도 제한되어 있는 경우 상대적으로 다른 비정형 데이터보다 의미

있는 분석 성과를 내기가 쉬울 수 있다. 미국의 신용분석업체인 제스트파이낸스

(ZestFinance)는 대출 신청자의 통화 습관 및 소비성향, 소셜 미디어 상에서의 자사

관련 글 등 다양한 비정형 데이터를 분석하여 고객 신용평가 모델을 개발하였다. 이

신용평가 모델을 활용한 후에 단기 대출 연체율은 20%까지 감소하고 수익은 20%

이상 향상되었다고 발표하였다.

그리고 트립어드바이저(Trip Advisor)는 고객들의 텍스트와 이미지 리뷰를 분석하

여 성공한 사례이다. 세계 최대 여행 커뮤니티인 트립어드바이저는 전세계 여행객들

이 올리는 호텔, 음식점, 여행지에 대한 상세한 설명과 사진 정보를 수집한다. 이런 방

대한 비정형 데이터를 분석하여 고객 개개인에게 적합한 여행 상품을 추천하고, 그 곳

에 대한 자세한 여행 정보도 함께 제공하고 있다.

빅데이터 역량은 데이터 과학자에 의해 좌우

빅데이터를 활용하는데 어려움이 많지만, 위의 경우들처럼 가용한 데이터 분석으로

16 “자동차보험 UBI 상품 도입 ‘공감대’ 확산”(보험신보 2014.4.21)

Page 13: 빅데이터의 현실, 기대와 큰 격차 · 빅데이터의 현실, 기대와 큰 격차 가용한 데이터 분석으로 성과 거둔 사례들 김민희 책임연구원 mhkim0325@lgeri.com

LGERI 리포트

14 LG Business Insight 2015 3 11

글로벌 기업들은

빅데이터 역량을 높이기

위해 데이터 과학자

조직을 강화하고 있는

추세이다.

“접근하여 성과를 내고 있는 사례들도 많다. 기업 내부 데이터나 외부 공개 데이터 같

이 비교적 손쉽게 얻을 수 있는 데이터를 가지고 의미 있는 결과를 도출한 경우도 있

고, 분석하기 어려운 비정형 데이터의 분석 대상을 잘 디자인하여 적지 않은 성과를

거둔 경우도 있다. 복잡하고 정제되지 않은 데이터로부터 신호와 노이즈를 구분해 내

기가 아직은 어렵지만 선별과 정제 과정을 거치면서 분석 역량을 높여가는 것은 당장

의 성과 뿐 아니라 미래를 위한 역량 축적을 위해서도 필요한 과정으로 보인다.

빅데이터 역량은 곧 데이터 과학자의 확보 문제와 직결된다. 여기서 말하는 데이

터 과학자는 단순히 분석가라기 보다는 빅데이터 속에서 숨겨진 가치를 찾아내고

의미 있는 통찰력을 제시할 수 있는 인재이다. 전세계적으로 데이터 과학자의 부족

이 심화되고 있으며 이 문제에 대한 해결은 긴 시간이 필요할 것으로 보인다. 물론

최근 국내외적으로 기업, 대학 및 정부에 이르기까지 모두 함께 데이터 과학자를 육

성하기 위해 나서고 있다. 단시간 내에 인력 수급의 불균형을 해소하기에는 어려움

이 있겠지만 기업 내부에 데이터 분석가 더 나아가 데이터 과학자를 내재화하려는

노력을 강화할 필요가 있다.

빅데이터 분석을 잘하고 있는 것으로 알려져 있는 해외 글로벌 기업들을 살펴보

면, 이들은 빅데이터 분석을 외부에 의뢰하기보다는 데이터 과학자 조직을 새로 만

들어 활용하고 있는 추세이다.

월마트는 데이터 과학자가 주축이 된 월마트랩(Walmartlabs)을 운영하며 고객의

다양한 데이터 분석, 고객 선호도 및 수요 데이터 분석, 재고 예측 등을 실시하고 있

다. 또한 비즈니스 네트워크 인맥 사이트인 링크드인(LinkedIn)도 데이터 과학자팀

을 보유하고 있는데, 이들이 ‘알 수도 있는 사람들(People You May Know)’이라는 서

비스를 개발하였다. 링크드인은 이 서비스로 인해 회원 가입이 급증하는 효과를 얻었

다고 발표하였다. 글로벌 스토리지 기업인 EMC는 데이터 과학자들로 구성된 애널리

틱스 랩을 운영하며 마케팅 전략 수립에 활용하고 있고, IBM도 200여명의 수학과 통

계 전문가들로 구성된 데이터 분석팀이 미래 전략 구축에 기여하고 있다. www.lgeri.com

Page 14: 빅데이터의 현실, 기대와 큰 격차 · 빅데이터의 현실, 기대와 큰 격차 가용한 데이터 분석으로 성과 거둔 사례들 김민희 책임연구원 mhkim0325@lgeri.com

LG Business Insight 2015 3 11 15

이탈리아 피렌체의 베키오 다리(Ponte Vecchio). 피렌체를 상징하는 아이콘으로 14세기에 건설되었다. (GettyImagesBank)