2015년 빅데이터 글로벌...

154
2015년 빅데이터 글로벌 사례집 - 분야별 우수사례와 미래부 시범사업을 중심으로 -

Upload: others

Post on 31-Aug-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

  • 2015년 빅데이터

    글로벌 사례집- 분야별 우수사례와 미래부 시범사업을 중심으로 -

  • Ⅰ 고객관리

    1. BoA, 수익성 및 업무효율 제고를 위한 빅데이터 ········································· 7

    2. 허츠, 실시간 VOC 분석으로 고객 만족도 향상 ·········································· 11

    3. GS홈쇼핑 , 고객 추천 서비스 정교화 ························································· 15

    4. 롯데백화점, 고객 세분화를 통한 타겟 마케팅 ············································ 19

    5. 유통 빅데이터를 통한 중소상인 지원 ························································· 23

    6. 빅데이터 분석 기반 외국인 관광산업 지원 ················································· 34

    Ⅱ e-Business

    7. Ancestry.com, 온라인 가계도 서비스 제공 ················································ 49

    8. 오비츠, 사용자 특성을 파악하여 맞춤 검색 결과 제공 ······························· 55

    9. NCSOFT, 게임 내 사기 탐지 시스템 구현 ················································· 59

    10. 멜론, 이용자 관심도에 따른 콘텐츠 추천 ················································· 66

    Ⅲ 의료

    11. UNC헬스케어, 환자의 재입원 비용 절감 ·················································· 73

    12. 서울아산병원, 의료연구 편의성 확대 ························································ 78

    13. 맞춤형 유의질병 및 병원정보 제공 ··························································· 82

    Ⅳ 제조

    14. GE, ‘지능형 항공 운영’ 서비스 ··································································· 89

    15. 볼보, 운행 정보 활용한 자동차 안전 실현 ················································· 94

    16. 캐터필러, 직원 및 기기 데이터 분석을 통한 제조 생산성 향상 ················· 99

    17. 한국남동발전, 발전설비 운영효율 극대화 ·················································· 103

    18. 자동차 부품기업 공동활용 빅데이터 플랫폼 ·············································· 110

    Ⅴ 재난 · 공공

    19. 농림수산식품교육문화정보원, 스마트 농정 실현을 위한 플랫폼 구축 ······· 125

    20. 조류 인플루엔자(AI) 확산 조기대응 ·························································· 133

    21. 국도 비탈면 붕괴사고 예측 ······································································· 140

  • 고객관리

  • 7

    B I G D A T A

    Ⅰ. 고객관리

    1. BoA, 수익성 및 업무효율 제고를 위한

    빅데이터■■■■■■

    대규모 고객데이터를 기반으로 고객관리, 맞춤형 금융상품 추천 및 신용리스크 조기대응 등 은행 업무 전반의 효율성과 수익성 제고

    추진 목적 및 배경

    글로벌 금융기업은 타 산업 대비 높은 데이터 보유량 기록하며 이를 경쟁우위로

    활용하기 위한 방안을 강구

    증권/투자, 은행, 보험사가 보유한 데이터량은 총 6667TB로 파악되며 전체의

    약 50%를 차지

    포트폴리오 분석, 트레이딩, 리스크 관리, 마케팅, 보안 등 은행 업무 전반

    으로 빅데이터 활용 수준을 넓히기 위한 방안 마련 필요

    [그림] 미국 산업별 평균 데이터 보유량 (단위: TB)

    자료: KB금융지주 경영연구소, 2013

    해외

  • 8 2015년 빅데이터 글로벌 사례집

    美 뱅크오브아메리카(BoA)는 5천만 건, 약 65PB(petabytes)의 고객 데이터를

    보유하고 있으며 이를 분석하여 고객에게 적합한 상품 제안을 하고자 함

    다양한 채널과 기업 활동을 통해 매우 큰 규모의 고객 데이터를 쌓아왔으나

    이를 한꺼번에 분석하는 것은 불가능했기 때문에 표본 분석에만 의존해 옴

    초기 전체 고객 데이터의 약 1%를 분석에 사용하는 것만으로도 업무개선

    아이디어를 얻는데 큰 도움이 되었으며 이러한 경험을 바탕으로 분석 대상

    확대 방안 추진

    추진 내용

    빅데이터 활용을 위해 고객에 대한 통합된 접근 방식과 통합된 조직 구조를 마련

    하고 서비스 설계, 마케팅, 리스크 관리 등 전반적인 활동 수행

    빅데이터를 크게 대용량의 거래 데이터, 고객 관련 데이터, 비정형 데이터로 구분한

    뒤 정형 데이터인 거래, 고객관련 데이터에 대한 분석을 수행

    빅데이터 기술을 통해 샘플 데이터가 아닌 고객 데이터 전체에 대한 대규모

    데이터 처리와 분석이 가능해 짐

    주요 고객이 어떤 신용카드를 보유하는지, 모기지론을 보유하고 있는지를

    파악하고 재 융자가 가능한 지 여부를 결정하기 위해 보유한 트랜잭션과

    성향 모델을 활용

    고객의 콜센터 이력 정보와 지점 방문 정보 등을 통해 온라인 앱이나 오프라인

    판매점을 통해 고객에게 적절한 제안 수행

  • 9

    B I G D A T A

    Ⅰ. 고객관리

    빅데이터 분석가를 확보하고 적극적인 빅데이터 활용을 위해 중앙 분석조직을 마련,

    비즈니스 기능 및 단위에 따라 구성된 분석 조직들을 통합하거나 재구성

    고객 뱅킹 분석 그룹은 대량 데이터 분석가와 데이터 사이언티스트로 구성

    되며 업무를 담당하는 임원들과 더욱 밀접하게 관여되어 일을 진행함으로써

    효율을 높임

    빅데이터 활용의 주요 포커스는 고객 상호작용 및 모든 채널을 이용해 고객을 이해

    하고, 체계적으로 정의된 고객 세그먼트를 대상으로 다양한 금융 상품을 제안

    회사가 이미 보유한 트랜잭션 데이터를 새로운 방법으로 활용하여 고객, 판매자,

    기업 모두에게 유용한 새로운 서비스를 개발

    과거에 고객이 어디서 지출을 했는지에 대한 분석을 기반으로 하며 또한

    고객이 분점이나 온라인 채널, 콜센터, 소규모 지점 등 어떤 경로를 통해

    유입이 되는지를 이해

    이를 바탕으로 고객의 이전 지출 패턴을 도출하여 은행 신용카드 사용자에게

    캐시백을 제공하는 ‘BankAneriDeals’ 라는 새로운 서비스 제공

    SNS 등 고객 웹 사용 행적을 분석하여 금융 상품을 고객에게 먼저 제시하는

    등 실시간 디지털 마케팅 강화

    소셜미디어 분석을 통해 고객 성향을 파악 후 이를 반영하여 자영업자 대상의

    자금관리 지원 상품인 ‘CashPro®Online’과 이의 모바일 버전인 ‘CashPro®Mobile’

    개발

    가입자 유치비용은 빅데이터 분석시스템 도입 전에 비해 25% 절감됐고 고객

    당 수익성도 12%에서 18%로 증가하는 등 고객유치율과 수익성을 향상

    실시간 디지털 마케팅 및 리스크에 대한 조기 경보 체계에도 활용

  • 10 2015년 빅데이터 글로벌 사례집

    빅데이터 분석시스템을 도입해 신용리스크에 대한 조기경보체제를 강화하였으며

    신용관리 및 손실예측 처리시간을 단축

    대출계좌 40만 건에 대한 신용평가점수를 산출하는 데 걸리던 시간을 3시간에서

    단 10분으로 단축

    채무 불이행 확률 계산시간을 기존 96시간에서 4시간으로 감소

    기존의 임의 처리(Ad Hoc) 분석을 위한 시간을 1/3로 감축

    효과 및 향후 적용 확대 방안

    향후 고객들의 SNS 등 비정형데이터를 분석해 고객의 성향과 그날의 기분 등을

    파악해 실시간성을 높이는 등 다양한 핀테크 마케팅을 기획

    빅데이터를 비롯한 다양한 혁신 기술을 적용하여 유연하고 빠른 고객관리와 업무

    혁신 지속 수행

  • 11

    B I G D A T A

    Ⅰ. 고객관리

    2. 허츠, 실시간 VOC 분석으로

    고객 만족도 향상■■■■■■

    세계 각국의 지점을 통해 확보한 방대한 고객 의견을 기반으로서비스 개선 및 고객 만족 실현

    추진 목적 및 배경

    다국적 자동차 렌탈 서비스 기업인 허츠는 고객 경험의 차별화를 위한 노력 진행

    전 세계 146개국에 8,300여개의 지점을 가지고 있는 허츠는 전통적으로 고

    객만족도 조사를 실시함으로써 고객 유지에 노력

    그러나 8,300여개의 지점의 고객만족도 조사가 각각 다루어 졌고, 고객 의견에

    대한 통합되고 신뢰성 있는 결론을 얻기는 어려웠음

    [그림] 허츠의 다양한 글로벌 고객 데이터 출처

    자료: 허츠 발표자료

    경쟁업체와 차별화된 고객 만족도를 위해 자사가 보유한 빅데이터를 분석하고자

    하는 요구 발생

    해외

  • 12 2015년 빅데이터 글로벌 사례집

    매일 수 천 개의 웹 서베이, 이메일, 문자메시지 코멘트를 포함한 엄청난 양의

    비정형 자료를 각 지역으로부터 수집

    가치가 높은 고객의 만족도 정보를 통한 통찰력을 얻기 위해 데이터 통합 및 활용

    작업에 착수

    기존에 쌓여있던 데이터뿐만 아니라 고객 심리조사를 확대하여 추가적인

    데이터 확보에도 노력

    최상위 고객을 대상으로는 구조화 되지 않은 자유로운 형식의 피드백 정보를

    적극적으로 수집

    이러한 데이터를 통합하고 분석하여 각 지역별 적합한 운영 개선 방안을

    도출하고 전체적인 서비스 만족도를 개선하기 위한 노력 진행

    [그림] 허츠 고객 만족도 측정 및 모니터링 예시

    (1) 이메일/모바일 서베이를 통한 10점 척도의 만족도 조사 실시

    (2) 만족도 점수인 NPS(Net Promoter Score) 도출

    (3) 월간 약 7만 개 이상의 응답 데이터를 축적하여 관리

    (4) 고객 만족도를 실시간으로 트래킹

    (5) 주별 NPS 리뷰를 하여 낮은 스코어를 보유한 지점에 관리 전화 등 정교한 모니터링 진행

    자료: 허츠 발표자료

  • 13

    B I G D A T A

    Ⅰ. 고객관리

    추진 내용

    빅데이터 분석 도구 도입을 통해 의사결정 시간 단축 및 통찰력 확보

    허츠의 정보수집에 대한 프로세스를 중앙집권화 하기 위해 각 국가와 지역에

    고객심리조사에 관한 정보 수집을 강화하고 데이터 별 일관적인 매트릭스를 적용

    기업 정보에 대한 접근프로세스가 빅데이터 분석도구 도입 이전에 비해 시간이

    반으로 줄었으며 이전에는 불가능 했던 다계층 인사이트 확보가 가능해 짐

    통합된 고객 정보를 분석하여 고객의 문제를 실시간으로 파악하고 해결하는데 기여

    다양한 채널에 퍼져 있는 VOC(고객의 소리, Voice of Customer)를 실시간

    으로 분석해 고객의 요구 사항에 대해 빠르게 대응할 수 있는 시스템을 운영

    상위 고객으로부터 수집된 구조화되지 않은 피드백 정보를 구조화 하고,

    지속적으로 그들의 피드백을 분석

    또한 허츠는 그러한 피드백과 정보에 즉각 응답하여 행동으로 취할 수 있도록

    대응 시스템 마련하는 등 분석 결과를 마케팅 및 세일즈를 위한 신속한 의사

    결정에 활용

    전사적 차원의 서비스 개선 뿐 아니라 지역적 특성을 반영한 분석을 통해 실제

    수익향상에 긍정적 영향을 줌

    허츠는 빅데이터 분석을 통하여 필라델피아의 고객 지연이 발생하는 가장

    큰 요인이 차량 반납에 걸리는 시간 때문이며, 하루 중 구체적으로 어떤

    시간에 이런 지연이 발생하는지 파악

    이러한 정보를 통해 필라델피아 지점에 고객 집중 시간대의 직원 수를 적절히

    조정하고 이슈를 원활하게 해결할 수 있는 지점 매니저를 배치하는 등의

    신속한 대응책 실행

  • 14 2015년 빅데이터 글로벌 사례집

    필라델피아 지점은 이러한 문제를 해결하고 실제 운영 수익률이 증가하는

    결과를 보였으며 고객 만족도도 높아짐

    [그림] 허츠 빅데이터 적용 프로세스

    자료: 허츠 언론보도 재구성

    효과 및 향후 적용 확대 방안

    서비스 기업은 다양한 채널로부터 유입되는 고객의 소리를 적극적으로 수용하는

    것을 통해 이익 극대화를 기대

    고객의 활동 데이터뿐만 아니라 고객이 적극적으로 만들어낸 피드백 데이터나

    만족도 데이터를 분석하는 것은 큰 의미가 있음

    이를 통해 고객 만족도를 향상시키기 위한 확실한 방안을 확보 가능하며

    장기적으로 매출과 직결

    빅데이터 분석을 통한 통찰력 보유 및 경쟁 우위 확보

    시시각각 변화하는 고객의 니즈와 피드백에 대한 즉각적으로 대응이 가능해

    진다면 고객으로부터의 신뢰 획득 및 기업 이미지 쇄신에도 긍정적 영향을 줄 것

  • 15

    B I G D A T A

    Ⅰ. 고객관리

    3. GS홈쇼핑, 고객 추천 서비스 정교화

    ■■■■■■

    고객 상품 추천, 실시간 프로모션 등 하둡 기반의 플랫폼 구축으로빅데이터 활용도를 최대화

    추진 목적 및 배경

    고객에게 원하는 걸 쉽게 찾게 해주려는 목적으로 빅데이터에 대한 관심 시작

    GS홈쇼핑은 홈쇼핑과 인터넷 쇼핑몰인 GS샵 등 TV·인터넷에 걸친 모든 쇼핑

    업종을 아우르고 있어 일반 홈쇼핑과 비교해 종류가 다양하며 방대한 고객

    데이터 보유

    특히 인터넷 쇼핑 비즈니스에서는 데이터를 다루는 문제가 중요하며 기존에는

    트랜잭션을 잘 다루는 사이트 관리상의 문제에만 집중했다면 이제는 고객의

    행동을 분석하고 추천하는 서비스가 요구되고 있는 상황

    이에 회사 보유한 방대한 양의 데이터 분석을 통해 상품 추천 서비스를 시작

    비용 절감 및 자사 역량 강화를 위해 외부 인력을 최대한 배제하고 자체 기술력

    으로 하둡 플랫폼 구축

    온라인 유통 사업은 판매마진이 크지 않기 때문에 고가의 외산 데이터웨어

    하우스 솔루션을 계속 사용하는 것은 부담

    또한 전자상거래 기업의 핵심 역량인 상품분석 및 고객 분석을 외부에 의존

    하는 것은 큰 리스크를 가짐

    이에 외부 의존도를 줄이고 자체 기술력으로 상품 추천 플랫폼을 만들기 위한

    전략 하에 2012년 초부터 하둡 기반의 오픈소스 시스템을 구축하기 시작

    국내

  • 16 2015년 빅데이터 글로벌 사례집

    추진 내용

    개별 고객데이터의 면밀한 분석을 기반으로 GS홈쇼핑 상품추천 시스템 개발

    고객의 클릭이나, 페이지가 넘어갈 때 남는 자취 등 고객 행동을 면밀히 분석

    하고, 고객이 방문하는 페이지와 페이지 간 연관성을 계산하는 등 다양한

    활동을 고객중심으로 연결하는 것을 통해 행동 데이터 추출

    페이지간 연관성, 유사성을 측정하고 알고리즘화 하며 이러한 작업을 1일

    단위로 업데이트

    고객의 개인 식별은 불가하나 개별 고객의 움직임 패턴을 하나하나 분석하는

    방식으로 정확도를 높임

    하둡 기술자 수급 한계가 가장 큰 어려움. 꾸준한 내부 역량 강화를 위한 노력 진행

    빅데이터 도입은 기존 SI 방식으로는 한계가 있으며 기업 내부 인력이 하둡

    시스템의 전체 아키텍처를 이해하고 경험을 쌓는 등 자체적인 활용이 가능

    해야함

    도입 초기 하둡을 다룰 줄 아는 기술자의 내부 영입의 어려움으로 빅데이터

    전문기업인 그루터와의 기술적 협업 진행을 진행하였으며 꾸준히 기술 내재화를

    위한 노력 진행

    장기적으로 외부 솔루션에 의존도를 최대한 낮추기 위해 데이터 사이언티스트

    등 빅데이터 기술 및 활용에 전문성이 있는 내부 인력 양성

    단순히 상품 추천을 위한 빅데이터 적용이 아닌 장기적 관점에서 효과적인 활용을

    위한 하둡 플랫폼 구축을 위해 노력

    과거에는 상품 추천이란 특정 목적에 맞춰 시스템을 운영하는 등 통합적인

    활용이 부재하였고, 이에 따라 확장에 대한 유연성도 부족했다는 한계 보유

  • 17

    B I G D A T A

    Ⅰ. 고객관리

    하둡은 플랫폼 위에 필요한 목적과 서비스를 올리는 방식으로 이 시스템을

    기반으로 고객들의 다양한 로그 데이터들을 분석하고 고객들에게 맞는 상품을

    맞춤형으로 추천해주는 체계 구축

    초기 목적인 추천 서비스 외 추가적으로 실시간 프로모션 서비스도 하둡 기반

    으로 구성을 하였으며, 향후 추가적인 목적 발생 시에도 비용 효율적이고

    유연한 활용이 가능

    [그림] GS홈쇼핑의 분석 플랫폼 아키텍처

    - Elastic search / Hadoop / Tajo 등 오픈소스 활용

    - 스케일업 전략이 용이하도록 설계

    - 통합관리 콘솔을 제공하며, 동시에 협업이 가능하도록 멀티사용자 이용 허가

    - 장기적 OLAP 운영을 위한 Tajo 활용

    - 증분 데이터와 메타 데이터를 위해 HDFS 저장소 이용

    - SQL on Hadoop을 통해 복잡한 MapReduce를 효과적 구현(Tajo)

    자료: 그루터, 2013

  • 18 2015년 빅데이터 글로벌 사례집

    효과 및 향후 적용 확대 방안

    잘 갖추어진 빅데이터 플랫폼을 활용한 다양한 비즈니스 발굴이 주요 과제

    장기적인 관점에서 다양한 목적에 따른 확장이 가능하도록 플랫폼을 구성하

    였기에 향후 다양한 활용 방향이 기대

    빅데이터 비즈니스를 지속적으로 창출하기 위한 데이터 사이언티스트 발굴 작업

    빅데이터 역량을 강화하기 위한 기술 내재화뿐 아니라 향후 어떤 분야에 빅

    데이터 기술을 접목할지 찾아내는 ‘데이터 사이언티스트’를 지속적으로 발굴

    할 계획

  • 19

    B I G D A T A

    Ⅰ. 고객관리

    4. 롯데백화점, 고객 세분화를 통한

    타겟 마케팅■■■■■■

    롯데멤버스와 롯데백화점 및 롯데 쇼핑 빅데이터를 활용하여고객 특성에 따른 타겟층 선정하고 맞춤형 마케팅 진행

    추진 목적 및 배경

    대량으로 축적된 롯데멤버스 회원 데이터를 통한 쇼핑 빅데이터 수집 및 활용 필요

    롯데멤버스 카드는 27백만 명의 회원 수를 보유하며 이는 경제인구수의

    60% 수준

    롯데멤버스 회원의 핫플레이스 이용정보, 엘롯데 고객정보, 외부 가맹점 구매

    정보, 롯데 계열사 정보 등이 축적

    의미 있는 쇼핑 빅데이터를 모아 빅데이터 CRM(고객관계관리) 개발 및 구축을

    위해 활용 계획 착수

    장기적으로는 고객 대상의 타깃화된 마케팅을 통한 매출 증대를 기대

    추진 내용

    고객의 카드 사용 빅데이터를 수집 및 활용하여 기존 CRM 모델을 업그레이드

    고객의 롯데카드 연간 소비액 중 외부 구매율을 반영하여 추가 구매 가능성을

    추정하는 쇼핑가능지수를 개발하였으며 이를 기반으로 상향판매(Up-selling)

    마케팅 시행

    고객별 평균구매주기 및 최대구매주기를 반영하여 고객의 이탈 가능성을 추정

    하는 이탈 경보 모델(R.E.D Alert1)) 프로그램을 활용하여 윈백(Win-Back)2)

    마케팅 시행

    국내

  • 20 2015년 빅데이터 글로벌 사례집

    구매 패턴을 통해 고객을 분석하고 소비자 이슈 트렌드를 반영하여 이슈 고객에게

    마케팅을 시행하는 ‘L-Trend Catch 프로그램’ 시행

    [그림] 상향판매 마케팅과 윈백 마케팅 기반

    자료: 롯데백화점2014. 3

    고객의 특성 및 구매패턴 등 다양한 데이터 소스를 활용하여 신규 고객관리

    (Customer Relationship Management) 모델 개발

    연령으로 기반으로 하는 마케팅 한계를 극복하고자, 구매자의 구매 패턴을

    분석한 후 구매연령을 기반으로 한 틈새 마케팅 시행

    고객 특성지수(연령, 성별, 생애단계, 주요 구매 상품 등)와 브랜드 특성지수

    (브랜드 M/S, 구매 고객수, 연관 구매 상품군, 인당 구매 금액 등)를 반영한

    Shopping Spirit 개발

    고객별 구매 프로세스에서 겪는 어려움을 고객별로 유형화하고 세분화하여

    이에 대응 및 극복 전략을 수립하는 쇼핑 장애요소 극복(Shopping Hurdle)

    모델 개발

    1)� Runaway.� Emergency.� Devotion� Alert

    2)�현재�운용�중인�경쟁사의�시스템을�자사의�제품군으로�바꿔�넣는�공격적인�마케팅�방법� [네이버�지식백과]

  • 21

    B I G D A T A

    Ⅰ. 고객관리

    [그림] 고객 구매 프로세스 유형별 장애요소 극복(Hurdle) 전략

    자료: 롯데백화점, 2014. 3

    쇼핑 빅데이터 분석을 통해 더욱 세분화된 마케팅, 빠른 대응이 가능한 실시간

    마케팅 시대로 진입

    쇼핑 빅데이터를 이용한 원스톱 검색기능과 추천 고객군을 설계하는 원클릭

    기능을 더하여 더욱 쉬운 타겟팅 가능

    실시간으로 데이터를 분석하여 캠페인을 설계하며 이에 대한 반응도 실시간

    으로 확인하여 빠른 타겟팅 실시

    다양한 고객군별 선호도를 조사하여 세분화된 타겟팅 구현

    직관적 분석을 위한 시각화 된 분석 보고서를 구현할 수 있는 시스템 도입

    상위 1%고객의 취미 등 관심 정보를 등록하여 1:1감성 마케팅을 실시하고

    고객 이슈 사항을 메모하는 등 접점 커뮤니케이션 강화하는 VIP 시스템 도입

  • 22 2015년 빅데이터 글로벌 사례집

    [그림] 롯데백화점 타겟팅 시스템과 분석 시스템

    자료: 롯데백화점, 2014. 3

    효과 및 향후 적용 확대 방안

    쇼핑업계의 빅데이터 활용은 고객 구매 패턴 및 인구통계학 자료를 통한 고객 세분화,

    타깃 마케팅, 상권 분석, VIP 관리, 비회원· 비고객 관리 등 다양한 파생을 기대

    빅데이터 활용을 통해 고객 소통을 기반으로 원하는 것을 제공하는 차별화

    마케팅 제공이 가능하며 기업 타깃이 점차 다수에서 세분화 그룹으로, 또

    개인으로 세분화 될 것

    이를 통해 고객은 적절한 시기에 맞춤 정보 취득 가능, 기업은 수익 극대화와

    기업 가치 제고 가능

  • 23

    B I G D A T A

    Ⅰ. 고객관리

    5. 유통 빅데이터를 통한 중소상인 지원

    ■■■■■■

    대형유통사의 판매정보를 분석하여 지역 유통매장 중소상인을 위한 맞춤형 상품추천과 시즌·기온별 데이터 기반 마케팅 정보 제공

    추진 목적 및 배경

    사업 추진의 배경

    빅데이터를 적극 활용하는 상위 3개의 유통기업의 생산성과 수익률이 경쟁

    기업 대비 6%이상 높음 (대한상공회의소 유통마스터플랜 분야별 정책과제, 2012)

    대형유통 업계에서는 빅데이터 분석을 활용하여 마케팅 및 매장운영 정책에

    반영하여 상당한 효과를 누리게 되었으나, 빅데이터의 혜택을 받지 못하는

    중소 유통기업은 경쟁에서 소외되는 현상 발생

    전체 기업의 60%이상을 차지하며 외부 시장 정보를 전혀 활용하고 있지 않은

    중소 업체의 경쟁력 강화를 위한 위한 데이터 분석 서비스가 필요

    2014년 미래창조과학부 시범사업

  • 24 2015년 빅데이터 글로벌 사례집

    사업 추진의 필요성

    본 사업 주관기관인 대한상공회의소는 유통사로부터 매월 매장별 매출 데이터를

    수집할 수 있는 PDS(Pos Data Service)시스템을 운영하고 있으며 2011년 3월

    부터 유통시장 분석정보 시스템을 구축 운영 중

    중소 유통 상공인에게 실질적인 도움을 주고자 기존 보유 데이터와 외부 개방

    데이터의 메쉬업(Mash-Up) 분석을 통한 본격적인 빅데이터 서비스 추진

    추진 내용

    | 참여기관 | : 대한상공회의소, 한일네트웍스, 리테일테크, 클루닉스, 디노플러스

    | 주요 활용데이터 |

    구분 데이터 데이터 규모 보유기관

    매출

    데이터POS(Point of Sale)

    * 전국 약 700여개 점포,2015 2월 기준350MB/주 대한상공회의소

    매출메타데이터

    점포정보 210MB/주

    대한상공회의소점포속성 350MB/주

    상품분류 70MB/주

    상품속성 560MB/주

    연계

    데이터

    기상데이터 3MB/건 기상청

    주민등록인구 10MB/건 안전행정부

    공시지가 5MB/건 한국감정원

    용지별 면적 5MB/건 국토해양부

    Social Network Service 1GB/년 대형포털/커뮤니티

  • 25

    B I G D A T A

    Ⅰ. 고객관리

    | 분석 내용 및 기법 |

    빅데이터 분석 서비스 모델 선정

    PDS 자문위원 및 중소 유통사 대상 인터뷰, 벤치마킹, 선진사례 분석을 통해

    아래와 같이 서비스와 관련된 주요 진행방향을 도출

    다양한 외부 데이터와 유통 데이터를 메쉬업하여 실질적인 도움이 가능한

    분석 결과를 산출

    SNS 데이터를 활용한 빅데이터와 자연어 처리 기술을 적극 활용하여 연관

    상품과 관련된 분석 결과를 도출

    분석 결과는 IT 접근성과 가독성이 떨어지는 중소 상공인을 고려하여 접근이

    쉽고 단순한 유저 인터페이스(UI)를 통해 제공

    도출된 시사점과 현재 보유한 데이터, 수집 가능한 외부 데이터를 고려하여 다음과

    같이 5개의 빅데이터 주요 분석 서비스 시나리오를 선정함

    주요 시즌 / 이벤트별 상품군 추천지수 산출

    기온대별 상품군 추천지수 산출

    지역특성별 상품군 추천지수 산출

    신상품 라이프 사이클(Life-Cycle) 매출 추이 분석

    SNS 데이터 기반 연관 상품 분석

    분석 서비스 시나리오별 상세 내용

    주요 시즌 / 이벤트별 상품군 추천지수 산출

    주요 이슈별 시즌 및 이벤트를 정의하고, 매출 데이터와 시즌 정의 데이터를

    연관분석하여 시즌 이벤트별 상품군 추천 지수를 산출

  • 26 2015년 빅데이터 글로벌 사례집

    기온대별 상품군 추천지수 산출

    회귀분석 기법을 통해 기온대와 매출량과의 상관관계를 분석하여 5도 단위

    기온대를 정의 한 후, 정의된 기온대와 매출 데이터를 연관분석하여 기온대별

    상품군 추천 지수를 산출

    지역 특성별 상품군 추천지수 산출

    지역 부동산 데이터, 인구 데이터를 종합하여 법정 동 단위의 지역 특성을

    선정한 후, 상품군별 전체 평균 매출과 지역 특성에 따른 매출을 비교하여

    지역 특성에 따른 상품군 단위의 추천 지수를 산출

    신상품 라이프 사이클 분석

    신상품의 출시 후 매출 추이를 동일 상품군 내 다른 상품의 매출 추이 패턴과

    비교하여 추후 매출 추이를 예측

    모든 상품에 대해 출시 후 2년간의 매출 추이 데이터를 산출하고, 이를 상품군

    단위로 분류한 후 매출 패턴을 일반화한 4개의 클러스터 매출 추이를 산출

    최종적으로 신상품에 대한 매출 추이를 해당 상품군의 4개 클러스터 매출

    추이와 비교·분석한 데이터를 리포트 형식으로 제공

    SNS 데이터 기반 연관 상품 분석

    SNS 데이터를 수집하여 검색 대상 키워드에 대한 연관 키워드를 필터링하고

    해당 키워드 중 음식료품과 관련된 데이터를 추출하여 검색 키워드에 대한

    연관 상품을 추출 (ex. 맥주의 연관 상품: 불닭, 소세지, 새우깡)

    SNS 크롤러(Crawler)를 통해 수집된 데이터는 자연어 분석 처리 기법에 따라

    연관 키워드를 추출하며, 별도로 작성된 유사어 사전 참조에 의해 최종적인

    연관 상품 단어를 추출

  • 27

    B I G D A T A

    Ⅰ. 고객관리

    데이터 처리 및 분석 기법

    방대한 양의 매출 빅데이터와 정형/비정형 데이터가 혼재된 데이터를 고속으로

    수집 및 분석하기 위하여, 데이터 전처리 기술과 다양한 빅데이터 분석 기법들을

    동원하여 데이터를 처리 및 분석함

    ETL 처리

    스크립트 또는 프로그래밍 언어를 통해 개발한 분석도구를 사용하거나,

    ETL 전용 분석도구를 사용할 수 있으며, 본 사업에서는 클루닉스사의 MDP

    솔루션을 사용

    클러스터 분석

    신상품의 매출 패턴 분석 시 동종 상품군의 다른 상품 출시 이후 매출 패턴과의

    비교를 위해 비교 대상 상품 전체를 클러스터 분석으로 몇 가지 클러스터

    (군집)으로 분류

    자연어 처리

    SNS 크롤러를 통해 수집된 텍스트에서 추출 키워드인 음식료품 단어들을

    선별하기 위해 사용됨

  • 28 2015년 빅데이터 글로벌 사례집

    빅데이터 처리· 분석기술 개요

    • ETL(Extraction, Transformation, Load) 처리는 데이터의 수집, 정제, 단순 변환, 최종

    storage로의 데이터 적재 과정을 지칭하고, 데이터를 효율적으로 이전하거나 고속

    분석을 위해 불필요한 데이터의 필터링 또는 필요한 데이터의 통합 작업 등을 수행

    하는 것을 의미하며, 정형 타입의 빅데이터 분석을 위한 전처리 과정으로 수행하는

    경우가 많음

    • 클러스터(Cluster, 군집) 분석이란 데이터들의 특성을 고려해 데이터 집단을 정의

    하고 집단을 대표 할 수 있는 대표점을 찾는 데이터 마이닝 기법중 하나임. 클러

    스터란 비슷한 특성을 지닌 데이터들의 집단으로 클러스터 분석을 통해 같은 클

    러스터 내에 특성을 정의 할 수 있고 클러스터 간의 차이를 명확히 볼 수 있음. 이러한

    클러스터 분석을 통해 새로운 데이터의 특성을 예측하고 인간이 예측하기 힘든 데이터

    그룹간의 차이도 쉽게 파악 할 수 있음

    • 자연어(Natural Language)란 사람들이 일상적으로 쓰는 언어를 일컬어 말하며,

    빅데이터 분석에서는 정형화되지 않은 텍스트데이터를 정형화하는 과정을 자연어

    처리라고 정의함. 자연어 처리에는 형태소 분석, 의미 분석, 대화 분석 등의 분석

    방법이 존재하는데, 형태소 분석은 의미가 있는 최소의 단위인 형태소 단위로 문장

    성분을 구별하여 분석하는 과정을 말하며 이러한 형태소 분석을 통해 글 전체의

    핵심단어를 쉽게 파악하기도 하고 단어와 단어간의 연관성을 추측할 수도 있으며,

    이때 분석의 정확도는 얼마나 정확하게 형태소를 구분하여 단어를 추출할 수 있는가에

    따라 결정됨

    데이터 분석 과정

    각 분석 시나리오 수행을 위한 데이터의 수집, 저장, 분석 등의 단계에서 필요한

    데이터 저장소 및 분석 처리 소프트웨어들을 선정하고, 이를 효율적으로 조작 및

    관리할 수 있는 Hadoop 기반의 통합 데이터 저장 분석 프레임웍(G-PAS)을 구축함

  • 29

    B I G D A T A

    Ⅰ. 고객관리

    ① 수집

    - OpenAPI, FTP, Sqoop을 활용해 내·외부 데이터를 수집시스템으로 수집

    하는 단계

    - 데이터별 수집 주기에 따라 수집을 실시하며, 수집 프로세스는 빅데이터

    시스템의 워크플로우 도구로 설정 및 관리

    ② 저장

    - Hadoop 기반의 분산 파일시스템을 활용하여 데이터를 저장

    - Hadoop은 별도의 백업이 필요 없으며, 일부 구성 노드의 장애시에도 서비스

    지속이 가능하며, Hadoop 기반의 분산 병렬 처리 S/W 활용이 용이함

    ③ 정제/변환/매핑

    - 분석 과정에 불필요한 데이터를 소거 하고, 고속 처리를 위해 필요한

    데이터를 변환 또는 병합하는 과정을 수행, ETL 솔루션을 활용함

    ④ 절차적 분석

    - 빅데이터에 대한 요약, 평균 산출 등의 기본 통계 수치 산출을 수행하며,

    ETL 솔루션과 Pig tool을 활용

    ⑤ 클러스터 분석 / 자연어 처리

    - 신상품 라이프 사이클 분석과 연관 상품 분석에 필요한 분석을 수행하며,

    분석 S/W R을 사용함

    ⑥ 결과 업로딩

    - 웹서비스나 openAPI를 통해 외부에 제공할 최종적인 분석 결과를 MySQL로

    저장하는 과정을 의미하며, Sqoop tool을 사용함

  • 30 2015년 빅데이터 글로벌 사례집

    [그림] 대한상공회의소 빅데이터 분석 과정

    BIGDATA 플랫폼

    주요 분석 결과 및 활용방안

    | 주요 분석 결과 |

    시즌 분석(계절, 명절, 발렌타인데이 등 주요 시즌이나 이벤트 분석)

    35개 주요 시즌에 대해 114개 상품군 분석결과 쌈장, 김치류 상품군은 여름에

    판매량이 가장 높음. 설탕의 경우 초여름(6월말 경)에 판매량이 가장 높음

    ※ 여름철 시원한 음식선호, 여행 증가 등과 설탕절임(잼류 등) 음식 생산 관련된 현상으로 추정

    기온별 분석(전체 기온을 5도 단위로 분할하여 매출 분석)

    35개 아이스크림은 혹한기에 오히려 매출이 증가세로 변함

    ※ 혹한기 실내외 온도차에 따른 실내건조 현상으로 인해 소비가 증가하는 것으로 판단

    차 상품군은 –5도 이하에서 최고 매출을 보이며, 25도 이상에서는 기온상승에

    따라 급격한 하락세를 보임

  • 31

    B I G D A T A

    Ⅰ. 고객관리

    [그림] 주요 분석결과

    지역별 분석

    농업지역은 탈취제가 최고 추천 상품, 부유층 지역은 젓갈류, 성인용기저귀,

    와인이 잘 팔리는 상품군임

    연관상품 분석(주요 키워드에 대해 연관 판매되는 상품 제시)

    등산에는 ‘막걸리, 김밥, 도시락’ 등, 이사에는 ‘맥주, 치킨, 커피’ 등이 연관

    상품으로 분석됨

    서비스 계획 및 활용방안

    유통시장 분석정보 제공

    대한상공회의소가 직접 운영하며 3월부터 정식서비스 제공

    상품군별 인기상품, 가격동향, 상품구색리스트와 같은 단순 집계 분석과

    이벤트/시즌별 추천상품, 지역특성별 추천상품, 기온대별 추천상품, 상품

  • 32 2015년 빅데이터 글로벌 사례집

    라이프 사이클, 연관어분석 등 빅데이터 분석 결과를 조회 또는 다운로드

    할 수 있는 기능 제공

    [그림] 대한상공회의소 유통시장 분석정보 서비스: bigdata.korcham.net

    POS 사업자와 협력을 통해 중소매장 POS 단말에 상용 서비스(2015년 1/4분기)

    데이터 파일 전송 및 API 연계를 통한 중소매장용 POS 시스템으로의 정보제공

    [그림] 대한상공회의소 Open API 서비스

  • 33

    B I G D A T A

    Ⅰ. 고객관리

    효과 및 향후 적용 확대 방안

    사업 의미

    본 사업은 중소 유통매장 점주들이 원하는 분석 수준과 산출물을 제공

    최우선 서비스 대상자인 중소 유통매장의 이익 실현, 전체 유통산업 활성화를

    통한 경제 활성화에 기여할 수 있는 공공서비스 창출

    향후 데이터 제공업체/기관의 확대를 통해 전체 유통산업의 세부적인 흐름

    까지 분석 활용하여 유통·소매업 경쟁력을 강화

    활용 및 발전 방안

    고도화를 통한 서비스 및 리포팅 확장

    - 데이터 추가 확보 및 분석 시나리오 추가 개발을 통해 중소 유통 상공인을

    위한 맞춤형 서비스를 지속적으로 확대할 예정

    데이터 제공을 통한 연계 사업 지원

    - 유통분야 빅데이터 분석 결과 및 빅데이터 분석용 요소데이터들을 필요로

    하는 외부 기업이나 기관에 제공하여 2차 사업 활성화 및 빅데이터 서비스

    사업에 기여

  • 34 2015년 빅데이터 글로벌 사례집

    6. 빅데이터 분석 기반 외국인

    관광산업 지원■■■■■■

    내외국인 관광·소비 패턴, 중국인 관광 트렌드를 분석하여 개인 맞춤형 관광정보 제공, 추가 관광지 개발, 관광지 추천 정보 제공

    추진 목적 및 배경

    사업 추진의 배경

    중국인 관광객 10년전 대비 500% 증가, 외래 관광객 중 가장 높은 비중과

    소비규모, 관광 제도 개선으로 인한 자유여행객의 증가 예상

    외국인 관광객 1000만 시대, 중국인 관광객은 전체 관광객의 33%로 1위

    1인당 경비 지출이 중국인관광객이 가장 높음 (약256만원, 타 관광객의 40% 이상)

    중국여유법(旅遊法) 개정으로 단체 여행객의 감소, 개별 여행객 수가 증가하고

    있음

    2014년 미래창조과학부 시범사업

  • 35

    B I G D A T A

    Ⅰ. 고객관리

    사업 추진의 필요

    중국인 관광객의 획일화된 관광지 및 관광패턴, 관광일정으로 인해 재방문률의

    정체와 재방문 의향이 낮은 상황

    국내 입국 관광객의 모바일 인프라를 활용하여 보다 다양한 국내 관광정보의

    제공을 통한 관광 만족도를 높일 필요성

    중국인 관광객의 여행 패턴 및 소비 패턴 분석을 통해 중국인 관광객 대상

    정책 활용 및 사업 환경 개선에 활용

    추진 내용

    | 참여기관 | ㈜오픈메이트, 비씨카드(주), 한국관광공사, 나이스평가정보, KT

    | 주요 활용 데이터 |

    구분 데이터 데이터 양 제공 기관

    소비

    /거래 패턴

    내국인 거래 패턴 연 약 24억건

    비씨카드외국인 거래 패턴 연 약 1,300만건고객 유형 정보

    (성, 연령, 주소의 비식별 정보)약 2,900만건

    관광

    권역 및

    공간 정보

    전국 블록 및 유형 정보 366,999 건

    오픈메이트주요 상권 영역 1,200 건

    중국어

    관광 컨텐츠

    중국번체/간체 관광정보(공통, 이미지, 소개정보, 위치기반 관광정보,

    지역기반 관광정보, 숙박, 행사정보 등)

    N/A 한국관광공사

    유동인구

    패턴

    내국인 통화 데이터 연 약 1.5억건KT

    중국인 로밍 데이터 연 약 180만건

    상가/업소

    정보상가/업소 DB 약 300만건 나이스평가정보

  • 36 2015년 빅데이터 글로벌 사례집

    | 분석 내용 및 기법 |

    데이터 처리 및 분석 기법

    중국인 관광객의 소비패턴, 이동패턴을 파악하기위해 유동인구 지수를 개발하고

    중국 관광활성화 지역을 추출하기 위한 분석기법 적용

    유동인구 지수 개발

    교통개발연구원에서 수행한 「전국교통DB구축사업 교통유발원단위조사 및

    기초분석」를 바탕으로 해당 지점 주변의 인구유발시설(백화점, 영화관, 아파트,

    지하철역 등)을 찾고 각각의 인구유발시설들이 통행을 유발시키는 영향력을

    중첩, 거리에 따른 가중치를 적용하여 도보 가능한 도로에 대해 10m 간격

    으로 값을 산출, 지수화

    소비패턴 분석

    중국인 여행유형별, 여행시즌별, 시간/요일대별 소비패턴 분석, 선호지역 비교

    분석. 내국인과의 여행 패턴을 비교하기 위한 내국인 소비패턴 분석도 병행

    이동패턴 분석

    카드 거래 데이터 기반으로 소비형태에 의한 이동패턴 분석(여행이동거리,

    여행시 먹거리 이동거리 등)

    관광활성화지역 추출

    서울시 주요여행지역 및 소비밀집도, 통화밀집도 등을 통한 주요 관광권역

    분석/추출(6개 주요 권역: 강남/서초, 동대문, 명동/남대문, 이태원, 종로/인사,

    홍대/신촌)

  • 37

    B I G D A T A

    Ⅰ. 고객관리

    데이터 처리과정 및 시스템

    • 데이터 마트 구축 단계

    • 데이터 분석과정

    • 데이터 처리를 위한 시스템 구성도

  • 38 2015년 빅데이터 글로벌 사례집

    데이터 분석 과정

    KT 로밍데이터를 활용한 중국인 유동인구 산출

    ① 유동인구 추출

    - 일단위 국제로밍호 테이블에서 서울시 지역에 대한 법정동 단위 유동인구

    추출

    - BC카드 결제내역 및 동별 시설물 정보 등의 비교 분석을 통한 유의미한

    176개 법정동 선정

    ② 기지국 추출

    - 일자별/시간대별/법정동별 유동인구가 높은 상위 15개 기지국 추출

    - 통화 발생 기지국 커버리지를 포함하는 50m x 50m 격자셀 단위의 유동

    인구 정보 분석

    [그림] 유동인구 데이터 분석 과정

    ③ 제공 단위 가공 및 분석

    - 유의미한 시간구간별 분류 : 00-07시, 07-11시, 11-14시, 14-17시, 17-20시,

    20-00시(각 시간 구간별 50m*50m 셀 단위 집계)

  • 39

    B I G D A T A

    Ⅰ. 고객관리

    BC카드 데이터를 활용한 상권별 중국인 매출액 분석

    ① 고객유형정보 분석: 블록 단위(거주지 주소 기준) 성, 연령 고객 유형

    ※ 본격적인 정보분석을 위한 고객정보의 비식별화를 비롯한 거래건별 정보 추출

    ② 내국인 거래패턴 분석: 블록 단위 카드 거래의 성별/연령대별, 시간대별/

    요일별 패턴

    ③ 중국인 거래패턴: 블록 단위 은련카드 거래실적 데이터

    [그림] 카드정보 분석방법

  • 40 2015년 빅데이터 글로벌 사례집

    주요 분석 결과 및 활용방안

    | 주요 분석 결과 |

    중국인 관광패턴 분석

    외래 관광객은 2008년 이후 매년 10%씩 증가하고 있으며, 특히 중국인 관광객은

    500% 이상 증가

    ※ 일본 관광객수를 넘어 우리나라 관광산업에서 차지하는 중요도가 크게 상승

    중국인 관광객 구매횟수는 전년 대비 181% 상승하였고, 구매금액은 전년

    대비 120% 상승

    중국인 1인당(카드당) 거래 현황

    구분평균

    체류기간(일)

    평균

    방문매장수

    평균

    구매횟수

    평균

    구매금액(원)

    2013년 2.8 5.9 9.7 2,565,689

    2013년 전반기 2.8 5.9 9.5 2,522,406

    2014년 전반기 2.9 6.3 10.5 2,235,100

    증감 0.1일 0.4개 1회 -317,306

  • 41

    B I G D A T A

    Ⅰ. 고객관리

    명동/동대문 인근 쇼핑타운을 중심으로 밀집도가 높은 것으로 확인되나, 최근

    에는 강남/서초, 종로권역의 거래증가율이 높게 나타남

    ※ 명동/동대문의 경우 백화점/면세점이 월등히 높았으며, 강남/서초는 의복의류

    중국관광객 평균 구매횟수는 9.7회, 1인당 소비금액은 256만원으로 전체

    관광객 평균 183만원 보다 중국관광객이 40% 추가 소비(2013년 기준)

    관광객은 주로 명동/남대문(2,458,948건)에서 자주 소비하였으며, 종로/인사

    (288%), 강남/서초(239%)의 거래 건수가 전년대비 크게 증가

    ※ 명동/남대문(2,458,948건) → 홍대/신촌(325,006건) → 동대문(322,604건) → 종로/인사(242,882건)

    → 강남/서초(223,691건)

    소비금액 역시 명동/남대문(6조 44억 원)이 가장 높게 나타났으며, 종로/

    인사동(200%)이 전년대비 가장 큰 폭으로 증가

    명동/남대문(6조 44억 원) → 홍대/신촌(979억 원) → 강남/서초(882억 원)

    → 종로/인사(450억 원)

    관광객은 화장품, 의류 등을 주로 구매하고 화장품은 명동/남대문, 종로/

    인사동, 홍대/신촌에서 의류는 강남/서초, 동대문에서 주로 구매

    ※ 업종별 거래건수 : 화장품 판매점 → 여성의류점 → 인삼제품판매점 → 토산품/기념품점 → 할인점

    강남/서초, 종로/인사동은 한식, 동대문은 갈비·삼겹살, 홍대/신촌에서는

    닭갈비를 주로 먹으며, 명동/남대문에서는 커피를 많이 마시는 것으로 나타남

    | 서비스 계획 및 활용방안 |

    중국인 대상 모바일 앱서비스에 데이터 분석 결과를 활용한 지도기반의 여행지

    안내, 여행코스 추천, 인기 가맹점 소개 등 정보 제공

    * BC카드의 중국인 대상 앱서비스 ‘완쭈안한궈’에 기능 탑재, 한국관광공사의 중국인 앱서비스 ‘한국

    자유여행’에 기능 탑재

  • 42 2015년 빅데이터 글로벌 사례집

    ‘유통시장 분관광서비스 관련 기업, 기관, 지자체 등의 의사결정자들을 위한 트렌드

    분석 서비스 제공

  • 43

    B I G D A T A

    Ⅰ. 고객관리

    효과 및 향후 적용 확대 방안

    지역 소상공인 또는 소규모 지역 단위 현황분석 요구 사용자 지원

    해당 사업장 주변 또는 원하는 위치의 중국인 관광객의 소비 규모, 트렌드

    파악을 용이하게 하여 중국인 관광객 소비에 대한 이해를 도움

    관광업 관련 종사자 지원

    중국인 관광객을 대상으로 하는 관광업 관련 종사자에게 중국인 관광객의

    유동흐름, 여행패턴별, 휴가시즌별 관광객 특징, 관광지별 유동흐름 및 주변

    소비특징 등의 분석을 통해 서울지역 관광패턴과 선호 관광지 등의 정보를

    제공함으로써 중국인 관광객의 관광 및 소비 트렌드를 반영한 관광 상품

    개발에 활용

    관광관련 정책수립 지원

    관광관련 정책수립을 위한 각 지역별 통계정보를 제공함으로써 해당 공공

    기관이 관할하고 있는 지역 내 소비규모, 시간대별 유동객, 선호 업종 등을

    분석하여 정책 수립 시 활용함으로써 중국인 관광객의 해당 지역 내 관광

    편의 및 지역경제 활성화에 활용

  • 44 2015년 빅데이터 글로벌 사례집

    강남스타일 즐기는… 멋 좀 아는 유커들

    서동일 [email protected] ·김재형 기자 2015-01-21

    中관광객 서울 소비패턴 빅데이터 분석해보니

  • 45

    B I G D A T A

    Ⅰ. 고객관리

    동아일보가 단독 입수한 미래창조과학부 ·한국정보화진흥원(NIA)의 ‘빅

    데이터 기반의 외국인 관광 산업 지원 시범사업’ 결과 보고서에 따른 해석

    이다. NIA는 지난해 1월부터 올 6월까지 18개월간 중국의 은련(銀聯)카드

    거래 명세를 기반으로 유커들이 서울 어느 지역에서 어떤 물건을 사고, 어떤

    음식을 먹는지 분석했다. 은련카드는 중국인 90% 이상이 사용하는 것으로

    알려진 신용카드다. (중략)

    유커들의 관광 행태 중 권역별 차이가 뚜렷한 것은 음식이었다. 강남에서

    가장 많이 먹는 음식은 양식(43%)이었다. 강남역 인근 파스타 ·바비큐 전문점

    ‘Big PLATO’ 직원 이민영 씨(26·여)는 “중국인들은 주로 모바일 앱을 통해

    우리 가게 위치를 확인한 다음 찾아온다”며 “최근에는 유커들을 대상으로

    한 음식점 추천 앱을 만드는 관계자들도 ‘식당 정보 업데이트를 하고 싶다’며

    찾아오고 있다”고 말했다. 강남권에서 눈에 띄는 것은 ‘게장 전문 음식점’(4.3%)이

    5위를 차지했다는 것. 강남의 일부 간장게장 전문점은 중국 홍콩 대만 등

    동아시아권 관광객들에게 관광 명소로 알려져 있다.

    신촌 ·홍대앞을 찾은 유커들은 닭요리(17.5%)를 가장 많이 먹었고 한식

    (9.8%) 전문점을 많이 찾았다. 반면 유커들의 ‘메카’ 명동과 동대문에선 카페

    (39.8%)에서 쓴 돈이 가장 많았다. (중략)

    동아일보 기사원문: http://news.donga.com/3/02/20141120/68005542/1

  • e-Business

  • 49

    B I G D A T A

    Ⅱ. e-Business

    7. Ancestry.com, 온라인 가계도 서비스

    ■■■■■■

    생년월일, 출생·사망 기록 등 역사적인 기록 자료 및 유전자 정보 등 다양한 비정형

    데이터들의 연관성을 분석하고 검색 행적을 기록하여 조상 정보 찾기 서비스를 제공

    추진 목적 및 배경

    방대한 인구 데이터를 저장하고 공유할 수 있는 기술의 발전과 이를 활용하려는

    비즈니스 발생

    미국, 호주, 캐나다 등 이민자들로 형성된 나라에서 자신의 뿌리 찾기에 대한

    관심 증가

    고성능 문서스캔과 이를 판독 및 분석할 수 있는 다양한 기술이 발전되고,

    미국에서는 이민입국심사 서류, 재판기록 등 각종 공문서가 일반에 공개가

    가능해짐

    이에 Ancestry.com은 미국과 캐나다, 유럽, 호주에서 고객의 뿌리를 찾아주는

    비즈니스 모델을 개발하여 사업을 전개하였으며 현재 200만 명 이상의 회원을 보유

    가족(조상) 히스토리 정보를 구축하고 개인별 맞춤 서비스를 제공하기 위한 데이터

    스토어 구축작업 시작

    생년월일, 출생 및 사망 기록, 센서스, 군적기록, 이민 기록, 전쟁 등의 역가

    기록 까지 총 120억 건의 방대한 데이터베이스 축적

    고문서 연구기관이나 지방자치단체의 허가를 받아 자료 저작권을 직접 매입

    하여 활용하는 등 데이터 출처를 다양화

    축적된 데이터는 4페타바이트급으로 10페타바이트(10,000,000GB) 데이터 저

    장소에 보관 중

    해외

  • 50 2015년 빅데이터 글로벌 사례집

    추진 내용

    [그림] 고객 데이터 분석 사례

    자료: Ancestry.com

    DNA 시퀀싱을 통한 조상 찾기 서비스 제공

    회사는 고객이 보내온 타액이 담긴 튜브에 대해 개별적으로 분자테스트를

    하여 유전적 데이터를 축적하고 DNA 시퀸싱3) 정보분석을 시행

    모든 AncestryDNA 고객의 경우, 70만 개의 SNP(DNA에 있는 개인 식별이

    가능한 변수 영역)들이 측정되며, 이 정보는 회사가 보유한 DNA정보가 있는

    모든 가입자들과 비교되어 측정

    ※ $99로 전체 DNA분석의 1/10 가격으로 유전자 분석을 수행

    사용자의 민족을 예측하고 데이터베이스 내의 친척들을 확인하기 위한 컴퓨터

    적인 분석도 함께 수행

    3)� DNA시퀀싱� :�생화학적�방법을�사용해�디엔에이(DNA)의�염기서열을�결정하는�과정� [네이버�지식백과]�

  • 51

    B I G D A T A

    Ⅱ. e-Business

    고문서와 온라인상의 조상관련 정보 서비스 제공

    크롤링(Crawling)을 통해 수집된 디지털 데이터, 스캔된 행정 문서를 활용

    하여 작성된 온라인데이터베이스에 사용자들이 제공한 데이터를 결합하여

    조상과 관련된 콘텐츠 서비스를 제공

    빅데이터 기술을 활용하여 기록간의 연결고리나 검색 관련 알고리즘 같은

    규칙과 절차를 확립. Ancestry.com의 검색 결과는 전략적으로 연결된 기록들과

    과거 검색 행동을 기반으로 이루어짐

    연관어 검색 등 검색 기술도 다양하게 반영하여 검색 정확도를 높였으며

    최근에는 방대한 양의 사용자 정보도 추가로 유입하는 등 정확도를 높이기

    위한 작업을 지속적으로 진행

    [그림] Ancestry.com의 주요내용

    그래프로 표현된 가계도 DNA 매칭

  • 52 2015년 빅데이터 글로벌 사례집

    안면특징의 데이터화 유전학적인 분석 사례

    고문서의 데이터화를 통한 정보수집 사용자에게 리포팅되는 가계도

    고객서비스의 향상을 위해 서비스 사용현황과 고객 사용기록을 파악

    현재 서비스의 사용 현황을 모니터링하여 특정 서비스 혹은 인프라의 문제점을

    탐지 및 확인

    어느 부분에 새로운 콘텐츠가 투입되고 만들어져야 하는지를 검색 행적을

    통해 파악하여 콘텐츠 제공 방향을 결정하기 위한 자료로 활용

    사용자의 불만족 시점이나 서비스 탈퇴 시점을 분석하여 고객 서비스 향상에 활용

  • 53

    B I G D A T A

    Ⅱ. e-Business

    [그림] Ancestry.com에서의 사용자 패턴분석

    다양한 서비스의 현황 모니터링 잘못된 쿼리의 발견

    운영체계에서의 문제점 탐지 문제 서비스의 탐지

    자료: Ancestry.com

    사용자가 정당한 목적으로 웹사이트의 정보를 이용하는지 확인하기 위한

    보안상의 목적으로도 활용

  • 54 2015년 빅데이터 글로벌 사례집

    다양한 소스로부터 추출된 페타바이트급 데이터를 관리하기 위한 빅데이터 시스템 구축

    약 10PB의 데이터를 마이닝하고, 대량의 DNA 데이터를 다루기 위해서는

    대규모의 데이터를 분산·병렬처리 하는 것이 효과적이라 판단

    서비스 데이터의 일부를 3개의 클러스터로 분리해 프로세스하고 있으며

    하둡의 분산 처리기술을 통해 빠른 핸들링

    3개의 클러스터는 각각 DNA 매칭을 위한 데이터 마이닝, 머신러닝, 단순

    데이터 구축을 위한 용도로 구성

    서비스의 중단 없이 지속적인 운영을 위한 고가용성이 매우 중요했으며 이에

    MapR의 고가용성 JobTracker 활용

    이를 통해 다른 업무를 동일한 클러스터 상에서 처리하는 것을 가능하게 하

    였고, 시각적인 사용자 인터페이스와 클라이언트 구성 능력, 빠른 처리 등이

    가능해 짐

    효과 및 향후 적용 확대 방안

    향상된 디지털 이미지 처리 기술을 활용하여 정교한 사용자 데이터를 확보하고

    모바일 특화 서비스를 개발

    기업적 목적이 아닌 개인의 흥미를 위한 빅데이터 활용의 대표 사례로 개인의 성향,

    취향, 미래 정보, 여행지 제안 등 비슷한 사례로의 무한한 확산이 기대

    개인이 알고 싶어 하는 맞춤화 되고 최적화된 검색 결과를 제시하기 위해서는

    다양한 데이터 소스를 연계하고 축적하는 노력이 필수

    이미 축적된 데이터뿐만 아니라 검색, 결제 등 개인의 활동을 통해 발생되는 사용

    기록 데이터를 활용해 새로운 빅데이터 분석서비스를 제공

  • 55

    B I G D A T A

    Ⅱ. e-Business

    8. 오비츠, 사용자 특성을 파악하여

    맞춤 검색 결과 제공■■■■■■

    웹사이트로 유입되는 고객의 로그데이터를 파악하여 고객군을 분류하고 고객 특성별 다양한 호텔이 노출되도록 검색 결과를 조절하는 서비스 제공

    추진 목적 및 배경

    사이트 유입량 증가에 따라 고객 검색 데이터가 대량으로 축적

    미국 온라인 여행 사이트인 오비츠는 항공권 및 기차표 예매, 호텔 예약,

    여행 상품 정보 제공 등의 서비스를 제공하며 매일 최대 150만 건의 항공

    검색과 100만 건의 호텔 검색 발생

    이로 인해 일별 최소 500GB의 로그데이터가 발생되고 있으며 이러한 데이터의

    저장과 처리를 위해 현재 데이터 인프라를 활용하는 것은 비싸고 어렵다고 판단

    축적된 데이터를 효율적으로 저장하고 활용하고자 하는 인프라에 대한 요구 발생

    오비츠가 보유한 대용량의 데이터 세트를 위한 스토리지 등 하드웨어 기반 마련

    비용 효율적 운영 및 개발자와 분석가의 활용도를 높이기 위한 오픈 엑세스 허용

    실시간으로 데이터 쿼리를 처리하고, 어플리케이션 리포트를 신속하게 배치

    하기 위한 솔루션 필요

    고객군 특성에 따라 구매력이 다르며 이를 검색 결과에 반영한 매출 증대 기획

    직관적으로 맥OS사용자가 일반 PC사용자 보다 구매력이 높다고 추측하고

    있었으나 실질적인 데이터로 이를 증명하고자 하는 호기심 발생

    이를 통해 접속자 특성에 따라 다른 검색 결과를 보여주는 타깃 마케팅을

    진행할 수 있는 기반을 마련하고자 함

    해외

  • 56 2015년 빅데이터 글로벌 사례집

    추진 내용

    실질적인 마케팅 활용을 위해 인력 충원 및 분석팀 조직

    빅데이터 경험이 있는 기업의 통계 전문가를 고용하여 새로운 분석팀을 만

    들었으며 대용량 데이터에서 유용한 정보를 찾아내는 데이터 마이닝을 우선

    순위에 놓고 데이터간의 관계, 패턴, 규칙 등을 찾아내는데 주력

    데이터 마이닝을 통해 해당 사이트에 접속하는 PC(혹은 OS)의 종류에 따라 고객의

    구매력의 차이가 있다는 결론 도출

    맥 OS를 사용하는 사람의 구매력이 MS 윈도 OS를 사용하는 사람보다 30%

    정도 높다는 직관이 실질적인 데이터를 통해 확인됨

    맥 사용자는 PC 이용자보다 평균 20~30달러를 더 지출하는 경향이 있으며

    4~5성급 호텔을 예약하는 비율도 40% 이상 높다고 분석

    윈도 사용자에게는 더 적은 비용의 모델을, 맥 사용자에게는 가격대가 상대적으로

    높은 모델을 소개하는 등 맞춤화된 정보를 제공하기 시작(맥과 윈도우를 이용한

    방문자에게 다른 호텔 옵션을 제시하는 것이며 같은 호텔을 다른 가격에 보여주는

    것은 아님

    맥PC로 검색 시 일반PC 검색에서는 첫 페이지에 나오지 않았던 값비싼 부티크

    호텔이 노출

    숙박비가 더 비싼 일부 호텔은 두 경우의 검색 결과에 모두 노출되었으나

    맥에서는 보다 상위 리스트에 노출되는 등 맥 검색의 첫 페이지에 나온

    호텔들은 PC 검색의 첫 페이지에 나온 호텔들보다 약 11% 가격이 높은 호텔이 노출

    아직까지는 이용자의 위치나, 호텔의 인기도와 홍보, 오비츠 사이트 등록일

    등의 다른 요인들이 검색 결과에 더 크게 작용하나 향후 정교한 모델을 통해

    PC(OS)의 차이도 검색 결과 영향력을 확대할 예정

  • 57

    B I G D A T A

    Ⅱ. e-Business

    하둡과 하이브를 활용하는 빅데이터 솔루션을 도입하기 시작

    비용 효율화 및 신뢰성을 확보하기 위해 빅데이터 오픈소스 솔루션 도입을

    추진

    클러스터링 된 기기들 간 대용량 데이터를 다루는데 적합하며 확장이 용이한

    HDFS(하둡 분산파일 시스템), 병렬적으로 연결된 대량의 데이터를 분산 처리

    하는데 효과적인 맵리듀스, 오픈소스 데이터 웨어하우징 솔루션 하이브를

    적용

    검색 프로세스 개선을 통해 빠른 호텔 검색결과 노출 등 개선 작업 착수

    맵리듀스 프로세싱을 위해 웹트렌드의 로그데이터로부터 데이터를 발췌하여

    기존 프로세스 소요시간이 약 100분 걸렸던 것 대비, 맵리듀스 프로세스 소요

    시간은 약 25분으로 감소

    하이브를 통해 이전에는 불가능했던 작업을 쉽게 처리함. 예를 들어 검색결과

    에서 각각의 예약된 호텔의 현황을 찾는 것이 가능해졌으며, 위치나 일수

    기준으로 예약 현황을 종합할 수 있음

    [그림] 웹 애널리틱스 데이터의 처리 프로세스

    자료: Orbitz Worldwide

  • 58 2015년 빅데이터 글로벌 사례집

    효과 및 향후 적용 확대 방안

    고객의 온라인 활동을 추적하여 특성을 파악하고 이를 통해 고객 기호나 지출

    습관을 예측하여 최적화된 제품/상품을 제시하는 것이 가능해짐

    오비츠의 사례를 시작으로 고객군 특성별 구매력 차이가 발생하는 지에 대한

    실험이 다양하게 제시되어 마케팅에 적극적으로 활용될 예정

    특히 온라인 기업들은 호텔/여행 분야 외 다른 분야에서의 맥 이용자들과

    나머지 이용자들의 구매력 차이에 대한 분석에 관심을 갖고 있음

    데이터를 통해 고객의 미래 쇼핑 습관을 예측하고 잠재 고객을 파악하는 등의 ‘예측

    분석(predictive analytics)’ 확대

    고객 데이터를 통해 성향을 분석하여 타킷 마케팅을 함으로써 매출 증가가

    가능하다는 좋은 사례로 다양한 온라인 비즈니스에 확대 예측

    온라인 기업들은 그들의 제품과 서비스에 대한 가장 높은 “생애 가치(lifetime

    value)”를 갖는 대상을 위한 맞춤화 서비스 제공

  • 59

    B I G D A T A

    Ⅱ. e-Business

    9. NC소프트, 게임 내 사기 탐지

    시스템 구현■■■■■■

    게임 사용자들이 생산하는 방대한 양의 로그기록을 이용하여 회귀 분석, 자기 유사도 알고리즘 및 기계 학습을 통해 게임 버그와 비정상적 사용자 탐지

    추진 목적 및 배경

    온라인 부정 거래, 사기 행각의 심각성 확대

    다른 사람의 자산을 불법적으로 탈취하는 행위, 즉 신용카드 도용, 은행계좌

    도용, 보험 사기, 탈세를 종합하여 ‘Fraud’라고 함. 이런 사기 행각들은 전체

    온라인 거래의 9%를 차지하며 거래 비율은 매년 약 2배씩 성장하는 추세

    (Online Fraud Report, CyberSource, 2012)

    방대한 거래 데이터를 다루는 기업들은 사기 탐지(Fraud detection)에 다양한

    데이터 분석도구를 이용하고 있으며 정확한 알고리즘을 생성하기 위해 금융

    회사, 통신회사, 결제 대행회사들은 상당한 투자를 집행하고 있음

    게임 사기(Game Fraud) 탐지 - 게임 내 아이템의 불법적 거래 및 사기 급증

    엔씨소프트의 주력 게임인 리니지, 리니지2, 아이온, 블레이드 앤 소울 등의

    MMORPG4) 에서는 실생활과 유사한 생산 및 소비 행위가 발생하고 있으며

    게임 내에서 생산한 가상 재화를 현금과 맞교환하는 블랙 마켓이 크게 활성

    화되어 있음. (게임아이템 현금 거래와 정보보호, 한국정보보호진흥원, 2006)

    소위 ‘오토’라고 불리는 게임 자동 사냥 프로그램을 통해 경험치 및 재화를

    손쉽게 취득하고 이를 블랙마켓을 통해 현금화하는 전문적인 사업자들이 증가

    4)� MMORPG� :� 대규모� 다중� 사용자� 온라인� 롤� 플레잉� 게임(Massive� Multiplayer� Online� Role� Playing�

    Game)의�줄임말.�게임�속�등장인물의�역할을�수행하는�형식의�게임인�RPG(롤�플레잉�게임)의�일종으로,�

    온라인으로�연결된�다수의�사용자가�같은�공간에서�동시에�즐길�수�있는�게임을�말함(네이버�백과사전)

    국내

  • 60 2015년 빅데이터 글로벌 사례집

    및 불법 기업화되고 있어 이에 대한 발빠른 대응이 중요해지면서 게임 내

    정상 사용자와 불법 사용자를 구별하고 탐지해 내는 기법이 필요해짐

    이 외에도 다른 사람의 계정을 도용하여 보유한 게임 아이템 및 기타 자산을

    몰래 처분하는 행위나 게임의 버그를 악용하여 몰래 아이템의 무한 복제,

    보스 몹 무한 사냥 등을 수행하는 등 불법적인 행동이 나타나 선량한 사용

    자의 직접적인 피해는 물론 정상적인 게임을 방해하는 등의 문제가 심각해

    지면서 이에 대한 단속이 필요

    추진 내용

    보다 높은 탐지율을 위해 빅데이터 분석 기법 도입

    수많은 게임 사용자의 플레이를 통해 발생되는 대량의 로그 데이터를 수집

    /적재하고 이를 가공하기 위해선 빅데이터 처리 기술이 요구되며 가공된

    데이터를 통해 탐지 패턴을 찾아내기 위해선 통계 분석 및 기계학습을 이용한

    탐지 모델 필요

    로그 데이터 적재 및 관리를 위해 하둡 클러스터를 구축하고 데이터 가공은

    Pig와 Cascading, 분석 및 모델링은 R을 이용

    오토 캐릭터의 탐지 – 자기유사도 알고리즘 + 로지스틱 회귀분석

    오토 캐릭터는 미리 설정된 행위를 반복하는 경향이 강하기 때문에 각 캐릭터별

    자기 반복적인 경향을 정량화하고 이렇게 정량화된 수치가 높은 캐릭터들을

    탐지하는 것이 핵심 요소

    * 정량화된 수치는 ‘자기 유사도 알고리즘(Self similarity Algorithm)’로 정의하며 오토 캐릭터 탐지에

    가장 핵심이 되는 요소

  • 61

    B I G D A T A

    Ⅱ. e-Business

    [그림] 캐릭터 별 발생 로그를 벡터를 변환 → 각 벡터들의 코사인 유사도(Cosine Similarity)를 계산

    [그림] 캐릭터 별 코사인 유사도 표준 편차 계산 후 자기 유사도 값으로 변환

    [그림] 정답 집합을 이용하여 자기 유사도 값을 BOT 확률로 전환

    자료: NC소프트, 2014

  • 62 2015년 빅데이터 글로벌 사례집

    뱅커(Banker) 캐릭터의 탐지 – 네트워크 분석(Network Analysis)

    기존 탐지 시스템으로는 은밀한 위치 오토 캐릭터가 수집한 경험치와 재화를

    통합관리하는 뱅커의 검출 및 탐지 작업을 수행하는데 한계가 나타남

    사용자들의 방대한 행동을 담은 로그 데이터 분석을 통해 캐릭터들 간 거래

    네트워크를 구성한 후, 그래프 클러스터링을 수행하여 오토 캐릭터가 많이

    활동하는 클러스터(작업장)을 구분 한 후 뱅커 캐릭터를 탐지하는 로직 개발

    [그림] 뱅커 탐지를 위한 사용자들 간의 관계 네트워크 시각화

    자료: NC소프트, 2014

    그래프 클러스터링(Graph Clustering): 긴밀한 네트워크 형성 집단을 분류하고

    작업장 여부 판별 기준을 적용

  • 63

    B I G D A T A

    Ⅱ. e-Business

    [그림] 그래프 클러스터링 및 Banker의 탐지 시각화

    Graph Clustering Banker의 탐지

    자료: NC소프트, 2014

    뱅커 캐릭터를 찾아 자산 압류 등 작업장에 실질적인 경제적 타격을 가함

    으로써, 불법 사용자를 감소시키고 게임의 정상적 운영을 꾀하는 효과를 보임

    효과 및 향후 적용 확대 방안

    오탐률 감소에 대한 숙제 ‘여전’

    일반 정상 사용자를 오토로 잘못 판단하거나 새롭게 게임을 시작하는 친구

    에게 좋은 아이템을 선물했는데 이를 압류당하는 사례 등 부정 사용자에 대한

    알고리즘 불완전성은 여전히 숙제로 남아있음

    해외에서 다양한 표적 알고리즘 사례가 소개되고 있으나 오탐률이나 잘못된

    결과에 대한 내용은 공유되고 있지 않아 더 나은 알고리즘 개발 속도는 다소

    더디게 진행된다는 점이 문제

  • 64 2015년 빅데이터 글로벌 사례집

    사기 행위자들은 탐지 패턴을 피하기 위해 끊임없이 ‘변화’

    오토 및 사기 관련 불법 캐릭터 들은 지속적인 정보 공유와 대응 방법 연구를

    통해 탐지 패턴을 피하기 위해 변화하고 있으며 게임사와 대결 구도에 있음

    특히 탐지 효과가 클수록 더 적극적으로 패턴을 변화시키며 발전하는 추세

    [그림] 탐지 시스템에서의 패턴에 대응하는 Fraud 패턴 변화 양상

    Fraud 탐지 시스템으로 본 패턴 탐지를 피하기 위한 패턴 변화 양상

    자료: NC소프트, 2014

    게임데이터는 활용성 및 가능성이 매우 높은 데이터

    사기탐지를 비롯한 게임데이터는 향후 활용 가능성이 유용한 데이터지만

    자료 공유가 거의 없어 분석 알고리즘 및 관련 데이터 분석에 한계가 있음.

    따라서 게임사끼리의 자료 공유가 활발하게 나타나야 하며, 게임 이외의

    데이터 결합, 분석을 통해 더 큰 사회적 가치 창출이 가능함

  • 65

    B I G D A T A

    Ⅱ. e-Business

    오픈 소스 기반 데이터 플랫폼 적용 확대

    보다 실질적인 가치 창출을 위해서는 지속적으로 활용성 및 효율성을 극대

    화할 필요가 있음. 이를 위해선 대규모 데이터 처리를 위한 하둡과 같은 빅

    데이터 플랫폼 구축이 보다 확대되어야 하며, 다른 개발툴과의 연결 및 시스템

    연동에 유리한 R의 활용이 점차 중요해질 것으로 전망

    특히 빠른 탐지 및 대응을 위해 실시간 데이터 처리 인프라 구축 및 적용을

    검토하고 있음

  • 66 2015년 빅데이터 글로벌 사례집

    10. 멜론, 이용자 관심도에 따른 콘텐츠 추천

    ■■■■■■

    사용자들이 축적한 데이터를 통해 아티스트별 인기도를 측정하고, 이용자 관심사에 맞는 흥미유발 콘텐츠를 추천하는 음원 서비스 제공

    추진 목적 및 배경

    로엔 엔터테인먼트의 음악 서비스인 멜론은 국내 2,400만 이용자를 보유하며

    320만 음원을 보유하는 대규모 서비스로 그동안 축적된 데이터를 활용하고자 하는

    과제 당면

    기존 로엔 엔터테인먼트의 관계형 데이터베이스로는 현재 멜론의 방대한 데이터

    관리에 한계에 도달

    일평균 7천만 건 이상의 스트리밍이 발생하며, 월 평균 1,200만 이상의 방문자

    유입, 연간 10억 건(하루 320만 건)이상의 콘텐츠 이용이 발생

    관계형 데이터베이스를 이용한 소식 서비스의 부하 발생을 계기로 멜론의

    빅데이터를 수용할 수 있는 적절한 솔루션 모색을 시작

    추진 내용

    멜론의 적절한 데이터 관리와 소비자 이용 경험 증대를 위한 빅데이터 필요성 증가

    기존 배치 애플리케이션의 한계 및 다양한 분석 알고리즘이 부재한 상황

    방대한 양의 데이터를 적재 및 보관하고, 분석하고, 재사용하기 위한 대용량의

    하드웨어와 소프트웨어가 필요한 시점

    이용자 관점에서 빠른 검색 및 조회를 할 수 있는 기반 마련 필요

    국내

  • 67

    B I G D A T A

    Ⅱ. e-Business

    멜론 이용자들이 축적한 데이터를 통해 팬 소비지수 개발

    이용자의 음원 소비량, 영상 재생횟수, 콘텐츠 조회수, 콘텐츠 좋아요 수,

    콘텐츠 공유 수, 댓글 등 이야기 수 등 다양한 활동 데이터가 멜론에 축적

    되어 있었음

    이러한 데이터 중 대표적인 31가지를 선택하여 분석한 뒤 이용자들의 활동을

    점수로 환산

    이용자 활동 점수를 바탕으로 아티스트별 팬 선호도를 측정

    멜론에 등록된 콘텐츠에 대한 이용자 반응을 일별, 주간, 월간 기준으로 파악 가능

    특정 아티스트를 선호하는 팬을 대상으로 타깃 마케팅 진행

    팬소비지수를 통해 가장 팬 선호도가 높은 아티스트를 파악하거나 개별

    아티스트가 보유한 팬들과 그들의 관심 정도 등의 관계 데이터를 추출 가능

    예를 들어 A라는 아티스트의 팬, 매니아, 잠재팬의 분포와 그들의 성별,

    연령별 분포, 아티스트에 대한 조회수와 공유수, 좋아요 수를 파악 가능

    이를 기반으로 아티스트의 팬이나 잠재 팬 대상으로 소식을 발송하여 관심도를

    높이고, 팬을 증가시키고 장기적으로 멜론 음원 서비스의 이용 확대가 일어날

    수 있는 선순환 구조를 구축

    이용자의 관심을 유도하기 위한 친밀도 분석 결과 제시

    이용자가 특정 아티스트와 관련하여 발생시킨 데이터양을 기반으로 하여

    이용자의 아티스트에 대한 친밀도를 온도(℃)로 표현하여 제시해 주며, 수많은

    팬 중에 나의 순위를 숫자로 제시하여 흥미 유발

    이용자에게 흥미와 즐거움을 유발함으로서 아티스트에 대한 충성도를 높이

    거나 새로운 아티스트에 대한 관심을 높이도록 자연스럽게 유도하며 이는

    멜론 음원 소비에도 긍정적으로 작용

  • 68 2015년 빅데이터 글로벌 사례집

    테라바이트 단위의 방대한 데이터를 저비용으로 관리하기 위한 솔루션 선택

    비용이 높은 상용 솔루션 보다 저렴하면서 안정적인 대용량 데이터 서비스를

    제공하는 오픈소스 솔루션을 활용하기로 결정

    검증을 통해 최종적으로 하둡, HBase, Mahaut을 선택하였고 기술 내재화를

    위해 파트너사를 선정하여 내부 인력 문제를 해결

    [그림] 멜론 데이터의 수집-분석-서비스 아키텍처 구성

    자료: 로앤 엔터테2014

    일평균 2TB 이상의 데이터가 멜론 및 이용자에 의해 생성되고 있으나 최소한의

    정보만 적재하는 것을 원칙으로 하고 있으며 현재 약 300TB의 정보를 마리아

    DB로 관리 중

    일부 서비스의 경우 발생시점에 따른 관리 정책을 사용하여 폭증하는 데이터를

    적절히 조정하고 있으며 비용편익 검토를 통해 데이터 적재를 최소화

  • 69

    B I G D A T A

    Ⅱ. e-Business

    효과 및 향후 적용 확대 방안

    로엔 엔터테인먼트의 빅데이터 도입의 핵심은 기술 내재화

    하둡 등 오픈소스 솔루션의 국내 인력 품귀로 내부 인력 부재 상황. 그러나

    장기적 운영을 위해서는 지속적인 학습이 가능한 인력이 필요

    이에 기술 내재화를 위한 파트너사를 선정하였으며 기술 중심의 빅데이터

    도입이 아닌 비즈니스 중심을 유지하기 위해 장기적인 시간을 두고 준비

    사내 서비스 기획팀과 기술개발팀 간 1차 커뮤니케이션을 통해 목표를 명확히

    하였으며, 기술개발팀과 파트너사(그루터)를 통해 하둡 플랫폼 기술 지원 및

    운영 지원을 받아 진행

    향후 목표는 이용자의 활용 패턴을 이해하여 특정 아티스트 추천이나 맞춤형

    서비스를 먼저 제안하는 프로그램을 개발하는 것

    빅데이터 서비스가 확산될수록 개인 맞춤형 제품/서비스 추천 기능이 점차

    확산되며 정교해 질 것이며 멜론 서비스도 이에 적극 대응 예정

    고객 이력 기반 추천, 콘텐트 기반 추천, 메타 기반 추천을 활용할 계획

    장기적으로는 스마트카, 웨어러블 디바이스와 연동한 지능형 서비스 개발

    예정

  • 의료

  • 73

    B I G D A T A

    Ⅲ. 의료

    11. UNC 헬스케어, 환자의

    재입원 비용 절감■■■■■■

    텍스트 분석 기술을 통해 저소득층 대상의 의료 보장제도 하에 있는 저소득층 환자들의 재입원 비율을 줄여 의료비용 절감

    추진 목적 및 배경

    저소득층 대상의 의료보장제도의 등록자 수가 증가

    경기침체 이후 2012년 기준 약 700만 명이 저소득층 의료 보장제도 등록

    ※ UNC 헬스케어

    UNC 헬스케어(University of North Carolina Health Care)는 비영리 통합 의료

    기관으로 노스 캐롤라이나 북부에 설립되어 있고, 채플 힐에 본사를 두고 있다.

    UNC 헬스케어는 UNC-채플힐 의학대학과 전국적으로 저명한 연구기관과 연계

    되어 있고 매년 37,000명 이상의 환자를 수용하는 최첨단 시설로 고품질의 의료

    서비스를 제공한다.

    저소득층 의료보장제도에 대한 국가 비용문제 발생

    저소득층 의료보장제도의 자금은 미국 연방정부와 각 주에서 공급

    저소득층 의료보장제도의 높은 비용과 비효율적 운영으로 인한 경제적 피해로

    비용을 줄이고, 효율적인 운영이 필요하다고 판단

    ※ 20%의 사람이 80%의 질병비용을 일으키는 파레토법칙이 적용

    해외

  • 74 2015년 빅데이터 글로벌 사례집

    [그림] 질병 위험 상태와 병원 지출 비용의 관계

    자료: IBM, 2014

    의료데이터의 대부분을 차지하는 비정형화된 데이터의 분석 필요성 증가

    의료기관은 수많은 데이터가 존재하며 신뢰성이 확보된 데이터 및 정보에

    대한 통찰력을 확보할 필요가 생김

    의료 데이터의 80%이상이 비정형화된 데이터로 기존 인프라를 통한 분석이

    어려웠으며 이를 해결하기 위한 서비스 도입이 필수적인 상황

    타 의료기관에서의 암진단 자료와 같은 외부자료의 연계가 불가능한 경직된 정보

    시스템 구조로 원활한 진료가 어려운 환경

  • 75

    B I G D A T A

    Ⅲ. 의료

    추진 내용

    유방 촬영술(mammography screenings)과 자궁경부세전 검사(Pap Smear)에 있어

    콘텐츠 분석(Content Analytics)과 자연어 처리(Natural Language Processing)를

    활용한 비정형 의료 데이터 분석 수행

    환자의 영상과 텍스트 데이터에서 비정상(Abnormal) 정보를 추출해 내는 일은

    의료진의 많은 시간과 노력을 필요로 함. 기계 판독과 자동처리 알고리즘을 통해

    비정상 부문을 자동 추출하여 의료진의 시간과 노력을 절감

    [그림] UNC 의료정보 분석 플랫폼

  • 76 2015년 빅데이터 글로벌 사례집

    데이터 분석을 통한 통찰력 확보를 위해 IBM의 텍스트 분석 서비스를 도입하였

    으며 환자 재입원 비용을 줄이는데 활용

    정형 및 비정형 데이터를 모두 확인 가능해졌으며 특히 비정형화된 데이터를

    통해 환자 입원 예방 조치에 활용

    환자들의 입원 원인에 대한 파악이 가능해짐에 따라 입원을 방지하기 위한

    예방 조치도 확립 가능해짐

    가공되지 않은 정보를 사용 가능한 정보로 변환하는 것을 통해 의료산업에 대한

    다양한 의사결정 및 통찰력을 마련함

    재입원을 줄이기 위해서는 입원에 위험이 보이는 환자에게 적시에 의료 서비스를

    제공해야 하고, 입원을 했던 환자가 병원 퇴원 후 문제가 있을 경우 빠른 후속

    조치가 필요

    기존에는 이러한 환자 정보가 비정형 문서로 저장되어 있기 때문에 확인이

    어려웠으나 빅데이터 분석 솔루션 도입 후 이러한 비정형 데이터를 처리/

    분석하여 환자들의 문제점을 파악 가능

    또한 문제점을 발견하는 시간도 줄어들어 환자의 재발병을 미리 인지하여

    빠른 후속조치를 제공하는 것이 가능해 짐

    이러한 프로세스를 통해 의료보장제도 혜택을 받는 저소득층 환자의 재입원

    비율 및 그에 따른 비용을 줄일 수 있음

    환자의 쉬운 열람이 가능하도록 데이터를 변환

    건강관리에 대해 환자가 직접 참여하게 하는 것은 건강회복을 위해 중요하나

    의료 데이터는 이해하기가 어렵고 필터링 되지 않았다는 문제점 보유

    의료 데이터를 단순한 형식으로 변환시켜 환자들이 자신의 건강 정보를 이해

    하기 쉽도록 하였으며 이를 통해 건강관리에 직접 참여할 수 있게 함

  • 77

    B I G D A T A

    Ⅲ. 의료

    효과 및 향후 적용 확대 방안

    빅데이터를 활용해 유방암과 자궁경부암 부문에서 암진단 건수를 10%이상 증가

    시켰으며, 결장암(colon cancer)과 같은 타 암의 진단에 확대 적용

    [표] 빅데이터 적용성과(IBM, 2011)

    구분 전반적 정확도 정밀도 민감도(리콜) 특이도 양성예측도

    진단 78% 90% 80% 68% 90%

    사후관리 79% 95% 74% 91% 95%

    빅데이터를 적극 활용해 선진화된 의료 서비스를 갖추고, 맞춤형 건강관리 프로그램과

    같은 다양한 환자 관리 프로그램을 마련하는 등 다양한 빅데이터 서비스 확산

    의료진과 환자 간의 소통 및 의료기관간 데이터 교환, 안전한 클라우드 컴퓨팅

    인프라에 기반하여 작은 의료기관들이 사용할 수 있는 의료정보 운영환경 제공

    방위 의료 및 임상 데이터 확보를 통한 임상 연구 역량 강화는 물론, 전체 의료

    데이터의 통합 분석을 통한 의료 서비스 품질 향상에 도움을 주며 장기적으로 업무

    효율성 강화 및 데이터 투명성 강화에도 기여할 것으로 기대

    민감한 환자의료 정보를 활용하거나 공유하기 위해서는 익명화, 암호화 등

    보안문제해결이 필수적

  • 78 2015년 빅데이터 글로벌 사례집

    12. 서울아산병원, 의료연구 편의성 확대

    ■■■■■■

    대용량·비정형 의료 데이터를 효과적으로 암호화하고, 법규준수를이행하는 의료 연구 목적의 연구정보검색시스템 개발

    추진 목적 및 배경

    개인정보 보호법 강화로 다양한 분야의 의료 정보 보호에 관심 증가

    진료나 경영목적으로 활용하는 개인정보 외에 의료진이 연구목적으로 수집

    및 분석하는 정보에 대한 보호에 관심을 갖게 됨

    개인정보보호 관련 다양한 규제 등장 속에서 의료 정보 시스템뿐 아니라 임상

    연구에 쓰는 데이터에 포함된 개인정보의 유출 및 오남용 방지 대책 수립이 필요

    생명윤리 및 안전에 관한 법률과 개인정보 보호법 모두를 충족시키기 위한

    방안 마련

    실무 차원의 규제 대응 가이드라인 마련과 시스템 설계가 어려운 실정

    개인정보 보호법의 경우 모든 업계에 적용되는 보편성을 띄고 있으며, 생명

    윤리 및 안전에 관한 법률의 경우 의료계를 위한 규제

    반면 이러한 의료 데이터의 암호화나 익명화 등 기술적 보호 조치에 대한

    구체적 가이드라인이 없어 실무자에게 혼란을 초래하므로 실무 차원의 규제

    대응 지침을 마련하고 시스템을 설계할 필요가 있음

    신속하고 정확한 연구 데이터 활용에 대한 요구 발생

    기존에는 연구를 위해 원하는 데이터를 받아보려면 평균 일주일에서 한두 달이

    소요되었으나 개선을 통해 즉각적으로 검색결과를 받아볼 수 있으며 쉬운 활용이

    가능하도록 변경

    국내