분석 현장에서 요구되는 데이터과학자의 역량과 자질

51
분석 현장에서 요구되는 데이터과학자의 역량과 자질 Sun Young Kim, Business Consultant/CMO @GoldenPlanet

Upload: sun-young-kim

Post on 16-Jan-2017

2.240 views

Category:

Data & Analytics


0 download

TRANSCRIPT

분석 현장에서 요구되는데이터과학자의 역량과 자질

Sun Young Kim, Business Consultant/CMO @GoldenPlanet

들어가기 전에

안타깝게도데이터 과학자로 불리는다양한 직무들의 모든 역량과자질을 다 꿰고 설명드릴 수는없을 듯 합니다.

다만, 데이터 과학의 한 영역에서현업을 뛰고 있는 만큼

업 자체의 특성으로 인해요구되는 적성과 자질은 있을 것이라보고 이 공통 적성과 자질.

즉, 품성에 초점을 맞추어이야기하겠습니다

빅데이터의 등장… 데이터 홍수의 시대… 그리고…

데이터 과학자가 되려면??

https://www.quora.com/What-classes-should-I-take-if-I-want-to-become-a-data-scientist

데이터과학자는 컴퓨터 과학과 통계학의 Convergence 영역을 커버해야 한다고합니다

Modeling - Statistics, Machine LearningExperiments - StatisticsCoding - Computer ScienceQuantitative problem solving -Math, Physics, Applied MathDealing with large datasets -Experimental physics, Astronomy, Bioinformatics, etc.Using data to understand people -Social science (with strong mathematical / computational bent) including Economics, Psychology, Political Science, etc.

데이터 과학자가 되려면??

데이터 과학자가 되려면??

1. 기초 지식

Linear Algebra, OLAP, ETL, NoSQL, JSON & XML 등

2. 통계학

3. 프로그래밍

4. 기계학습

5. 텍스트마이닝, 자연어처리

6. 시각화

7. Big Data

(하둡, 맵리듀스 등)

8. Data Ingestion

(Data fusion, Data discovery 등)

9. Data Munging

10. (Sampling, normalization 등)

11. Toolbox

(엑셀, R, Python 등)

데이터 과학자가 되려면??

https://www.quora.com/What-is-a-data-scientist-3

데이터 과학 툴박스 + 웹/앱 개발 기술

데이터 과학자가 되려면??

https://www.quora.com/What-is-a-data-scientist-3

How to Find the Data Scientists You Need

관련 전공

관련 툴

관련 경력

데이터 과학자가 되려면??

https://www.quora.com/What-is-a-data-scientist-3

How to Find the Data Scientists You Need

관련 네트워킹

관련 어워드,

자격증

데이터 과학자가 되려면??

https://www.quora.com/What-is-a-data-scientist-3

https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/

코딩 역량

데이터 스토리텔링

커뮤니케이션 역량

비즈니스에 대한 이해

학습 능력

수요와 공급의 불일치

수요와 공급의 불일치

기시감

Data Science: A Mash-up of Disciplines

한 사람이 이 모든영역을 커버하는 것은사실 상 불가능

보통 1~2분야에

전문가이면서, 또

다른 2~3분야에서 능

숙한 경우가 대부분

5~6분야에 능숙한 경

우도 드문 편

Vertical vs. Horizontal Data Scientists

Data Cleansing, Mining 등의 작업을 직접 코드를

짜서 수행할 수 있는 소프트웨어 기술 능력 보유

Vertical data scientists

좁은 분야, 깊은 지식 보유

복잡한 알고리즘에 익숙한 컴퓨터 과학자이거나,

통계 전문가, 소스트웨어 엔지니어일 수 있음

데이터를 해석하여 비즈니스 인사이트를 도출하고

커뮤니케이션 하는 데 더 집중

Horizontal data scientists

비즈니스 도메인에 대한 전문성과다른 분야를 융합한 지식 보유

통계학이나 소프트웨어 엔지니어링에 대한전문성은 모자랄 수 있음

비정형 스트리밍 데이터와 같은최근 데이터 기술에 오히려 밝을 수 있음

자신에게 맞는 유형은? 수직 vs 수평?

데이터 과학자의 주요 역할

1. Define : 가설을 수립하고 질문을 던지고 문제를 규명

2. Measure : 필요 데이터를 정의하여 데이터 수집, 저장, 탐색

3. Analyze : 필요한 분석 유형 파악 및 다양한 알고리즘/툴을 적용하여 분석 수행

4. Communicate : 스토리, 시각화, 대시보드 등 다양한 형태로도출된 인사이트를 비전문가에게 커뮤니케이션

5. Innovate : 2, 3, 4 단계 수행을자동화, 보다 상위 레벨의 분석, 실행이 가능한 프로세스 정립및 비즈니스 인사이트 도출

출처 : https://www.quora.com/What-is-data-science

데이터 과학자에게 필요한 자질 8가지

왕성한 호기심

잘 지치지 않는 인내심

비즈니스 마인드

하이브리드 형 두뇌

실험정신

끊임없는 학습능력

커뮤니케이션 능력

변화관리 능력

첫 번째 자질. 호기심

“끊임없이 분석 결과에 대해 꼬리에 꼬리를 무는 질문을 던져야 하며“

분석가가 인사이트를 도출하지 못하는 이유는 툴이 아니라 Drill Down 분석을 할 수 있는 올바른 질문을 못 던지기 때문인 경우가 더 많습니다

첫 번째 자질. 호기심

툴들은 다양한 Drill Down 기능을 제공합니다.

그런데 그 툴의 기능을 얼마나 속속들이 활용하고 계신지요?

Drill Down = 나눠 보기의 힘

[SAP Drill Down 리포트 도움말 중]

[Risk 분석 예시 중]

두 번째 자질. 인내심

만족스러운 인사이트 도출이 되지 않아 비즈니스 질문을 잘게 나누어 드립다 팠습니다.

어떤 질문이 유의미한 답을 얻을 수 있을지 업에대한 지식도 짧아 데이터를 까 보고, 또 까 봐야 했습니다. 멀미날 정도로..

국가 별 패턴 차이는 없는가?

최근 올린 콘텐츠와 1년전 올린 콘텐츠.. 즉, 콘텐츠의 나이와 구독자 vs 조회수 간의 관계는 달라지지 않겠는가?

콘텐츠 수명을 주단위, 월단위로 나누어 보았을 때 전체 조회수의 80%가 발생하는 시점은?

콘텐츠 유형 vs 콘텐츠 수명 (주단위, 월단위) + 구독자 조회 비중 간의 관계는?

유입 경로 별 구독자 조회 비중 추이는 어떻게 변하는가?

타사 유튜브 채널과 자사 유튜브 채널에 동시 업로드한 콘텐츠는 어떤 채널에서 조회수가 더 높은가? 콘텐츠유형 vs 콘텐츠 작성자에 따른 패턴 차이는 없는가?

유튜브 데이터 어디까지 파봤니?? (대한항공 광고 버전)

덕분에 Youtube Analytics API 에 대해서는 빠삭해졌죠

두 번째 자질. 인내심

때로 분석 대상 주제는 보기에 단순해 보이지만 (좌측),

얽히고 섥혀 관련 데이터를 다 꺼내 보아야 (우측)

쥐꼬리만한 인사이트가 보이기 시작할 때가 있습니다

VS

이런 문제인줄 알았는데이런 문제였던 거지요

두 번째 자질. 인내심

때로 분석 대상 주제는 보기에 단순해 보이지만 (좌측),

얽히고 섥혀 관련 데이터를 다 꺼내 보아야 (우측)

쥐꼬리만한 인사이트가 보이기 시작할 때가 있습니다

VS

苦盡甘來지난한 탐색 과정을 거쳐야

달디단 쥐꼬리만한 인사이트를 얻을 수 있기에

그 과정을 즐기지 못하면,

이 업은 참으로 고통스러울 수 있습니다

이런 문제인줄 알았는데이런 문제였던 거지요

세 번째 자질. 비즈니스 마인드

업이 다르면, 고객 세분화 및 타겟팅 전략도.. 비즈니스 목표 및 KPI도

다르고, 따라서, 분석 설계, 데이터 수집 방식도 달라질 수 있습니다.

Retail Sites

Financial Services

B2B

Media Sites

세 번째 자질. 비즈니스 마인드

심지어 같은 업이더라도, 서로 다른 팀이면 시각이 달라집니다.

IT관점

세 번째 자질. 비즈니스 마인드

심지어 같은 업이더라도, 서로 다른 팀이면 시각이 달라집니다.

IT관점

영업 관점

세 번째 자질. 비즈니스 마인드

업을 모르면, 도출된 인사이트 자체도 실행과는 동떨어지기 쉽상입니다

“자사의 트위터 채널에서의 게시글 량이 경쟁사 대비 XX% 이상적은 편이기 때문에 추후 트위터 활동을 강화해야 합니다"

바른 결론이 되는 경우 잘못된 결론이 되는 경우

타겟고객이 트위터의 적극적 이용자들이면

트위터에서 커뮤니케이션했을 때 효과적인

주제일 경우

경쟁사 사례를 보았을 때 트위터 커뮤니케

이션에 대한 고객의 반응이 긍정적일 경우

기타 등등

타겟고객이 더 이상 트위터를 적극적으로

사용하지 않는 경우

타겟 고객이 트위터를 주로 사용하더라도

해당 주제에 대해서는 대화가 없는 경우

경쟁사들의 유사 주제 커뮤니케이션이

크게 효과가 없는 경우

기타 등등

세 번째 자질. 비즈니스 마인드

업을 모르면, 도출된 인사이트 자체도 실행과는 동떨어지기 쉽상입니다

“자사의 트위터 채널에서의 게시글 량이 경쟁사 대비 XX% 이상적은 편이기 때문에 추후 트위터 활동을 강화해야 합니다"

바른 결론이 되는 경우 잘못된 결론이 되는 경우

타겟고객이 트위터의 적극적 이용자들이면

트위터에서 커뮤니케이션했을 때 효과적인

주제일 경우

경쟁사 사례를 보았을 때 트위터 커뮤니케

이션에 대한 고객의 반응이 긍정적일 경우

기타 등등

타겟고객이 더 이상 트위터를 적극적으로

사용하지 않는 경우

타겟 고객이 트위터를 주로 사용하더라도

해당 주제에 대해서는 대화가 없는 경우

경쟁사들의 유사 주제 커뮤니케이션이

크게 효과가 없는 경우

기타 등등

易地思之사업하는 사람의 마인드를 이해하지 못하면

가지고 있지 못하면 그들의 실행을 이끌 수 있는

비즈니스 인사이트를 제공할 수 없음

네 번째 자질. 하이브리드 형 (Convergence)

좌뇌적 기질과 우뇌적 기질을 동시에 가지고 있어야 함

좌뇌 = 이공계수리·통계개발언어툴…

우뇌 = 인문계심리학비즈니스외국어…

Logic Emotion

네 번째 자질. 하이브리드 형 (Convergence)

데이터 + 윤리

자동차가 나왔을 때 신호등이 없었다면…..기술 + 인문학

데이터라는 기술에 인문학이 입혀지지 않으면, 빅브라더가 탄생할 수도 있지 않을까요??

다섯 번째 자질. 실험정신

같은 결과와 증상. 다른 원인이 있을 수 있는 분석 환경

가설 수립, 검증을 통해 명확한 원인 파악이 가능해 짐

미드 닥터하우스

환자의 다양한 증세에 대해가설을 수립하고,

이 약을 투입했다가 이상한발작 증세를 보이면, 또

다른 약을 투입해

여러 가능성을 제거해 최종진단을 하는 것을 볼 수 있음

다섯 번째 자질. 실험정신

분석 환경에서도 대부분의 분석은 고객 행동의 결과를 분석하는 사후 분석

진정한 Why 를 알기 위해서는 가설 수립, 실험을 통한 검증이 필요함

같은 증상

발열, 콧물, 재채기

다른 원인

알레르기 감기

다양한 시약 투입

정확한 원인 파악

같은 증상

체류 시간 증가

다른 원인

읽을만한 콘텐츠 어려운 UI

A/B Test, MVT

정확한 원인 파악

의료진단 고객 행동 분석

VS

끊임 없는 학습 능력

최근 2년 내 새롭게 등장한 Must-Learn 항목들

1) 구글 태그 매니저

Scroll Depth Tracking Vimeo / Youtube Tracking

Form Abandonment Tracking Ecommerce Tracking

끊임 없는 학습 능력

최근 2년 내 새롭게 등장한 Must-Learn 항목들

2) Mobile App Tracking

Mobile App SDK 다양한 관련 지식

iOS / Android

딥링크 트래킹

앱 설치 트래킹 (Play Store, iTunes)

모바일 앱 테스트 툴

+

교차 기기 분석

끊임 없는 학습 능력

최근 2년 내 새롭게 등장한 Must-Learn 항목들

3) Measurement Protocol http://www.youtube.com/watch?v=nCeJITfEhSk

끊임 없는 학습 능력

최근 2년 내 새롭게 등장한 Must-Learn 항목들

4) Google Big Query

끊임 없는 학습 능력

최근 2년 내 새롭게 등장한 Must-Learn 항목들

5) 마케팅 트렌드

리타겟팅광고 연계 분석

인바운드마케팅

커뮤니케이션 능력

논리적으로 사고를 정리할 수 있는 기술

1) MECE – 어떤 사항을 중복 없이, 그럼에도 누락 없는 부분의 집합체로서파악하는 것

Mutually Exclusive and Collectively Exhaustive(서로 중복 없이) (누락 없이)

커뮤니케이션 능력

논리적으로 사고를 정리할 수 있는 기술

2) So What? / Why so? – 이야기의 비약을 막는 기술

A,B,C 라는 정보를 So What? 한 것이 X라면 X에 대해 Why So? 라고 질문을 던졌을 때

A,B,C 가 다시 그 답변이 되는 관계를 만드는 것이 이야기의 비약을 없애는 비결

So What? Why So?(그래서 어쩌라고) (왜 그런데?)

커뮤니케이션 능력

커뮤니케이션의 목적은 설득

숫자를 감정적으로 느낄 수 있도록 Data Storytelling

커뮤니케이션 능력

커뮤니케이션의 목적은 설득

숫자를 감정적으로 느낄 수 있도록 Data Storytelling

커뮤니케이션 능력

Visualization

모바일앱 월간 대시보드

▣ 대상기간 : 2015.10.19 ~ 2015.10.25 (10월 4주) 1

주요 지표

앱 다운로드 수 신규 방문자 수 제품 상세 보기 횟수

앱 다운로드 수 사용자수 화면조회수

iOS 다운로드 수 신규사용자수 세션당화면

안드로이드 다운로드 수 신규 방문자 비율 제품 상세 보기 횟수

Buy Now 화면 보기 대비 GoToShop 클릭 비율 상세 보기 Top 10 제품 Buy now 이벤트 기준 Top 10 제품

1 1

2 2

3 3

4 4

UN43J5900AF

UE55JS9000TXXU

UN43J5900AF

UN43J5900AF

11

7

4

0

71

62

59

58

지지난주 지난주 지지난주 지난주변화율

6.0%

-29.5%

15.7%

13.7%

67

88

51

51

UE32H4000AWXXU

UE55JS9000TXXU

UE60H6240AKXXU

UA50HU7000RXXP

6

6

6

5

▼-38% ▼-20% ▼-22% ▲138% ▼-39%

방문자 수

지지난주 지난주 변화율지지난주 지난주 변화율 지지난주 지난주 변화율

총 product view 수 Buy now Go To Store 공유 횟수

116 3,129 71 31 94

6,393 6,469 1.2%5,407 5,532 2.3% 186 116 -37.6%

25.4 32 26.9%41 43 4.9% 166 86 -48.2%

3,901 3,129 -19.8%5,366 5,489 2.3% 89.2% 74.1% -16.9%

변화율

-45.5%

-

50.0%

-14.3%

모바일앱 월간 대시보드

-

1,000

2,000

3,000

4,000

5,000

6,000

7,000

8,000

9,000

9월 3주 9월 4주 9월 5주 10월 2주 10월 3주 10월 4주 10월 5주

0

50

100

150

200

250

300

350

400

9월 3주 9월 4주 9월 5주 10월 2주 10월 3주 10월 4주 10월 5주

-

500

1,000

1,500

2,000

2,500

3,000

3,500

4,000

4,500

9월 3주 9월 4주 9월 5주 10월 2주 10월 3주 10월 4주

2000%

2500%

3000%

3500%

4000%

4500%

5000%

60

80

100

120

140

커뮤니케이션 능력

조직의 계층 구조, 이해 관계에 맞는 커뮤니케이션

변화관리 능력

최근 2년 내 새롭게 등장한 Must-Learn 항목들

웹사이트 방문자 유입에 쓰는 비용이 만원이라면방문자들을 구매 고객으로 전환하는데 쓰는 비용은단돈 천원!

Digital Governance : Balanced Approach

45

Business Goal 과 일치된 빅데이터 분석 및마케팅 최적화 전략의 전사적 공유 및 합의

임원들로부터의 적극적인 Sponsorship / Buy in

분석 및 마케팅 최적화솔루션들의 통합, 자동화

분석과 최적화 팀에 대한효율적인 투자와 구성

분석>최적화>실행의선순환 업무 절차

성공적 디지털 마케팅 수행을 위해서는 전략적 지표를 설정하여이를 지속적으로 관리, 개선하는 Digital Governance 에 대한 균형 된 접근이 필요

Digital Governance : Framework

46

Data Science All Wrong

The point is that there's a buzz about data science these days, and that buzz is creating pressure on a lot of businesses. If you're not doing data science, you're gonna lose out to the competition. Someone's going to come along with some new product called the “BlahBlahBlahBigDataGraphThing” and destroy your business.

The truth is most people are going about data science all wrong. They're starting with buying the tools and hiring the consultants. They're spending all their money before they even know what they want, because a purchase order seems to pass for actual progress in many companies these days.

- Foreman, John W. (2013-10-31).

Key Takeaway

이제 와서 코딩을 배우고, 통계를 배우고, 툴을 배우면 데이터 과학자로 기업에 채용 될 수 있을까요?

신입 지망생들이 새로 배우는 동안 기업은 경력자를 이미 채용하고 있습니다

Now What? 어떻게 할까요?

현재 계신 업의 현장에서 분석 업무의 비중을 늘리고, 하루에 30분, 1시간이라도 데이터를들여다 보고 내 업무를 어떻게 개선할지 고민하는 시간을 가지는 것이 더 중요합니다. 데이터는 분석 업으로 들어오지 않더라도 많으니까요

코딩, 통계, 툴의이라는 산을 넘지 않을 수는 없기 때문에 주경야독 모드로 하나 하나씩 배워 나가십시오. 이러한 과정을 통해 나의 학습 능력 자체가 높아져 새로운 기술, 툴이 나와도 어깨 한 번 으쓱하고 손쉽게배우게 될 것입니다 (배우는 습관)

학습 계획을 세우기 전에 수평적 분석가 역할을 할 것인지. 수직적 분석가 역할을 할 것인지 선택을 하세요. 그래야, 어떤 역량을 좀 더 집중적으로 채워 나갈 지 계획을 세울 수 있습니다.

그리고, 배울 때는 혼자 배우지 말고, 커뮤니티, 강좌를 찾아 가 네트워킹하세요. 이직의 기회는 아주 끈끈한 인맥보다는 약한 인맥 연결 고리를 통해 기회가 발생합니다.

새로운 스펙을 하나 씩 추가하게 될 때 마다 링크드인 프로필을 업데이트하세요. 당신을 필요로 하는기업이 당신을 발견할 수 있도록

optimization

data

contents