실리콘 밸리 데이터...
TRANSCRIPT
February 2015
권재명
실리콘밸리데이터사이언티스트의하루
권재명
● 통계학자
o "빅데이터" + 머신러닝 + 데이터사이언스
● 경력
o Berkeley Transportation Systems (2000~2007): 대용량교통데이터
o Wichorus (2009): 와이파이데이터모델링
o AOL Platforms (2009-): 온라인광고데이터o Percolata* (2015): 리테일애널리틱데이터
o Molocoads.com* (2015): 모빌 DSP
(* : 자문 / 투자)
2
실리콘밸리 "데이터" 기업들
서비스 (검색,
추천, 뉴스, ...)
사용자
클릭, 구매, "
좋아요", ...
알고리즘 / 서비스개선
사용데이터
서비스이용
3
서비스 - 사용자 - 데이터선순환(positive feedback)
데이터보다성공적인서비스가선행
광고알고리즘
온라인광고
사용자 (3rd
party)
광고클릭 / 구매
광고알고리즘개선
클릭 / 구매데이터
온라인광고노출
4
빅데이터 / 데이터사이언스대표분야
하루에몇조개의관측치생성
수백-수천개의변량을이용한클릭/구매예측모형
0.001초내로 "클릭확률예측"
5http://www.lumapartners.com/lumascapes/display-ad-tech-lumascape/
"빅데이터"
웹서버로그. 검색엔진문서자료/인덱스. 온라인광고로그. 소셜네트웍로그. 교통자료. 과학자료. 의료자료. 센서자료. 사물인터넷...
컴한대로저장/처리불가 → 분산
기존소프트웨어로처리불가 → 하둡+
수집 / 저장 / 처리 / 분석 / 예측
하둡과아마존웹서비스 (AWS) 로코모디티화완료
6
서비스-사용자-데이터선순환
"간단한" 통계분석애널리틱리포팅
"복잡한" 통계머신러닝코어알고리즘개발
8
"데이터인력"
데이터인프라
온디매드클라우드컴퓨팅
오픈소스빅데이터소프트웨어 (Hadoop)
데이터엔지니어
데이터사이언티스트
머신러닝사이언티스트
* 링크드인의 2014 구조조정
통계 / 머신러닝
코딩
적용영역지식
데이터사이언스
9
통계 / 머신러닝
코딩 적용영역지식
전통적인통계학자
10
통계 / 머신러닝
코딩
적용영역지식
"데이터엔지니어"
11
통계 / 머신러닝
코딩
적용영역지식
"데이터사이언티스트"
12
통계 / 머신러닝
코딩
적용영역지식
"머신러닝사이언티스트" ("통계학자")
13
통계 / 머신러닝
코딩
적용영역지식
네직업군의수요-공급*
14
머신러닝사이언티스트
데이터엔지니어
데이터사이언티스트
데이터엔지니어
전통통계학자
수요-공급불균형의이유?
"데이터사이언티스트"로입사한똑똑한이공계분야신입사원의경우:
● 적용분야지식: 1-3개월+
● 코딩: 6-12개월+
● 통계의올바른적용: 1년+
● 고급모델링과알고리즘개발: 보통석/박사를뽑는다.
통계학 / 머신러닝이쉽지않다
15
16http://scikit-learn.org/
예측프로덕션시스템
어려운통계
모델구축 (Build
model)
데이터사이언티스트(팀)의하루
자료추출(Acquire)
자료청소(Clean)
대화형분석(Interactive
Analysis)
시각화분석(Visual
Analysis)
탐색적자료분석 (EDA)
자료저장 / 관리(Store)
자료랭글링(Wrangle)
스토리텔링(Story-telling)
보고서쓰기(Reporting)
엔지니어들과의협업
문제정의모델디플로이(Deploy Model)
모델모니터(Monitor model)
비즈니스의필요랩장/선임(chief scientist)의리더쉽연구원들간의개방적인토론구글닥을통한동기부여(motivation)와요구사항 (requirements) 공유
문제정의
자료추출(Acquire)
Hadoop, RDBMS (SQL)
Python (Streaming), Hive ...
코딩능력이가장많이필요보통데이터사이언티스트들이자체적으로해냄종종데이터엔지니어들의도움Git 트랙킹시작
자료청소(Clean)
생각보다많은시간이걸림...
Unix + Python + R
스타일가이드(pylint, pep 8...)
Git 트랙킹
자료저장 / 관리(Store)
자료랭글링(Wrangle)
R (가끔 Python)
자료의문제가수시로발견됨Git 트랙킹결과는구글닥공유시각화분석
(Visual
Analysis)
탐색적자료분석 (EDA)
대화형분석(Interactive
Analysis)
R
통계고수의도움이필요한때베이지안모델계층모형 (Hierarchical
model)
어려운통계
스토리텔링(Story-telling)
고품질작문 (writing)
고품질시각화 (ggplot2)
구글닥팀내공유필수전사공유권고코드리뷰Git
보고서쓰기(Visual
Analysis)
프로덕션시스템
모델구축 (Build
model)
엔지니어들과의협업
모델디플로이(Deploy Model)
모델모니터(Monitor model)
Python (+R)
좀더엄격한코드리뷰
요구사항은 Python Pseudocode로
Git 집중활용 (fork/pull model)
리서치 + 프로덕션거리를좁히려노력
데이터사이언스툴채인
● Powerful text editor (Sublime)
● Python
● R / RStudio
● Unix / bash
● Git
● RDBMS (SQL)
● Google App / Slack / JIRA / ...: 개방된협업
데이터사이언스베스트프랙티스
26
1. 툴채인통일 (OSX/Unix, Sublime Editor, RStudio, ...)
2. 스타일가이드 (R, Python, Bash, Java)
3. 도큐먼트탬플릿
4. 적극적인문서 / 코드공유
5. 코드리뷰 / 피어코딩
6. 준-애자일워크플로우 (Semi-Agile process)
7. 재생가능연구 (reproducible research)
조금은심한개방 / 협업
28https://github.com/WhiteHouse/2016-budget-data https://www.atlassian.com/software/jira
https://www.atlassian.com/software/sourcetree/overviewhttps://www.atlassian.com/git/tutorials/comparing-workflows/gitflow-workflow
데이터 = 신호 + 잡음y = μ + 𝜀y = β x + 𝜀사실 = 진실 + 우연뉴스 = 역사 + 우연주식주가 = 가치 + 우연성공 = 실력 + 우연
통계적세계관: 신호와잡음
데이터 = 신호 + 잡음
오버피팅
오차한도 / 신뢰구간
샘플링에러 ~ 1/sqrt(n)
한계효용체감의법칙
탐색적자료분석 (EDA)
자료는항상오염되어있다
베이지언기법들 (데이터가부족한경우 / 초기화)
계층모형 (변량이많은경우)
데이터사이언스필수통계개념들
데이터사이언스의사내도입
데이터에기반한의사결정문화가선행되어야
"솔루션"은상대적으로덜중요
데이터사이언스전문인력 / 팀이필요
애널리틱과서비스를만드는팀은보통분리
통계내공이도움이된다
"데이터기업"은데이터사이언스인력/팀에충분한독립성부여
엔지니어팀과의긴밀한협업과소통이중요
신뢰받는테크리더쉽 + 베스트프랙티스
31
요약
1. 실리콘벨리데이터기업들
2. 온라인광고사업
3. 데이터사이언티스트, 데이터엔지니어, 머신러닝사이언티스트
4. 실리콘벨리데이터사이언티스트의하루
5. 데이터사이언스툴채인
6. 데이터사이언스베스트프랙티스
7. 데이터사이언스필수통계개념
8. 사내데이터사이언스도입
32
Q&A