데이터 탐사 그리고 se - jan 8 2014, mc lab, seoul, south korea

53
데이터 탐사 그리고 SE 김상희 [email protected]

Upload: sanghee-kim

Post on 24-Jan-2015

951 views

Category:

Education


0 download

DESCRIPTION

데이터 탐사와 SE에 관한 이야기를 다루는 세미나를 위해서 만든 자료입니다. 원본 자료는 구글 드라이브 링크에 있습니다. (구글드라이브 PDF 변환시에 약간의 변형이 있었습니다. 구글 드라이브에서 보실것을 권합니다.) http://goo.gl/KFP3Dp 아래와 같은 내용을 다루고 있습니다. Session 1 1. 데이터 탐사, 그리고 빅 데이터/스몰 데이터는 무엇인가? (Target, Amazon/Facebook 사례) 2. 데이터 처리 과정 (데이터 모으기, 데이터 가공, 데이터 분석, 데이터 시각화) 3. 데이터 처리 과정에 맞는 관련 툴 4. 케이스 스터디 A: 트위터에서 LG G2, Nexus S, Moto X 관련 트윗 모아서 처리해보기 5. 케이스 스터디 A에 대해 분석해보고 토론해보기 (데이터 분석에 도움) 6. 데이터 분석 툴 바꿔보기 사례: Splunk 로 데이터 탐사하고 IPython, Pandas 로 코딩하기 7. 중간회고: 지금까지 우리는 무엇을 배웠나요? (Session 1 마감) Session 2 8. 소프트웨어 엔지니어링(SE)을 위한 데이터 탐사 9. 케이스 스터디 B: Splunk를 이용한 안드로이드 프레임웍 소스 저장소 분석하기 10. 모델 확장해보기 11. SE 데이터 탐사시에 유의해야 할 점 12. SE 데이터 탐사의 확장 (개발, 교육, HR, 조직문화를 위한 SE 데이터 탐사) 13. 몇 가지 중요한 점 14. 논쟁거리 다루기: 커밋 횟수로 그 사람을 평가할 수 있는가? (Git 데이터 분석) 15. 최종회고: 정말로 우리는 무엇을 배웠나?

TRANSCRIPT

Page 1: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

데이터 탐사 그리고 SE김상희[email protected]

Page 2: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

Session 1

Page 3: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

과학 패러다임

Page 4: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

빅 데이터 / 스몰 데이터

Page 5: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

“네가 가진 데이터가 정말 빅 하다고 생각해?"

Page 6: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

데이터 처리의 흐름데이터 모으기(생성)

데이터 가공

데이터 분석

데이터 시각화

Page 7: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

데이터 처리와 관련 툴

각 툴에 대한 참고: http://goo.gl/ooYExB

google big query

apache lucene

manyeyes

d3

google chart API

matplotlib

pandas, numpy

open refine

data wrangler

tableau

NodeXL

splunk

데이터 모으기(생성)

데이터 가공

데이터 분석

데이터 시각화

Page 8: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

“트위터 데이터를 분석해보자."

Page 9: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

데이터 모으기(생성)

데이터 가공

데이터 분석

데이터 시각화

일단 한 번 해보기

Page 10: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

연장을 준비하자데이터 모으기(생성): Twitter API, Twython

데이터 가공: Python, Twython, IPython, Pandas

데이터 분석: Splunk, Python, IPython, Pandas

데이터 시각화: Splunk, matplotlib, Google Chart API

Page 11: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

Add a comment

By this query we see that the highest retweet on the nexus 5 is by google. Which shows that they have a strong voice when getting to their fans.

data: https://github.com/sangheestyle/bisonsampledatapresenation: http://goo.gl/MLFf96

스플렁크로 해보기Interesting query 1 of 3

Page 12: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

source="/Users/kimsanghee/Dev/datastore4bison/nexus_5_raw.csv.zip:./nexus_5_raw.csv"

By this query at launching time we see that the highest retweet by RT on the nexus 5 is by Sundar Pichai who is is a senior vice president at Google, where he oversees Android, Chrome and Google Apps. Which shows that he has a strong voice when getting to their fans.

트위터 데이터로 분석해보기Interesting query 2 of 3

data: https://github.com/sangheestyle/bisonsampledatapresenation: http://goo.gl/MLFf96

Page 13: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

Interesting query 3 of 3Top tweets show what organization is most influential during 19 days

2nd largest tweet is about promotional event for free nexus 5.

http://mobilesyrup.com/2013/11/02/win-a-google-nexus-5/

트위터 데이터로 분석해보기

data: https://github.com/sangheestyle/bisonsampledatapresenation: http://goo.gl/MLFf96

Page 14: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

“트위터 데이터로 분석해보기+ 툴과 생각 바꿔보기”

Page 15: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

Bison: Project OverviewObject: Analyzing tweets about mobile devicesSource & demo: https://github.com/sangheestyle/bisonHow Big: 789,051 tweetsTools: Python, Pandas, Numpy, Google ChartMember: Jacob, Sanghee

Page 16: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

What happen?http://goo.gl/L26mmP

Page 17: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

What happen once again?

Only two weeks!

http://goo.gl/1yaekZ

Page 18: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

What they use?http://goo.gl/OzYu0J

Page 19: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

When they do?http://goo.gl/Y28HrQ

Page 20: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

Where do they live?http://goo.gl/vyi1Gy

Page 21: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

“툴 변경은 단지 툴만 변경되는 것인가?”

Page 22: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

생각해보기

이거 어떻게 생각하냐? (마음에 드는건? 아닌건?)

정확성을 위해서 두 개의 그래프를 동시에 보여줘?

확장을 한다면 어떻게?

무슨 데이터를 더 제공한다면 너는 뭘 더 할 수 있지?

네가 만든 모델이 다른 곳에서 유효할까? (기간, 데이터 크기, 같은 카테고리의 다른 아이템, 다른 카테고리…)

Page 23: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

Session 1 마감+ 중간회고

Page 24: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

Session 2

Page 25: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

“40 percent of major decisions are based not on facts, but on the manager’s gut”

from Software Analytics = Sharing Information by Thomas Zimmermann http://goo.gl/WQ0BKv

Page 26: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

데이터 처리의 흐름데이터 모으기(생성)

데이터 가공

데이터 분석

데이터 시각화

Page 27: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

“Git 에서 나오는 데이터를 분석해보자."

Page 28: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

데이터 모으기(생성)

데이터 가공

데이터 분석

데이터 시각화

일단 한 번 해보기

Page 29: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

연장을 준비하자데이터 모으기(생성): Git

데이터 가공: Python, IPython, Pandas

데이터 분석: Splunk, Python, IPython, Pandas

데이터 시각화: Splunk, matplotlib, Google Chart API

Page 30: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

“미리 만들어 놓은 것으로 집단 감상을 해보자."

Page 31: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

“우리 집단의 특성을 시간순으로 알아보자."

Page 32: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea
Page 33: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea
Page 34: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

“누가누가 잘하나? 눈속임에 주의하면서!"

Page 35: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea
Page 36: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea
Page 37: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea
Page 38: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

“분쟁지역! UN은 어디에?"

Page 39: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea
Page 40: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea
Page 41: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea
Page 42: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

“다른것도 한 번 보자."

Page 43: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

https://github.com/twbs/bootstrap/graphs

Page 44: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

https://github.com/twbs/bootstrap/graphs

Page 45: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

“우리 이래도 되는거야?"

Page 46: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

생각해보기

미숙한 모델을 들이대지 말 것

상관관계

인센티브

Page 47: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

From SE lecture by Professor Ruth Dameron (University of Colorado, Boulder)

Page 48: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

개발: 어떤식으로 일을 하면 덜 고통스러울까?

교육: 우리는 어떠한 교육을 만들어내야 하는가?

HR: 어떤 사람들이 필요한가? 조직 구조는?

조직문화: 우리 조직의 특성은 어떠한가?

확장해보기

Page 49: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

어디서 어떻게 데이터를 수집 할 것인가?데이터는 집단을 충분히 반영하는가?데이터는 지속적으로 변경될 수 있다.

분석하는 방법에 따라서 정보는 달라질 수 있다.가정을 하고, 대화를 하고, 생각을 확장하자.집단 내 전문가들을 이용하자.

잘라내기보다 이상치를 조정해보자.의도적으로 툴을 바꿔보자.(그 외에는?)

중요한 점

Page 50: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

“(현 시스템 회고, 개선안 도출, 반영) X 지속적인 반복”

Page 51: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

“결론적으로 무엇을 하고 왜 할건데?”

Page 52: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

“커밋 개수로 개발자의 능력을 판단할 수 있을까?”

집단 토론

Page 53: 데이터 탐사 그리고 SE -  Jan 8 2014, mc lab, seoul, south korea

Session 2 마감+ 최종회고