bloter 넥스트 저널리즘 스쿨 강의자료

91
https://goo.gl/Ri2qSK

Upload: neuroassociates

Post on 21-Apr-2017

1.543 views

Category:

Data & Analytics


5 download

TRANSCRIPT

Page 1: Bloter 넥스트 저널리즘 스쿨 강의자료

https://goo.gl/Ri2qSK

Page 2: Bloter 넥스트 저널리즘 스쿨 강의자료

“Be a journalist first. Don’t use the computer to shut out the world”

-Philip Meyer-

Page 3: Bloter 넥스트 저널리즘 스쿨 강의자료

저널리즘 정신으로 질문하고 송곳같은 기획 물론 중요 데이터저널리즘 관점에서 조금 더 현실적으로 보자 데이터? 예전처럼 기자에게 잘 정리해서 주지 않는다 어머어마한 스프레드시트의 데이터 속에서 인사이트 찾아야 함

Page 4: Bloter 넥스트 저널리즘 스쿨 강의자료

• Intro to D3 • Intro to JavaScript • Intro to the DOM and jQuery • Building Maps with Leaflet • Github • OpenRefine • Data wrangling with Python • Regular expressions • Getting started with SQL • What's the Story with Algorithms?

NICAR2016 expected sessions

https://goo.gl/6MhJkn

Page 5: Bloter 넥스트 저널리즘 스쿨 강의자료

오늘 함께 배울 R은 대략 이렇습니다

Page 6: Bloter 넥스트 저널리즘 스쿨 강의자료

2015 한국온리인저널리즘 어워드 데이터저널리즘 부분 최우수상

Page 7: Bloter 넥스트 저널리즘 스쿨 강의자료

한국언론진흥재단 빅데이터 저널리즘 프로젝트 회의

Page 8: Bloter 넥스트 저널리즘 스쿨 강의자료

실제 정제한 데이터 예시

1. 노벨상 공식사이트에서 스크래핑 2. 이름, 국가, 년도 그리고 value 3. 국가명에서 수작업 정제

1. 옛 국가명 -> 현재 국가명 2. 인코딩 (UTF-8)

4. Mapping visualization

http://goo.gl/YowHzA

데이터 저널리즘 멋지게 보이나요?

Page 9: Bloter 넥스트 저널리즘 스쿨 강의자료

실제 정제한 데이터 예시 1. 해양사고 데이터 수집 2. 타입과 위치, 사고 이유 등을 활용하기 위해 정제 진행

1. 정확한 주소는 정확한 위경도값을 반환 3. 결국 사용하지 못함 4. 잘못된 위경도 값 (국내 공공데이터의 품질 문제)

데이터 저널리즘 멋지게 보이나요?

Page 10: Bloter 넥스트 저널리즘 스쿨 강의자료

실제 정제한 데이터 예시 1. 해양사고 데이터 수집 2. 타입과 위치, 사고 이유 등을 활용하기 위해 정제 진행

1. 정확한 주소는 정확한 위경도값을 반환 2. 정제 후에 활용하지 못해 허탈한 경우

3. 결국 사용하지 못함 4. 잘못된 위경도 값 (국내 공공데이터의 품질 문제) 5. https://goo.gl/24niN7

데이터 저널리즘 멋지게 보이나요?

Page 11: Bloter 넥스트 저널리즘 스쿨 강의자료

실제 정제한 데이터 예시 1. 정확한 데이터를 위해 데이터셋 제작 2. ggmap package를 활용하여 위경도값 전체 변환 3. Daum API 활용 4. html, css, javascript로 디자인 5. 맛집지도 탄생 6. 좋은 재료로 멋진 음식을 만듬

http://goo.gl/XMqJU7

데이터 저널리즘 멋지게 보이나요?

Page 12: Bloter 넥스트 저널리즘 스쿨 강의자료

데이터저널리스트를 위한 교육 필요

• 커뮤니케이션 전공의 커리큘럼 변화 필요

• 커뮤니케이션을 매개하는 채널의 다변화 ➝ 다양한 채널에

대한 기술적인 이해가 필요 (예: 채널의 기술적 특성, 정보

의 기본구조, 서비스의 구성요소 등)

• 데이터를 다루고 처리할 수 있는 능력 필요

• 해외: 컴퓨테이셔널 저널리즘(Computational

Journalism), 데이터 저널리즘(Data Journalism) 등의 교

육 커리큘럼 개발 중

Page 13: Bloter 넥스트 저널리즘 스쿨 강의자료

해외 사례

Page 14: Bloter 넥스트 저널리즘 스쿨 강의자료

컴퓨테이셔널 저널리즘 커리큘럼

• 현재 미국과 유럽에서 활발하게 연구와 교육이 진행

• 관련 학과에서 저널리즘 커리큘럼으로 채택

• Data-Driven Journalism ➝ Data Journalism

• New York Times, The Guardian 등의 언론사에서 데이터 저널

리즘 전담 팀 만들어 활동 ➝ 데이터 저널리스트 전문 인력 수요

증가

• Columbia Journalism School 과 Stanford Communication

School ➝ 데이터 리터러시를 높이고 데이터를 쉽게 수집, 분석,

시각화할 수 있는 능력을 갖춘 인재 양성 프로그램 제공

Page 15: Bloter 넥스트 저널리즘 스쿨 강의자료

2013년 언론 방송 매체학 관련 학과 취업률

학과전공 구분 재적생(명) 졸업생(명) 취업자(명) 취업률(%)

언론 방송 전문대학 3,147 1,047 354 37

언론 방송 매체학 대학 15,261 3,295 1,504 47

자료 : 한국교육개발원 교육통계 DB (2013년 6월)

Page 16: Bloter 넥스트 저널리즘 스쿨 강의자료

Columbia University Journalism School

• The LEDE Program

• An Introduction to Data Practices

• 데이터 저널리즘과 센서 저널리즘과 같은 data-driven 커리큘럼

제공

• 섬머스쿨: 프로그래밍과 같은 기본적인 컴퓨터 교육 실시

• 학기 중: 데이터 구조, 분석, 비주얼라이제이션 등의 수업 제공

➝ 데이터 저널리즘에 필요한 기술과 방법론 교육

Page 17: Bloter 넥스트 저널리즘 스쿨 강의자료

Stanford Communication School

• Journalism Program

• 스탠포드 커뮤니케이션 스쿨은 최근 저널리즘 프로그램을 통해 ‘데

이터 기반 저널리즘’ 커리큘럼 제공

• 전통적인 저널리스트를 양성하는 것이 아니라, 데이터, 멀티미디

어와 컴퓨테이션에 기반한 새로운 시대의 저널리스트의 양성을

교육의 목표로 삼고 있음

Page 18: Bloter 넥스트 저널리즘 스쿨 강의자료

꿈꾸는 데이터 저널리스트 (예정)

• Data Journalism Program (비영리교육)

• 데이터저널리스트를 꿈꾸는 대학생 대상

• 데이터를 수집, 정제, 분석, 가공하는 과정에 대한 교육

• 데이터저널리즘 뿐만 아니라 간접적 활용 기술 교육

• 기술 교육 뿐만 아니라 프로젝트 수행 (팀프로젝트)

Page 19: Bloter 넥스트 저널리즘 스쿨 강의자료

R for data journalism

• 데이터 분석, 정제, 시각화가 아닌 좋은 데이터를 먼저 찾자

• 툴에 너무 직찹하지 말자. 한가지만 특화시키자

Page 20: Bloter 넥스트 저널리즘 스쿨 강의자료

WHAT IS R ?

Page 21: Bloter 넥스트 저널리즘 스쿨 강의자료
Page 22: Bloter 넥스트 저널리즘 스쿨 강의자료

what is r

• 오픈소스 • SPSS와 같은 유료 프로그램의 훌륭한 대안 • 통계처리 및 그래픽 작업을 위한 컴퓨터 언어 환경 • 특히 통계와 시각화에 강점을 가짐 • 초보자도 충분히 활용 가능 • 패키지를 통한 다양한 기능 확장 • 데이터저널리즘에 유용한 언어

| R이란?

Page 23: Bloter 넥스트 저널리즘 스쿨 강의자료

데이터저널리즘에서 R을 배워야 하는 7가지 이유

1. R에서 모든 데이터저널리즘을 수행 2. R은 무료이자 오픈소스란 매력 요소를 가짐 3. 쉽게 배울 수 있으며 준비 과정이 간편하다 4. 특히 dplyr, ggplot2, ggmap이란 강력한 패키지 5. R은 툴이 아니기 때문에 당신이 원하는 곳까지 데려다 줌 6. 모든 정제과정을 투명하게 공유할 수 있음 (스크립트) 7. 커뮤니티가 많이 형성되어 있음 (R-bloggers)

Page 24: Bloter 넥스트 저널리즘 스쿨 강의자료

what is r

R spreadsheet

Data manipulation Data calculation

any data type xls, xlsx, csv

faster heavy software

support larger dataset limited dataset

Many packages X

Free license

Page 25: Bloter 넥스트 저널리즘 스쿨 강의자료

WHAT IS RSTUDIO ?

Page 26: Bloter 넥스트 저널리즘 스쿨 강의자료

what is r

• R을 활용하기 유용한 통합 개발 환경(IDE) • 5분이면 설치 및 세팅 완료

Page 27: Bloter 넥스트 저널리즘 스쿨 강의자료

what is r

https://www.rstudio.com 메인페이지 Download Studio 클릭

Page 28: Bloter 넥스트 저널리즘 스쿨 강의자료

R을 활용한 사례

Page 29: Bloter 넥스트 저널리즘 스쿨 강의자료

Data journalism Media

Page 30: Bloter 넥스트 저널리즘 스쿨 강의자료

Amanda Cox (NYT)

Page 31: Bloter 넥스트 저널리즘 스쿨 강의자료

“The best journalism is probably not mad libs. Generic solution are pretty rarely awesome.”

-Amanda Cox-

Page 32: Bloter 넥스트 저널리즘 스쿨 강의자료

Step1 : Sketch

Page 33: Bloter 넥스트 저널리즘 스쿨 강의자료

Step2 : Analyzing Pattern with R

Page 34: Bloter 넥스트 저널리즘 스쿨 강의자료

Step3 : Making Storytelling

Page 35: Bloter 넥스트 저널리즘 스쿨 강의자료

Step4 : Data Visualization

Page 37: Bloter 넥스트 저널리즘 스쿨 강의자료

SRF Data (Swiss)

Page 38: Bloter 넥스트 저널리즘 스쿨 강의자료
Page 39: Bloter 넥스트 저널리즘 스쿨 강의자료

At SRF Data – the data journalism unit of Swiss public broadcast, the place where I work – almost all of our larger

projects in 2015 used R in some form or another. On election day, for example, we published countless fast infographics and charts on Twitter that found great acclaim. With R, we were able to prepare the charts in advance and just had to fetch new results from our SRF-wide API as soon as they

were available. Even tweeting the charts directly from within R would have been possible (we’ll do that during the next

elections in 2019).

Page 40: Bloter 넥스트 저널리즘 스쿨 강의자료
Page 41: Bloter 넥스트 저널리즘 스쿨 강의자료

http://jplusplus.se/covering-election-night-with-r/

Page 42: Bloter 넥스트 저널리즘 스쿨 강의자료
Page 43: Bloter 넥스트 저널리즘 스쿨 강의자료

FiveThirtyEight

http://goo.gl/fshT5i

Page 44: Bloter 넥스트 저널리즘 스쿨 강의자료

http://fivethirtyeight.com/datalab/is-baseball-moving-beyond-old-guys-in-the-dugout/

Page 45: Bloter 넥스트 저널리즘 스쿨 강의자료
Page 46: Bloter 넥스트 저널리즘 스쿨 강의자료

간단한 패키지 실습 사례

Page 47: Bloter 넥스트 저널리즘 스쿨 강의자료

COMPUTATIONAL INFORMATION DESIGN

1.Acq

uire

2.Parse 3. Filter

4. mine

Comp

uter S

cience

Mathematics, Statistics & Data Mining

7. Interact

InfoVis & HCI

Interaction Design

6. refine

5. R

epres

ent

Graphic Design

Page 48: Bloter 넥스트 저널리즘 스쿨 강의자료

데이터정제 REFINEMENT

데이터수집 CRAWLING

데이터분석 ANALYSIS

데이터시각화 VISUALIZATION

Page 49: Bloter 넥스트 저널리즘 스쿨 강의자료

데이터수집 CRAWLING

R - rvest packageSTEP 1 • Hadley Wickham 제작

• 파이프 (%>%) 기능 사용 가능 • Table, List 형태의 웹데이터 스크래핑 • Google importHTML 기능과 동일 • 직접 웹에서 데이터를 스크래핑 하는 것을 배워보고 실습 예정

Google Spreadsheet• 가벼운 테이블과 리스트는 구글스프레드 시트에서 스크래핑 가능 • R을 실행시킬 필요 없이 바로 구글 스프레드에서 엑셀로 import • csv, excel 등 다양한 포맷으로 export

Page 50: Bloter 넥스트 저널리즘 스쿨 강의자료

데이터수집 CRAWLING

서울시 공공데이터 API 활용STEP 2

• 서울시 열린데이터 광장 API 활용 방법 설명 • API 데이터를 획득하는 방법과 명세 보는 방법 교육 • 실제로 API를 활용하여 공공데이터 가져오는 방법 교육 및 실습 • 팀프로젝트에서 활용하여 열린데이터광장 활용사례 등록 추천

Twitter 소설 데이터 • 트위터 소셜 데이터 크롤링 방법 교육 • 특정 키워드, 기간을 설정하여 관심있는 주제로 크롤링 실습 • R과 Twitter를 함께 활용

Page 51: Bloter 넥스트 저널리즘 스쿨 강의자료

R - dplyr packageSTEP 3

• Hadley Wickham 제작 • Data Wrangling에 특화된 패키지로 데이터 정제에 용이 • select, groupby 등 다양한 매소드를 활용하여 쉽고 빠르게 데이터 정제

• 해외에서는 데이터 정제에 활발히 활용

Google Refine• 구글에서 제작한 오픈소스 데이터 정제 툴 • 웬만한 데이터는 R에서 데이터 정제 하는 것보다 훨씬 효율적 • 정규표현식을 활용한 데이터 정제 가능

데이터정제 REFINEMENT

Page 52: Bloter 넥스트 저널리즘 스쿨 강의자료

STEP 4

데이터분석 ANALYSIS

Social Network

k-means & Clustering

Correlation & Regression Analysis

Page 53: Bloter 넥스트 저널리즘 스쿨 강의자료

D3.jsSTEP 5

• Mike Bostock이 라이브러리 제작 • JavaScript 기반의 라이브러리로 전세계적으로 많이 시각화로 활용하고 있는 시각화 라이브러리

• Bar, Pie, Line Chart와 같이 차트별 라이브러리 교육 진행 예정 • Cartography (Mapping) 로 서울시 지도 시각화

Infogr.am• 간단하고 빠르게 시각화 할 수 있는 Infogr.am • div 공유 링크를 통해 확장성 큼 • 데이터와 다양한 멀티미디어의 결합을 통한 스토리텔링 데이터 콘텐츠 제작

데이터시각화 VISUALIZATION

Page 54: Bloter 넥스트 저널리즘 스쿨 강의자료

STEP 5

데이터시각화 VISUALIZATION

Data Visualization

• 뉴욕타임즈 데이터 저널리즘 ‘The Upshot’의 2014-2015년 포트폴리오

• DAVID LEONHARDT 중심의 데이터 시각화(저널리즘)로 특화

http://www.nytimes.com/interactive/2015/04/22/upshot/happy-birthday-upshot.html?rref=upshot

Page 55: Bloter 넥스트 저널리즘 스쿨 강의자료

ggplot2

STEP 5 • R에서 시각화가 가능한 ggplot2 교육 • 정제, 분석된 데이터를 활용해 실습

ggmap• 위경도 값을 활용하여 맵핑 시각화 • 샘플 데이터와 실제 데이터를 수집하여 맵핑해보기

데이터시각화 VISUALIZATION

Page 56: Bloter 넥스트 저널리즘 스쿨 강의자료

R script는 GitHub에서 다운로드 하실 수 있습니다https://github.com/sangjaebae/next_journalism

Page 57: Bloter 넥스트 저널리즘 스쿨 강의자료

Data Scraping | rvesthttps://goo.gl/jNNRVl

Page 58: Bloter 넥스트 저널리즘 스쿨 강의자료

Google Spreadsheet로 간단한 수집 가능

=importXML 함수를 활용한 NewYorkTimes 메인화면 기사 헤드를 긁어옴

=IMPORTXML("http://www.nytimes.com", "//h2[@class='story-heading']")

규칙성 있는 데이터스크래핑은 사실상 정제할 것이 거의 없음

Page 59: Bloter 넥스트 저널리즘 스쿨 강의자료

Data Wrangling | dplyrhttps://goo.gl/jNNRVl

Page 60: Bloter 넥스트 저널리즘 스쿨 강의자료

Data visualization | ggplot2https://goo.gl/oAHieW

Page 61: Bloter 넥스트 저널리즘 스쿨 강의자료

R은 왜곡된 데이터시각화 XKBS사례

Page 62: Bloter 넥스트 저널리즘 스쿨 강의자료

• 데이터를 악용하는 사례, 2014 KBS 6월 지방선거 • 데이터 시각화에 왜곡 • 시각화를 데이터에 기반하지 않은 차트 제작으로 많은 비판을 받음

Page 63: Bloter 넥스트 저널리즘 스쿨 강의자료
Page 64: Bloter 넥스트 저널리즘 스쿨 강의자료

Data visualization | ggmaphttps://goo.gl/O1kEJ0

Page 65: Bloter 넥스트 저널리즘 스쿨 강의자료

Twitter Data | twitteRhttps://goo.gl/jmy6MC

Page 66: Bloter 넥스트 저널리즘 스쿨 강의자료

데이터를 직접 수집, 정제, 분석 후 시각화까지 프로그래밍 하는데이터 저널리스트, 데이터 디자이너들은 해외에서 증가하고 있는 추세.

계속 증가하는해외 데이터 디자이너, 저널리스트

amanda cox(NYT) scott murray(prof of USF)

Page 67: Bloter 넥스트 저널리즘 스쿨 강의자료

“데이터저널리즘 좋은건 안다…. 누가?” “좋은 데이터저널리스트 추천해주세요. 근데 기자로는 채용이 힘들…” “데이터저널리즘? 그거 저널리즘이라기 보단 기술아닌가요?”

국내 현실은….

Page 68: Bloter 넥스트 저널리즘 스쿨 강의자료

하지만 천천히.. 국내에서도데이터저널리즘에 대한 관심 증가

SBS, KBS, YTN, 뉴스타파, JTBC, 한국경제신문 등많은 언론에서 데이터 관련 채용 문의 (추천식 채용)

Page 69: Bloter 넥스트 저널리즘 스쿨 강의자료

이젠 외국의 이야기가 아닌 우리들의 이야기 그리고 직접 실천하는 사람들의 이야기

Page 70: Bloter 넥스트 저널리즘 스쿨 강의자료
Page 71: Bloter 넥스트 저널리즘 스쿨 강의자료
Page 72: Bloter 넥스트 저널리즘 스쿨 강의자료
Page 73: Bloter 넥스트 저널리즘 스쿨 강의자료
Page 74: Bloter 넥스트 저널리즘 스쿨 강의자료
Page 75: Bloter 넥스트 저널리즘 스쿨 강의자료

한국에선 서서히 시작됐던 데이터 시각화. 그러나 관심있는 사람의 모임만 있을 뿐 열악한 환경

꿈꾸는 데이터 디자이너를 발판으로 성장한 이들 새로운 커뮤니티와 흐름의 탄생

• 데이터리터러시는 데이터 시대에 기자가 가져야할 필수 능력 • R은 데이터저널리즘을 수행하는데 있어서 큰 역할 • Data Driven Article 중요

Page 76: Bloter 넥스트 저널리즘 스쿨 강의자료

• 배우고자 하는 분들끼리 스터디 (학교에서 가르쳐주지 않는 것들) • 배우고자 한다면 기술은 결국 정복되는 것 • 기술이 바탕이 됐다면, 멋진 기획을 해보자

datalism.org

Page 77: Bloter 넥스트 저널리즘 스쿨 강의자료

2년 넘게 데이터저널리즘을 공부

전 늦게 공부를 시작했지만 여러분들은 일찍할 수 있다

나누고 싶었고 그래서 스터디 했고 꿈데디 했다

데이터저널리즘 넘어야할 벽들이 많다

함께 했으면 좋겠다

Page 78: Bloter 넥스트 저널리즘 스쿨 강의자료

“Be a good journalist with data”

Page 79: Bloter 넥스트 저널리즘 스쿨 강의자료

R references

Page 80: Bloter 넥스트 저널리즘 스쿨 강의자료

WEBSITE

Page 81: Bloter 넥스트 저널리즘 스쿨 강의자료

https://www.datacamp.com/

Page 82: Bloter 넥스트 저널리즘 스쿨 강의자료

http://lumiamitie.github.io/

Page 83: Bloter 넥스트 저널리즘 스쿨 강의자료

http://rddj.info/

Page 85: Bloter 넥스트 저널리즘 스쿨 강의자료

http://spreadsheetjournalism.com/

Page 86: Bloter 넥스트 저널리즘 스쿨 강의자료

http://www.r-bloggers.com/

Page 87: Bloter 넥스트 저널리즘 스쿨 강의자료

BOOK

Page 88: Bloter 넥스트 저널리즘 스쿨 강의자료

BOOK ABOUT DDJ

2014 - 2015 데이터 저널리즘 관련 도서

1. 데이터 저널리즘 / 알렌산더 벤자민 하워드 2. 데이터 분석과 저널리즘 / 함형건 3. 데이터 저널리즘 / 임종섭 4. THE DATA JOURNALISM HANDBOOK 5. 데이터 저널리즘 / 조너선 그레이

• 2014년부터 데이터 저널리즘 관련 책들이 나오기 시작 • 함형건 앵커의 데이터 분석과 저널리즘을 제외하고는 이론적 방향성만 제시하는 수준에 그침 • 언론정보 학생들이 데이터 저널리즘에 관심은 많지만 하는 방법을 몰라서 못하는 경우가 많음

Page 89: Bloter 넥스트 저널리즘 스쿨 강의자료

Articles

Page 90: Bloter 넥스트 저널리즘 스쿨 강의자료

지금은 저널리즘 대변환기 <상> 지역신문의 생존 전략-美 텍사스트리뷴 성공 비결 http://www.kookje.co.kr/news2011/asp/newsbody.asp?code=0300&key=20150504.22018191105

저널리즘의 또 다른 희망 '데이터 분석’ http://www.zdnet.co.kr/column/column_view.asp?artice_id=20150308182227&type=det&re=

왜 ‘데이터 저널리즘’인가? http://news.kbs.co.kr/news/NewsView.do?SEARCH_NEWS_CODE=3028270&ref=A

“포털 야구 중계, 로봇 저널리즘이 대체 가능해“ http://www.bloter.net/archives/227030

“빅데이터로 저널리즘 위기 극복 가능하다” http://www.newshankuk.com/news/content.asp?fs=1&ss=3&news_idx=201503202235491103

데이터 저널리즘, 생각을 바꿔라 http://www.mt.co.kr/view/mtview.php?type=1&no=2014061914280578959&outlink=1

“데이터 시각화는 더 나은 소통을 위한 방법” http://www.jobnjoy.com/portal/jobnews/plan_explan_view.jsp?nidx=74864&depth1=1&depth2=1&depth3=1

저널리즘 새 대안으로 부상한 데이터저널리즘 http://www.yonhapnews.co.kr/bulletin/2015/03/13/0200000000AKR20150313133800005.HTML?input=1195m

ABOUT ARTICLES

Page 91: Bloter 넥스트 저널리즘 스쿨 강의자료

Yeowoon Bae

전공

활용

경력

신문방송학

유럽데이터저널리즘 강의Infogr.am Korean Ambassador중앙일보 데이터 저널리즘 강의중앙SUNDAY 컨설턴트한국경제신문 데이터저널리즘 프로젝트 Director블로터 넥스트저널리즘 & 데이터과학 오딧세이 컨퍼런스꿈꾸는 데이터 디자이너 디렉터뉴스빅데이터 보도물 제작 연구사업 Director

D3.jsOpenrefineAdobe Muse/ Edge Animate/ IllustratorRCartoDB, Google Map, MAPBOX

[email protected]메일