인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

54
contents < 데데데데데데 데데데데 > 데데데 데데 7데 네네네네네 네네네 네네 : 네네 네네네 네네 네네네네 2015. 05. 22. 데데 - 데데데데데데데데 데데데데데데 데데데데 데데데데데데 데데데 [email protected] 데데데데데데 데데데 [email protected] 데데데데데데 데데데 [email protected] 데 데 데 데 데데데 [email protected]

Upload: han-woo-park

Post on 15-Apr-2017

804 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

contents< 데이터분석과 저널리즘 > 함형건 지음

7 장 네트워크로 세상을 읽다 : 사회 관계망 분석 입문하기

2015. 05. 22. 인간 - 컴퓨터상호작용과 인포그래픽스 수업자료

언론정보학과 김은혜 [email protected]언론정보학과 박효찬 [email protected]언론정보학과 박하늘 [email protected]경 영 학 과 김성우 [email protected]

Page 2: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

네트워크로 세상을 읽다 : 사회 관계망 분석 입문하기

INDEX

7.1 사회관계망 분석자료의 구성7.2 컴퓨터 프로그래밍으로 사회관계망 분석자료 준비하기7.3 행렬 데이터 변환하기7.4 NodeXL 로 북한 권력 분석하기7.5 NodeXL 로 트위터 시각화 하기7.6 NodeXL 로 Facebook 시각화 하기

Page 3: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

들어가기에 앞서

‘6 단계이론’이 의미하는 것은 다수의 사람들과 긴밀히 연결된 소수의 사람들이 존재하며 , 나머지 사람들은 이 소수의 특별한 사람들을 통해 세상과 연결된다는 사실이다 .

- 말콤 글래드웰 , 「티핑 포인트」 중에서

Page 4: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

The Six Degrees of Kevin Bacon : 케빈 베이컨의 6 단계

▶ 할리우드의 모든 배우들이 케빈 베이컨과 6 단계 안에서 모두 연결된다 .

▶ 한국사회는 3.6 단계 , 즉 3.6 명만 거치면 모두 아는 사이라는 분석 결과도 있다 .

▶ 지구촌 시대 , SNS 시대에는 국내를 벗어나서 단 몇 단계로 연결 가능하다 .

Page 5: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

사회 관계망의 기본 개념

node 는 사람 간의 관계일 땐 사람 , 경우에 따라서는 기관 , 조직 혹은 성별과 소속 등의 속성을 나타낸다 .

Edge 는 이메일을 주고 받는 경우처럼 방향을 따져야 하는 경우와 , 단순 친분관계처럼 방향을 따지지 않아도 되는 무방향성이 있다 .

점 ,node 선 , edge, line

+

Page 6: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

7.1 사회 관계망 분석 자료의 구성

설문조사 자아중심 연결망 준 연결망조사대상범위 확대

설문조사는 특정집단의 구성원간 관계를 현장대면 조사로 직접파악 , 수집한 자료

자아중심 연결망은 전국민을 대상으로 속성 ( 소득 , 지역 등 )에 따라 관계를 조사할 때 , 표본집단을 정해 특정개인을 중심으로 한 네트워크 자료

준 연결망은 속성을 소집단으로 분류하여 소집단 내에 관계는 더 긴밀한 것으로 가정 , 인물 사이에 선을 그어 만든 네트워크 자료 .

★ 언론보도 활용★

Page 8: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

Edge List ( 엣지리스트 ) : 인물과 인물을 짝지어 목록으로 만든 것

7.2 컴퓨터 프로그래밍으로 사회관계망 분석 자료 준비하기

▲ 7 조 edgelist

- 100 명의 사회 관계망을 분석 한다고 가정 할 때 , 한 번씩 연결 짓는다면 만 개가 넘는 짝이 만들어진다 .- 따라서 , 개인이 수작업 전산처리가 불가능 하기에 컴퓨터 프로그래밍이 필수적이다 !

Page 9: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

Python 홈페이지 https://www.python.org/

7.2 컴퓨터 프로그래밍으로 사회관계망 분석 자료 준비하기: Python 설치

Page 10: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

- 1991 년 프로그래머인 ‘귀도 반 로섬 (Guido van Rossum)’ 이 발표한 고급 프로그래밍 언어

- 반복적인 작업을 순식간에 처리- 간결하고 , 직관적이고 , 강력하다 .

- 가독성이 우수하고 , 배우기 쉽다 .

7.2 컴퓨터 프로그래밍으로 사회관계망 분석 자료 준비하기: Python( 파이썬 ) 이란 ?

Page 11: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

1) IDLE (Python 3.4 GUI - 32 bit) 실행2) File-new file로 새 창을 꺼낸다3) edgelist_generator1 파일을 불러온다.4) Run-run module을 한다5) edgelist1.csv 파일이 만들어진다 .

이 스크립트의 의미는 for 구문 ( 조건 ) 을 사용하여 groups.csv 파일을 open 하고 ,edgelist1.csv 파일을 만든다는 말

7.2 컴퓨터 프로그래밍으로 사회관계망 분석 자료 준비하기: Python 실행 ‘ groups.csv 파일로 edgelist 만들기’

Page 12: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

7.2 컴퓨터 프로그래밍으로 사회관계망 분석 자료 준비하기: Python 실행 ‘ groups.csv 파일로 edgelist 만들기’

< edgelist_generator2>

<edgelist_generator1>

Intertools 활용 : for 구문을 대체

Page 13: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

1) A 열 클릭 - 데이터 - 필터 - ’ 필드값 없음’ 선택해제 2) B 열도 똑같이 ‘필드값 없음’ 선택해제3) 총 1019 행의 유효한 Edge( 관계 ) 만 남은 edgelist 가 만들어진다 .

7.2 컴퓨터 프로그래밍으로 사회관계망 분석 자료 준비하기: Python 실행 ‘노드엑셀로 시각화가 가능하도록 edgelist 정리’

Page 14: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

<one mode ma-trix>

7.3 행렬데이터 변환하기

Matrix ( 행렬 ) : 연결망 데이터의 더욱 일반적인 형태

<two mode ma-trix>

Numpy or Pan-

das)

★ 노드엑셀에서 시각화하기 위해 1- 모드 행렬로 변환 ★

Page 15: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

• 사회 관계망 전문 분석 도구• 엑셀에 연동해 추가로 설치하는 Add-in 프로그램• 장점 : 사용 방법이 간단 , 무료 소프트웨어• 트위터 등 소셜미디어 데이터를 수집해 분석하는 기능이 편리 ( 페이스북은 한계 )

7.4 NodeXL 로 북한 권력 분석하기: NodeXL 이란 ?

Page 16: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

• 노드엑셀 홈페이지( 클릭 ) 에서 다운 가능

• 첨부 파일에 NodeXLExcel-Template2014Setup.exe 파일 더블 클릭

7.4 NodeXL 로 북한 권력 분석하기: NodeXL 다운로드

Page 17: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

NodeXL 탭을 눌러야 메뉴가 보입니다 . 헤매지 마세요 !

7.4 NodeXL 로 북한 권력 분석하기: NodeXL 창

Page 18: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

• 김정은수행단 _edgelist 실행• 시작 - 모든 프로그램 - NodeXL Excel Template 클릭★ 주의사항- 노드엑셀에 엑셀 자료를 불러오기 위해서는 먼저 본 엑셀 파일을 연 다음 노드엑셀을 따로 실행시켜 불러와야 한다 .- 노드엑셀 탭 – Import – From Open Workbook 으로 김정은수행단 _edgelist 파일을 불러온다 .

7.4 NodeXL 로 북한 권력 분석하기: NodeXL 실습 시작

Page 19: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

• Edges : 데이터 입력 스프레드 시트 , 간단한 데이터 입력 가능 ( 데이터의 행이 많을 경우 미리 준비된 데이터를 불러옴 )• Vertices( 단 Vertex) : Node 와 동일한 표현 , 선으로 연결되는 네트워크의 각 점을 나타냄• Edge : 네트워크의 노드를 연결하는 직선 , 하나의 Edge 끝단에는 두 개씩의 노드가 위치함• Data Type : Undirected( 무방향성 ) Edge 에 방향성이 없다 .

7.4 NodeXL 로 북한 권력 분석하기: 각 탭 (tab) 설명

Page 20: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

• Overall graph metrics, Group metrics - 네트워크의 종합적인 통계치를 산출• Vertex degree( 연결 중앙성 )• Vertex betweenness and closeness

centralities( 사이 중앙성과 인접 중앙성 )• Vertex eigenvector centralities( 위세 중앙성 )• Vertex clustering coefficient

7.4 NodeXL 로 북한 권력 분석하기: Graph Metrics 설정

Page 21: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

• 해석 : 모두 62 명이 1,019개의 선으로 연결됐고 , 이 가운데 783 개는 중복된 연결선

• 각 계량지수들의 최대 , 최소 , 평균치와 분포를 살펴볼 수 있음• 사회 연결망의 중앙부에 오는 인물은 일반적 (예외가 존재 )으로 영향력이 큰 사람일 가능성이 높음

7.4 NodeXL 로 북한 권력 분석하기: Graph Metrics 실행 결과

Page 22: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

• Vertices 탭을 택하면 각 인물들의 중앙성 지수를 파악• 연결 중앙성 (Degree Centrality) : 결점 (vertex) 이 다른 점과 얼마나 많은 선으로 연결됐나를 합산• 인접 중앙성 (Closeness Centrality) : 다른 점들과의 거리가 얼마나 가까운지를 측정• 사이 중앙성 (Betweenness Centrality) : 다른 점에서 점으로 가는 유일한 통로 역할을 얼마나 하는지를 측정• 위세 중앙성 (Eigenvector Centrality) : 연결된 상대방의 중요성에 가중치를 주어 계산

7.4 NodeXL 로 북한 권력 분석하기: 각 중앙성 의미 설명

Page 23: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

• Autofill Columns- 노드나 선 등을 구체적으로 어떻게 표시할 지 결정하는 과정- 노드 , 선의 색상과 크기 , 모양을 중앙성 지수와 연동

7.4 NodeXL 로 북한 권력 분석하기: Autofill Columns 설정

Page 24: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

• Vertex Color

연결도의 상한 : 46(최룡해 노드에 연결된 선의 개수 )연결선이 적을수록 파란색 , 연결선이 많을수록 붉은색

기준 : Degree -> Vertex Color Options… 클릭

7.4 NodeXL 로 북한 권력 분석하기: Autofill Columns 설정

Page 25: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

• Vertex Size기준 : Betweenness Centrality-> Vertex Size Options… 클릭

사이 중앙성 수치 : 304.169(최룡해의 수치 )범위 : 10 에서 50 사이

7.4 NodeXL 로 북한 권력 분석하기: Autofill Columns 설정

Page 26: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

• Vertex LabelVertex Label – Vertex 선택Vertex Label Position기준 : Degree->Vertex Label Position Op-tions…

연결 중앙성이 20 이상일 때 , 즉 19 개를 초과하는 선과 연결된 주요 노드만 이름이 표시되도록 설정위치는 노드 상단 (Top Center)

Autofill 클릭 !

7.4 NodeXL 로 북한 권력 분석하기: Autofill Columns 설정

Page 27: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

7.4 NodeXL 로 북한 권력 분석하기: 북한 김정은 수행단의 네트워크

Page 28: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

• Fruchterman-Reingold• 장점 : 노드끼리 뭉치는 현상이나 연결선이 복잡하게 겹치는 것을 방지해 연결망이 좋게 만들어 줌• 단점 : 때로는 식별이 용이하도록 특정 노드 사이의 거리를 임의로 벌려놓기도 하기 때문에 노드 사이 거리로 인물과 인물 간의 친밀도를 단정하기 어려움

7.4 NodeXL 로 북한 권력 분석하기: 시각화 알고리즘

Page 29: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

• Lay Out Again- 연결망의 모습이 조금씩 바뀌고 인물들의 위치도 달라짐 일반적으로 네트워크의 주변부보다는 정중앙에 위치하는 인물의 영향력이 크고 조직 내 생존력이 우수한 사람이라는 해석을 내릴 수 있음

7.4 NodeXL 로 북한 권력 분석하기: Layout 설정

Page 30: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

• Layout Options- 노드 사이의 반발력(repulsive force) 을 기본값인 3 에서 10 으로 더 올려줌 이 설정치를 높게 잡을수록 각 노드 사이의 평균거리는 멀어지고 상대적으로 느슨하지만 식별하기 편한 연결망이 그려짐

7.4 NodeXL 로 북한 권력 분석하기: Layout 설정

Page 31: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

• Edges – 불투명도 (Opacity) 를 0%

=투명도 100% = 연결선이 사라짐

7.4 NodeXL 로 북한 권력 분석하기: Graph Option 메뉴

Page 32: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

• Other 탭 -Labels-Font글자의 꼴과 크기를 조정설정값을 변경한 뒤에는 Re-fresh Graph 를 클릭해야 변경한 내용이 연결망에 반영

7.4 NodeXL 로 북한 권력 분석하기: Graph Option 메뉴

Page 33: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

• 네트워크 중앙의 최룡해 노드를 클릭• 더블 클릭하면 좀 더 세부적인 네트워크를 볼 수 있음• 거의 모든 권력은 최룡해로 통함• 이를 해제하려면 마우스 우클릭 deselect all->vertices and edges를 선택

7.4 NodeXL 로 북한 권력 분석하기: 특정 노드에 다른 노드들 연결도 확인

Page 34: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

• Dynamic Filters - 일정 범위에 들어오는 노드와 연결선만 걸러주는 기능• Degree 를 기준으로 연결선이 20 개 이상은 노드만 시각화• Layout Again 을 몇 번 클릭하면 연결망 모습이 바뀜

7.4 NodeXL 로 북한 권력 분석하기: Dynamic Filters

Page 35: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

7.4 NodeXL 로 북한 권력 분석하기: Degree 20 이상 핵심 인물만 필터링 결과

Page 36: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

• NodeXL(노드엑셀 ) 이란 ? ☞SNS 상의 정보네트워크 시각화 및 분석에 유리한 도구• 주요한 사건과 쟁점이 발생시 SNS 에서 급속히 퍼지는 정보의 내용은 사회적으로 중요한 시사점• 연령과 계층을 뛰어넘어 이용자의 범위와 영향력이 전방위로 확대되고 있는 트위터 네트워크의 세계를 NodeXL 로 살펴보자

7.5 NodeXL 로 트위터 분석하기

Page 37: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

1) 노드엑셀 실행2) 좌측 상단 ‘ Import’ 클릭3) ‘From Twitter Search

Network’ 클릭

7.5 NodeXL 로 트위터 분석하기: import

Page 38: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

1) ‘예비군총기사고’ 입력

2) 트위터 아이디가 있다면 자동으로 2 번이 체크됩니다 . 3) OK

7.5 NodeXL 로 트위터 분석하기 : 검색어 입력

Page 39: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

1) Graph Metrics 클릭2) 팝업에서 Selcet All 클릭3) 완료

7.5 NodeXL 로 트위터 분석하기: Graph Metrics

Page 40: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

7.5 NodeXL 로 트위터 분석하기: 결과값 확인

Page 41: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

1. ‘autofill columns’ 를 클릭2. ‘Vertex color’ 는 ‘ in-degree’ 로 설정3. ‘Vertex Shape’ 는 ‘ Be-

tweenness Centrality’ 로 설정 4. ‘Vertex Size’ 는 ‘ Between-

ness Centrality’ 로 설정5. 완료 후 대기

7.5 NodeXL 로 트위터 분석하기: Autofill Columns

Page 42: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

7.5 NodeXL 로 트위터 분석하기: Autofill Columns

Page 43: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

1.알고리즘을 Harel-Koren Fast Multscale 로 선택

2.Lay Out Again 을 클릭하여 연결 망 모양 조정

← 실행중인 모습7.5 NodeXL 로 트위터 분석하기 :

: Autofill Columns

Page 44: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

7.5 NodeXL 로 트위터 분석하기 : 결과값 확인

Page 45: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

7.5 NodeXL 로 트위터 분석하기 : 시각화 하기

Page 46: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

7.6 NodeXl 을 이용하여 Facebook 팬 페이지 분석하기

Import -> import Options 를 클릭 Browse 클릭 후 SocialNetImporter_v.2.0 를클릭 후 확인 을 누른다 .* NoxdXL 닫기 후 다시 킨다 .

Page 47: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

Import -> From Facebook Fan page Network (v 2.0) 클릭 Login 후 Name/ID 부분에 “ SBS뉴스” 입력

*Login 시 페이스북 계정이 있어야한다 .

7.6 NodeXl 을 이용하여 Facebook 팬 페이지 분석하기: facebook 팬 페이지 데이터 모으기

Page 48: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

Vertices -> User Relationship -> commentCreate an edge between -> User who commented in the same post 설정 후 Download

Download 된 데이터 확인

7.6 NodeXl 을 이용하여 Facebook 팬 페이지 분석하기: facebook 팬 페이지 데이터 모으기

Page 49: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

7.6 NodeXl 을 이용하여 Facebook 팬 페이지 분석하기: facebook 팬 페이지 데이터 분석하기

Graph metrics -> Overall graph metric Vertex Degrees Betweenness Centrality and Closeness Centrality Eigenvector Centrality

선택 후 확인

Page 50: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

Vertice : 237 명 Total Edges : 11396 개Unique Edges : 7869 개Density : 0.33중심성값 등을 확인 할 수 있다 .

7.6 NodeXl 을 이용하여 Facebook 팬 페이지 분석하기: facebook 팬 페이지 분석값 확인

Page 51: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

7.6 NodeXl 을 이용하여 Facebook 팬 페이지 분석하기: facebook 팬 페이지 시각화 하기

1. Autofil Columns 를 클릭을 클릭한다 .2. Vertex Color -> degree 3. Vertex Size -> degree 값으로 입력4. Autofill 클릭

1. Graph options 를 클릭한다 .2. Shape -> Sphere 로 설정

Page 52: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

7.6 NodeXl 을 이용하여 Facebook 팬 페이지 분석하기: facebook 팬 페이지 시각화 하기

1. Edges 를 클릭한다2. Opacity -> 10% 로 설정 1. Dymamic Filters 를 클릭 후

2. Comments Created 를 2~5 로 설정

Page 53: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

7.6 NodeXl 을 이용하여 Facebook 팬 페이지 분석하기: facebook 팬 페이지 시각화 결과

Page 54: 인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다

감사합니다