news semantic network analysis of named entities

25
개체명 중심의 뉴스 의미연결망 분석 한국언론진흥재단 선임연구위원 1

Upload: daemin-park

Post on 16-Apr-2017

417 views

Category:

Data & Analytics


2 download

TRANSCRIPT

Page 1: News Semantic Network Analysis of Named Entities

개체명 중심의 뉴스 의미연결망 분석

박 대 민

한국언론진흥재단

선임연구위원

1

Page 2: News Semantic Network Analysis of Named Entities

기존 뉴스 의미연결망 분석의 한계

개체명 중심의 뉴스 의미연결망 분석

분석사례: <망언의 네트워크>

목차 개체명 중심의 뉴스 의미연결망 분석

2

부록: 분석프로그램 <뉴스소스 베타>

Page 3: News Semantic Network Analysis of Named Entities

단어 對 정보원

3

Page 4: News Semantic Network Analysis of Named Entities

형태소 對 주제

4

Page 5: News Semantic Network Analysis of Named Entities

기존 뉴스 SNA의 한계

분석단위 사회연결망분석 과용 자연어처리 성능 단어가 아닌 개체명을 분석단위로 삼아야 함 개체명은 다층적으로 유형화되어야 함

의미연결망에 맞는 해석이 부족 사이중앙성은 유의미한 해석 없음

수작업에 의한 자료 정제가 많음 컴퓨터 활용의 장점 못 살리고 분석자료 적음

01 02 03

5

Page 6: News Semantic Network Analysis of Named Entities

기존 뉴스 의미연결망 분석의 한계

개체명 중심의 뉴스 의미연결망 분석

분석사례: <망언의 네트워크>

목차

6

부록: 분석프로그램 <뉴스소스 베타>

개체명 중심의 뉴스 의미연결망 분석

Page 7: News Semantic Network Analysis of Named Entities

결점(node)

개체명: PLOT(인명, 장소, 기관명, 특수용어), 직함, 직업명, 상품명 등, 주제 결점이 너무 많으면 하위유목으로 분석, 너무 적으면 상위유목으로 종합

연결선(edge)

기사 공동출현에 의한 관련도(relevance) 연결 강도를 정의 완전연결망이 과도하게 나타나면 관련도를 보다 엄격하게 정의

절대적 연결정도 중앙성 (degree centrality)

CD(v)=deg(v), 공동인용된 정보원 /기관 수 또는 함께 거론된 주제 수, 논쟁성 결점 속성

결점

연결선

순위화

7

뉴스 의미연결망 정의

Page 8: News Semantic Network Analysis of Named Entities

named entity recognition coreference elimination

data cleansing

결점 속성 부여 강한 연결 표현 수작업 보정

Transpose Diagonal

Dichotomize Degree centrality

구조(scale free network) 해석

01

02

03

04

Crawling NLP, Data cleansing 뉴스 의미 연결망 분석 Visualization

8

수작업, Crawler, 계약 자료는 충분히 많아야 함

뉴스 의미연결망 분석절차

Page 9: News Semantic Network Analysis of Named Entities

뉴스 정보원 연결망 분석 모형

9

Page 10: News Semantic Network Analysis of Named Entities

뉴스 주제 연결망 분석 모형

10

Page 11: News Semantic Network Analysis of Named Entities

뉴스 정보원-기사 주제 연결망 모형

11

ST=SA×AQ×QT

Page 12: News Semantic Network Analysis of Named Entities

기존 뉴스 의미연결망 분석의 한계

개체명 중심의 뉴스 의미연결망 분석

분석사례: <망언의 네트워크>

목차

12

부록: 분석프로그램 <뉴스소스 베타>

개체명 중심의 뉴스 의미연결망 분석

Page 13: News Semantic Network Analysis of Named Entities

망언

“이치나 사리에 맞지 아니하고 망령되게 말함”(국립국어원)

“입에서 나오는 대로 아무렇게나 하는 말”(岩波 國語辭典 2판, 1978)

“근거가 없는 말”, “주책없고 근거가 없는 말”(민중서림 엣센스사전)

“일본인이 발설하는 왜곡된 역사인식”, “근대 한일관계사에 대한 일본인의 왜곡된 역사인식의 표출로

나타나는 문제 발언”(정재정, 1997, 393쪽)

Page 14: News Semantic Network Analysis of Named Entities

분석대상

검색어: ‘일본’ ‘망언’

분석매체: 동아일보, 한겨레, 경향신문, 한국일보, 문화일보, 국민일보, 서울신문, 세계일보

분석기간: 2005년 7월 1일-2015년 6월 30일

기사 수: 814건

분석유목: 인용문, 정보원 이름, 소속명, 소속 분류, 직함, 국적, 인용문 주제, 기사 주제, 망언 여부

수집 및 분석 프로그램: <뉴스소스 베타>, EXCEL, NETMINER, NETDRAW

자료 링크: https://goo.gl/03mYEI

Page 15: News Semantic Network Analysis of Named Entities

뉴스 정보원 연결망

15

Page 16: News Semantic Network Analysis of Named Entities

논쟁적 정보원

16

Page 17: News Semantic Network Analysis of Named Entities

뉴스 기사 주제 연결망

17

Page 18: News Semantic Network Analysis of Named Entities

뉴스 정보원-기사 주제 연결망

18

Page 19: News Semantic Network Analysis of Named Entities

한계 및 제언

자연어처리 개선 해석

인용문 분석 문장 수준 분석

인명 이외의 NER 성능 외국어의 한글표기 대용어 해소 감성분석, 평판분석

연결정도 중앙성 외의 지표에 대한 해석 연결망을 다양하게 재정의 연결망 간 관계 파악

인용문 분석을 통한 담론분석 분석 단위를 문장으로 분석 개체명 유형에 따른 문장의 다층적 유형화

01 02 03

04 05

19

개체명 유형화 인명은 소속, 장소는 우편번호체계, 수치는 단위를 활용해 다층적으로 유형화

Page 20: News Semantic Network Analysis of Named Entities

Q & A

20

Page 21: News Semantic Network Analysis of Named Entities

기존 뉴스 의미연결망 분석의 한계

개체명 중심의 뉴스 의미연결망 분석

분석사례: <망언의 네트워크>

목차

21

부록: 분석프로그램 <뉴스소스 베타>

개체명 중심의 뉴스 의미연결망 분석

Page 22: News Semantic Network Analysis of Named Entities

뉴스 소스 베타

22

Page 23: News Semantic Network Analysis of Named Entities

뉴스 소스 베타 아키텍처

23

Page 24: News Semantic Network Analysis of Named Entities

NER 성능

재현율, 87.4

50.9

75

정확도, 90.3 92.7 97.8

0

10

20

30

40

50

60

70

80

90

100

인명 기관 직함

24

Page 25: News Semantic Network Analysis of Named Entities

뉴스 소스 베타 다운로드

25