toward a debating machine: a news sentence network analysis algorithm based on similarity and...

25
토토토토토 토토토 : 토토토토 토토토토토 토토토 토토 토토 토토토 토토 토토토토 토토 한한한한한한한한 한한한한한한 1

Upload: daemin-park

Post on 16-Apr-2017

351 views

Category:

Data & Analytics


3 download

TRANSCRIPT

Page 1: Toward a debating machine: A news sentence network analysis algorithm based on similarity and cooccurrence

1

토론기계를 향하여: 유사도와 공동출현에 기초한

뉴스 문장 연결망 분석 알고리즘 제안

박 대 민

한국언론진흥재단

선임연구위원

Page 2: Toward a debating machine: A news sentence network analysis algorithm based on similarity and cooccurrence

2

뉴스의미연결망 분석에 대한 기존 연구뉴스문장연결망 분석모형

분석사례 : 2011 년 ‘분단’ 기사

목차토론기계를 향하여

: 유사도와 공동출현에 기초한 뉴스 문장 연결망 분석 알고리즘 제안

Page 3: Toward a debating machine: A news sentence network analysis algorithm based on similarity and cooccurrence

3

News Semantic Network

Page 4: Toward a debating machine: A news sentence network analysis algorithm based on similarity and cooccurrence

4

Tag Cloud

Page 5: Toward a debating machine: A news sentence network analysis algorithm based on similarity and cooccurrence

5

News Source Network: Four Major Rivers Project

한겨레동아

Page 6: Toward a debating machine: A news sentence network analysis algorithm based on similarity and cooccurrence

6

News Comment Topic Ego Network: Youth Unemployment

Page 7: Toward a debating machine: A news sentence network analysis algorithm based on similarity and cooccurrence

7

News Source-Commnent Topic Network: Thoughtless Com-ments

Page 8: Toward a debating machine: A news sentence network analysis algorithm based on similarity and cooccurrence

8

News Organization-Comment Topic Network: Youth

Page 9: Toward a debating machine: A news sentence network analysis algorithm based on similarity and cooccurrence

9

뉴스의미연결망 분석에 대한 기존 연구

뉴스 문장연결망 분석 모형

분석사례 : 2011 년 ‘분단’ 기사

목차토론기계를 향하여

: 유사도와 공동출현에 기초한 뉴스 문장 연결망 분석 알고리즘 제안

Page 10: Toward a debating machine: A news sentence network analysis algorithm based on similarity and cooccurrence

10

뉴스 문장 연결망의 미션

의미연결망에서 두 결점 간 맨하튼 거리의미거리 0: 동일한 문장 , 의미거리 1: 기사 공동출현 인용문 또는 유사 인용문의미거리 2 이상 : 간접 연결된 인용문

‘ 첫째 , 둘째 , 셋째 ,…’주요경로 ( 파당 간의 겹침 최소화 , 대주제 중심 ), 지름 ( 가장 긴 주요경로 )

확장경로 ( 특정 파당의 문장을 추가 , 세부 내용추가 )

주요문장

의미거리

의미경로- 주요경로

의미경로- 확장경로

소위 ‘야마’뉴스 문장 연결망에서 연결정도중앙성이 가장 높은 문장

Page 11: Toward a debating machine: A news sentence network analysis algorithm based on similarity and cooccurrence

11

담론분석에 활용

쟁점 중심전체연결망 , 또는 각 구성집단에서 연결정도중앙성이 높은 상위 문장을 검토

관련성 중심가장 중요한 문장에서 의미거리가 문장연결망의 일정 범위 이내인 모든 문장을 검토특정 문장과 의미거리 2 이내는 배열에 크게 구애 받지 않고 관련될 것으로 추정

주요경로 분석 : 다양성 중심 , 최단경로 상의 문장 분석확장경로 분석 : 주요경로 상의 한 문장에서 시작하는 파당 상의 문장을 살펴봄

주요 문장 추이 , 주요 문장의 자아연결망 추이 , 주요 경로 추이 , 확장 경로 검토

주요문장 분석

자아연결망 분석

주요경로 분석및확장경로 분석

시계열분석

Page 12: Toward a debating machine: A news sentence network analysis algorithm based on similarity and cooccurrence

12

기사공동출현행렬

QA: 기사공동출현행렬

q1

q2 q3

a1 q4

q5

a2

Page 13: Toward a debating machine: A news sentence network analysis algorithm based on similarity and cooccurrence

13

유사도 행렬

q1

q2 q3

a1

q4

q5

a2QS: 유사도 행렬

QS ′ : 절삭된 유사도 행렬

Page 14: Toward a debating machine: A news sentence network analysis algorithm based on similarity and cooccurrence

14

문장연결망의 행렬

QS ′ : 절삭된 유사도 행렬

QA+QS′=Q

Q: 문장연결망QA: 기사공동출현행렬

+ =

Page 15: Toward a debating machine: A news sentence network analysis algorithm based on similarity and cooccurrence

15

뉴스의미연결망 분석에 대한 기존 연구

뉴스 문장연결망 분석 모형

분석사례 : 2011 년 ‘분단’ 기사

목차토론기계를 향하여

: 유사도와 공동출현에 기초한 뉴스 문장 연결망 분석 알고리즘 제안

Page 16: Toward a debating machine: A news sentence network analysis algorithm based on similarity and cooccurrence

16

분석방법

검색어 : ‘ 분단’분석매체 : 경향신문 , 국민일보 , 문화일보 , 서울신문 , 세계일보 , 한겨레 , 한국일보 , 동아일보분석기간 : 20011 년 1 월 1 일 -2011 년 12 월 31 일

수집데이터 : 기사 수 405 건 , 인용문 949 개 ( 중복 포함 )분석데이터 : 기사 ID, 인용문 ID, 날짜 , 매체명

데이터 수집 : 뉴스소스 베타형태소분석 ( 명사 추출 ): KKMA유사도 계산 : NETMINER분포 : EXCEL연결망분석 : NETMINER, UCINET시각화 : NETDRAW

Page 17: Toward a debating machine: A news sentence network analysis algorithm based on similarity and cooccurrence

17

NewsSource Beta

- 정보원 ( 성 + 이름 , 소속 , 직함 ), 문장 , 기사를 식별하여 사실 중심으로 중복을 제거해 요약- 정보원 , 문장 , 기사 검색 결과를 의미연결망분석을 통해 산출된 가중치에 따라 제시- 질의에 대한 검색 결과를 정보원과 인용문 중심으로 주제별로 대조- 연구자를 위해 시계열 뉴스정보원 연결망의 시각화와 정형화 자료 다운로드 제공

Page 18: Toward a debating machine: A news sentence network analysis algorithm based on similarity and cooccurrence

18

기사공동출현 기준 문장연결망

Page 19: Toward a debating machine: A news sentence network analysis algorithm based on similarity and cooccurrence

19

유사도 분포

임의 추출 100 개 인용문의 유사도 분포- 대부분 0.2 이하- 949 개 인용문 중에선 유사도 0 인 문장쌍이 14.8%- 유사도 1( 완전 일치 ) 하는 소수의 문장쌍도 존재

Page 20: Toward a debating machine: A news sentence network analysis algorithm based on similarity and cooccurrence

20

유사도 기준 문장연결망

Page 21: Toward a debating machine: A news sentence network analysis algorithm based on similarity and cooccurrence

21

분단 관련 뉴스문장연결망

Page 22: Toward a debating machine: A news sentence network analysis algorithm based on similarity and cooccurrence

22

주 구성집단

Page 23: Toward a debating machine: A news sentence network analysis algorithm based on similarity and cooccurrence

23

주요 문장

Page 24: Toward a debating machine: A news sentence network analysis algorithm based on similarity and cooccurrence

24

한계 및 제언

기대효과

-뉴스는 정치 , 경제 , 사회 , 문화 , 국제 등 모든 중요한 사회 주제를 정제된 방식으로 기술함

- 문장 수준의 연결 정보를 담은 말뭉치를 대규모로 구축하여 추후 학습집합으로 활용

- 토론 가능한 강한 인공지능 개발에 기여 기대 ( 담론분석 기능 )

01 02 추가연구

-정보원 정보에 기초한 규칙 정보 추가

-정확한 분포 파악 ( 연결정도계수 값 계산 )

- 유사도 절삭값 최적화

- 최종 결과물에서 중복 제거

- 다른 유형의 문장에 적용 ( 규칙이 없으므로 가능 )

- 개발된 NLP 엔진과 연계

- 추가로 새로운 검색엔진 , CMS 와 연계

Page 25: Toward a debating machine: A news sentence network analysis algorithm based on similarity and cooccurrence

25

Q & A