toward a debating machine: a news sentence network analysis algorithm based on similarity and...
Post on 16-Apr-2017
351 Views
Preview:
TRANSCRIPT
1
토론기계를 향하여: 유사도와 공동출현에 기초한
뉴스 문장 연결망 분석 알고리즘 제안
박 대 민
한국언론진흥재단
선임연구위원
2
뉴스의미연결망 분석에 대한 기존 연구뉴스문장연결망 분석모형
분석사례 : 2011 년 ‘분단’ 기사
목차토론기계를 향하여
: 유사도와 공동출현에 기초한 뉴스 문장 연결망 분석 알고리즘 제안
3
News Semantic Network
4
Tag Cloud
5
News Source Network: Four Major Rivers Project
한겨레동아
6
News Comment Topic Ego Network: Youth Unemployment
7
News Source-Commnent Topic Network: Thoughtless Com-ments
8
News Organization-Comment Topic Network: Youth
9
뉴스의미연결망 분석에 대한 기존 연구
뉴스 문장연결망 분석 모형
분석사례 : 2011 년 ‘분단’ 기사
목차토론기계를 향하여
: 유사도와 공동출현에 기초한 뉴스 문장 연결망 분석 알고리즘 제안
10
뉴스 문장 연결망의 미션
의미연결망에서 두 결점 간 맨하튼 거리의미거리 0: 동일한 문장 , 의미거리 1: 기사 공동출현 인용문 또는 유사 인용문의미거리 2 이상 : 간접 연결된 인용문
‘ 첫째 , 둘째 , 셋째 ,…’주요경로 ( 파당 간의 겹침 최소화 , 대주제 중심 ), 지름 ( 가장 긴 주요경로 )
확장경로 ( 특정 파당의 문장을 추가 , 세부 내용추가 )
주요문장
의미거리
의미경로- 주요경로
의미경로- 확장경로
소위 ‘야마’뉴스 문장 연결망에서 연결정도중앙성이 가장 높은 문장
11
담론분석에 활용
쟁점 중심전체연결망 , 또는 각 구성집단에서 연결정도중앙성이 높은 상위 문장을 검토
관련성 중심가장 중요한 문장에서 의미거리가 문장연결망의 일정 범위 이내인 모든 문장을 검토특정 문장과 의미거리 2 이내는 배열에 크게 구애 받지 않고 관련될 것으로 추정
주요경로 분석 : 다양성 중심 , 최단경로 상의 문장 분석확장경로 분석 : 주요경로 상의 한 문장에서 시작하는 파당 상의 문장을 살펴봄
주요 문장 추이 , 주요 문장의 자아연결망 추이 , 주요 경로 추이 , 확장 경로 검토
주요문장 분석
자아연결망 분석
주요경로 분석및확장경로 분석
시계열분석
12
기사공동출현행렬
QA: 기사공동출현행렬
q1
q2 q3
a1 q4
q5
a2
13
유사도 행렬
q1
q2 q3
a1
q4
q5
a2QS: 유사도 행렬
QS ′ : 절삭된 유사도 행렬
14
문장연결망의 행렬
QS ′ : 절삭된 유사도 행렬
QA+QS′=Q
Q: 문장연결망QA: 기사공동출현행렬
+ =
15
뉴스의미연결망 분석에 대한 기존 연구
뉴스 문장연결망 분석 모형
분석사례 : 2011 년 ‘분단’ 기사
목차토론기계를 향하여
: 유사도와 공동출현에 기초한 뉴스 문장 연결망 분석 알고리즘 제안
16
분석방법
검색어 : ‘ 분단’분석매체 : 경향신문 , 국민일보 , 문화일보 , 서울신문 , 세계일보 , 한겨레 , 한국일보 , 동아일보분석기간 : 20011 년 1 월 1 일 -2011 년 12 월 31 일
수집데이터 : 기사 수 405 건 , 인용문 949 개 ( 중복 포함 )분석데이터 : 기사 ID, 인용문 ID, 날짜 , 매체명
데이터 수집 : 뉴스소스 베타형태소분석 ( 명사 추출 ): KKMA유사도 계산 : NETMINER분포 : EXCEL연결망분석 : NETMINER, UCINET시각화 : NETDRAW
17
NewsSource Beta
- 정보원 ( 성 + 이름 , 소속 , 직함 ), 문장 , 기사를 식별하여 사실 중심으로 중복을 제거해 요약- 정보원 , 문장 , 기사 검색 결과를 의미연결망분석을 통해 산출된 가중치에 따라 제시- 질의에 대한 검색 결과를 정보원과 인용문 중심으로 주제별로 대조- 연구자를 위해 시계열 뉴스정보원 연결망의 시각화와 정형화 자료 다운로드 제공
18
기사공동출현 기준 문장연결망
19
유사도 분포
임의 추출 100 개 인용문의 유사도 분포- 대부분 0.2 이하- 949 개 인용문 중에선 유사도 0 인 문장쌍이 14.8%- 유사도 1( 완전 일치 ) 하는 소수의 문장쌍도 존재
20
유사도 기준 문장연결망
21
분단 관련 뉴스문장연결망
22
주 구성집단
23
주요 문장
24
한계 및 제언
기대효과
-뉴스는 정치 , 경제 , 사회 , 문화 , 국제 등 모든 중요한 사회 주제를 정제된 방식으로 기술함
- 문장 수준의 연결 정보를 담은 말뭉치를 대규모로 구축하여 추후 학습집합으로 활용
- 토론 가능한 강한 인공지능 개발에 기여 기대 ( 담론분석 기능 )
01 02 추가연구
-정보원 정보에 기초한 규칙 정보 추가
-정확한 분포 파악 ( 연결정도계수 값 계산 )
- 유사도 절삭값 최적화
- 최종 결과물에서 중복 제거
- 다른 유형의 문장에 적용 ( 규칙이 없으므로 가능 )
- 개발된 NLP 엔진과 연계
- 추가로 새로운 검색엔진 , CMS 와 연계
25
Q & A
top related