debating machine: rule based news sentence network analysis

22
토론기계는 가능한가 : 규칙 기반 뉴스 문장연결망 분석 모형의 제안 박대민 한국언론진흥재단 선임연구위원 1

Upload: daemin-park

Post on 08-Jan-2017

195 views

Category:

Data & Analytics


4 download

TRANSCRIPT

Page 1: Debating Machine: Rule Based News Sentence Network Analysis

토론기계는 가능한가: 규칙 기반 뉴스 문장연결망 분석 모형의 제안

박 대 민

한국언론진흥재단

선임연구위원

1

Page 2: Debating Machine: Rule Based News Sentence Network Analysis

기존뉴스의미연결망분석의한계

뉴스문장연결망분석모형

분석사례: <금융위기후일주일>

목차토론기계는가능한가

: 뉴스문장연결망분석모형의제안

2

Page 3: Debating Machine: Rule Based News Sentence Network Analysis

뉴스의미연결망분석의분석수준

3

태그 클라우드

단어간의연결망(기사공동출현), 명사의연결망(기사공동출현), 형용사의연결망(기사공동출현)

개체명, 개념의 연결망

정보원연결망(기사공동출현), 기관연결망(주제매개), 주제연결망(기사공동출현, 인용문공동출현)

문장 연결망

인용문연결망(기사공동출현, 정보원, 유사도)

매체 연결망

매체연결망(유사도)

단어

개체명

문장

매체

발표자
프레젠테이션 노트
매체 연결망은 안 함
Page 4: Debating Machine: Rule Based News Sentence Network Analysis

뉴스문장연결망분석에서해결할점

검색엔진 문제 뉴스소스 문제언어학 문제- 중복기사안에중복되지않은정보를보여줄수없음

- 정확도문제: 기사는검색어를포함하지만인용문은검색어와관련없는문제-재현율문제: 인용문을검색어로다시필터링할때검색어를포함하진않지만관련된인용문이제외되는문제- 정보원문제: 중요한정보원이지만중요하지않은인용문인문제

- 문법과구문을통해접근하기때문에내용과의미를직관적으로파악하기어려움

01 02 03

4

선문답 배제 문제 야마 문제- 문장연결망은 의미경로가존재- 이어지는문장을선문답보다관련도높은소수문장을정확히선별해야

- 최상위주제를담은문장(야마)을뽑는문제

- 하위 주제를뽑는문제- 상세내용을뽑는문제

04 05

발표자
프레젠테이션 노트
수정필요
Page 5: Debating Machine: Rule Based News Sentence Network Analysis

기존뉴스의미연결망분석의한계

뉴스문장연결망분석모형

분석사례: <금융위기후일주일>

목차토론기계는가능한가

: 뉴스문장연결망분석모형의제안

5

발표자
프레젠테이션 노트
수정필요
Page 6: Debating Machine: Rule Based News Sentence Network Analysis

결점(node)

- 문장, 특히인용문

연결선(edge)- 기사공동출현, 인접기간중동일정보원의발언- 유사도문제: 다른날짜간유사한문장이극히드물고같은날짜에서는어뷰징처럼기사가동일함

절대적 연결정도 중앙성 (degree centrality)

CD(v)=deg(v)

결점

연결선

순위화

뉴스 문장연결망 정의

6

Page 7: Debating Machine: Rule Based News Sentence Network Analysis

뉴스문장연결망개념도

7

발표자
프레젠테이션 노트
전체 기사가 2개, 정보원이 3명, 인용문이 5개 있다고 하고, ai는 i번째 기사를, sj는 j번째 정보원을, qk는 k번째 인용문이라고 하자. 기사 a1에는 정보원 s1와 그의 발언 q1, s2와 그의 발언 q2, q3가, 기사 a2에는 정보원 s2와 그의 발언 q4, 정보원 s3와 그의 발언 q5가 인용됐다고 하자. 이를 개념도와 행렬로 나타내면 <그림 1>, <그림 2>와 같다.
Page 8: Debating Machine: Rule Based News Sentence Network Analysis

뉴스문장연결망의행렬

인용문연결=기사공동출현+동일정보원발언=QA×QAT+QS×QST

8

발표자
프레젠테이션 노트
뉴스 문장연결망은 방향 없는(undirected) 비가중 연결망(unvalued network)이다. 따라서 시각화할 때는 상관없지만, 행렬연산을 할 때는 기사 매개 문장 연결 행렬과 정보원 매개 연결 행렬을 합할 때 값을 0과 1로 표시되는 명목 값으로 변환해줘야 한다. 이는 UCINET이나 넷마이너(Netminer0와 같은 연결망분석 프로그램에서 ‘dichotomize’ 기능을 활용하면 된다. 한편 인접기간을 너무 길게 하면 무의미한 연결을 유의미하게 판단하는 2종 오류를 범하게 된다. 반대로 너무 짧게 하면 유의미한 관계를 누락하는 1종 오류를 범하게 된다. 이 연구에서 인접기간은 이틀로 잡는다. 기사의 날짜가 1일 단위로 부여되므로, 인접기간을 최소인 이틀로 한다는 것은 2종 오류를 최소화하는 방식으로 볼 수 있다.
Page 9: Debating Machine: Rule Based News Sentence Network Analysis

뉴스문장연결망의순위화

q4>q2=q3=q5=q6=q7>q1

9

발표자
프레젠테이션 노트
문장의 순위화(ranking)는 절대적 연결정도 중앙성(degree centrality)을 활용한다. 즉 많은 발언을 한 정보원의 인용문, 또는 많은 인용문과 함께 한 기사에서 인용된 인용문이 중시된다. 또한 뉴스 정보원 연결망에서 중시되는 정보원, 즉 논쟁적인 정보원의 발언이 중시되는 경향도 나타난다. 예컨대 <그림 1>에서 q2, q3, q4가 연결정도중앙성 값이 3으로 가장 큰데, 뉴스 정보원 연결망에서 이 인용문들의 발언자인 정보원 s2의 중요도도 2로 가장 크다. 그러나 문장연결망의 중요도는 공동출현한 인용문의 수에도 영향을 받기 때문에, 전적으로 정보원의 중요도에 의해 결정되는 것은 아니다. 만일 <그림 3>처럼 기사 a2에 정보원 s4, s5 등 2명 더 있고 각각 하나의 발언 q6, q7만 했다고 하면, 인용문 q4의 중요도는 5가 되어 가장 높아지며, 인용문 q5의 중요도 역시 q2, q3와 마찬가지로 3이 될 것이다.
Page 10: Debating Machine: Rule Based News Sentence Network Analysis

뉴스문장연결망의해석

의미거리(semantic path)

의미연결망에서 두결점간맨하튼거리관련도=1/의미거리

의미경로(semantic path)

문장간연결에서는의미경로가중요문장간의미거리가 1인문장들을중복없이이어감

자아연결망

특정문장과의미거리 2 이내는배열에크게구애 받지않고관련될것으로추정

문장 층위

축약경로: 파당간의겹침최소화, 대주제중심지름: 가장긴축약경로확장경로: 특정파당의문장을 추가, 세부내용추가

의미거리, 관련도

의미경로

자아연결망

문장 층위

10

발표자
프레젠테이션 노트
(1) 의미거리와 관련도   의미거리는 사회연결망의 사회거리(social distance)와 마찬가지로 유클리디안 거리(Euclidean distance)가 아니라 맨하튼 거리(Manhattan distance)이다. 즉 의미연결망에서 거리는 두 결점 간 최단경로로, 연결선의 길이는 중요하지 않고, 한 결점을 거칠 때마다 늘어난다. 의미거리 0은 동일한 문장, 의미거리 1은 기사 공동출현 인용문 또는 동일 정보원 발언, 의미거리 2 이상은 간접 연결된 인용문을 뜻한다. 잘 정의된 의미거리라면 의미거리가 짧은 문장 간의 관련도는 분명하게, 긴 문장 간의 관련도는 모호하게 느껴져야 한다. 즉 ‘동일 기사의 다른 정보원 인용문-다른 정보원의 다른 기사 인용문-…’의 연쇄가 많아질수록 관련도는 떨어진다. 이는 관련도가 연결 자체가 아니라 의미거리의 역수임을 시사한다. 이에 따라 두 문장 간 관련도는 다음 식과 같이 나타낼 수 있다. 관련도=1/의미거리   (2) 의미경로   의미거리는 문장을 제시할 때 순위 이상으로 의미경로(semantic path)를 우선적으로 고려해야 한다는 점을 시사한다. 예컨대 <그림 3>에서 문장을 의미경로에 따라 ‘q4-q3-q1’와 같은 순서로, 즉 앞뒤 문장이 의미거리 1을 유지한 채로 문장을 중복 없이 나열하면 문장 간 연결이 비교적 자연스러울 것이다. 그러나 ‘q4-q7-q1’으로 제시하는 것은 다소 어색할 수 있다. q7과 q1의 의미거리가 3으로 비교적 멀기 때문이다. 그러나 의미거리 3 이내에서는 문장의 관련도가 대부분 충분히 높다면 q7과 q1을 연달아 배열하더라도 크게 어색하지 않을 수 있다.   (3) 자아연결망   의미거리는 인접한 문장의 관련도가 멀리 떨어진 문장의 관련도보다 크다는 것을 의미한다. 그러나 실제로는 의미거리의 차이가 1이나 2 정도인 문장 간의 의미론적 차이는 크게 느껴지지 않을 수 있다. 앞서 언급했듯이, 사회연결망분석의 3단계 규칙에 따르면 사회거리 3 이내는 영향력을 주고 받는다(Christakis & Fowler, 2009/2010). 의미연결망에서도 마찬가지로 한 문장과 특정 범위 이내의 의미거리에 있는 자아연결망(ego network) 내 문장은 어떻게 배열되는 상관없이 서로 자연스럽게 관련될 수도 있다. 그럼에도 불구하고 한 문장과 같은 구성집단에 속하기는 하지만 먼 거리에 있는 문장, 또는 아예 다른 구성집단에 있는 문장과의 관련도는 낮아질 것이다. 따라서 먼 거리의 문장을 포함해 문장을 나열할 경우 관련도에 따르는 것이 타당할 수 있다.   (4) 문장의 층위   앞서 살펴봤듯이 뉴스 문장연결망 분석을 통해 인용문에 대해 순위와 경로를 부여할 수 있다. 그리고 순위화와 의미경로를 통해 인용문에 의미론적 층위를 부여할 수 있다. 먼저 순위화 측면에서 전체연결망 또는 구성집단별로 가장 중요한 문장이 있을 수 있다. 다음으로 의미경로 측면에서 각 구성집단별로 주요 문장에서 시작하는 의미경로가 있을 수 있다. 이 때 의미경로는 두 문장을 잇는 최단경로(shortest path)와 최단경로 상의 어느 한 문장에서 시작해 파당(clique)를 순환하는 경로를 추가한 경로가 있을 수 있다. 최단경로는 같은 구성집단에 있는 모든 문장 간에 계산할 수 있다. 최단경로를 축약경로(reduced path), 순환경로에서 파당을 순환하는 경로가 추가된 경로를 확장경로(extended path)라고 명명하자. 축약경로 상의 한 문장에서 시작하여 하나의 파당을 일순하면, 그 문장과 함께 거론된 기사 또는 그 인용문의 발언자가 말한 인용문을 보다 심층적으로 검토할 수 있게 된다. 한편 사회연결망분석에서와 마찬가지로 가장 긴 최단경로를 지름(diameter)이라 한다. 지름인 의견경로는 해당 구성집단에서 가장 많은 파당(clique)를 지나게 된다. 즉 가능한 많은 기사와 정보원을 최단거리로 잇게 된다. 즉 지름인 의미경로 상의 문장들을 선별함으로써 가장 다양한 내용의 인용문들을 중복 없이 추출할 수 있다. 예를 들어 설명하면 <그림 3>에서 전체연결망에서 가장 중요한 문장은 q4가 된다. <그림 3>의 구성집단은 하나 뿐이므로 구성집단별로 가장 중요한 문장도 q4이다. 최단경로는 다양하다. 전체연결망의 지름은 3이 된다. 지름에 해당하는 경로는 여러 개 있다. 일례로 ‘q1-q2-q4-q7’은 지름인 주요경로이다. q1와 q7 간 최단경로에서 q1와 같은 파당에 속한 q3를 추가한 ‘q1-q3-q2-q4-q7’ 은 확장경로라고 할 수 있다. 가장 중요한 문장, 최단경로, 확장경로는 뉴스 문장연결망에서 문장 간 위계를 나타낸다. 가장 중요한 문장은 최상위 주제를 담는다. 다음으로 최단경로상의 문장들은 각 파당을 대표하는 차상위 주제를 표현한다. 끝으로 최단경로상의 문장과 연결된 파당에 속하는 문장은 차상위 주제로부터 파생된 구체적인 하위 주제를 나타낸다.
Page 11: Debating Machine: Rule Based News Sentence Network Analysis

담론분석

주요문장

의미연결망에서 두결점간맨하튼거리관련도=1/의미거리

의미경로문장간연결에서는의미경로가 중요하며문장간의미거리가 1인문장들을중복없이이어가면서도출축약경로 (파당간의겹침최소화, 대주제중심 ), 지름(가장긴축약경로), 확장경로(특정파당의문장을 추가, 세부내용추가)

자아연결망

특정문장과의미거리 2 이내는배열에크게구애 받지않고관련될것으로추정

시계열 분석

중요문장추이, 중요문장의자아연결망추이, 주요경로추이, 확장경로검토최소단위는 2일

주요문장

의미경로

자아연결망

시계열 분석

11

발표자
프레젠테이션 노트
첫째, 논쟁성에 초점을 두고 전체연결망, 또는 각 구성집단에서 연결정도중앙성이 높은 상위 문장을 검토하는 방식이다. 둘째, 관련성에 초점을 두고 가장 중요한 문장에서 의미거리가 사회연결망과 달리 문장연결망의 일정 범위 이내인 모든 문장을 검토할 수 있다. 보통 사회연결망 분석에서 거리 2 이내인 자아연결망 분석을 수행할 수 있을 것이다. 다만 자아는 행위자가 아니라 문장이다. 셋째, 다양성에 초점을 두고 최단경로 상의 문장을 분석하는 방식을 생각할 수 있다. 이 때 최단경로는 모든 문장에 있고, 한 문장의 최단경로도 여럿 있을 수 있으므로, 가장 중요한 문장에서 시작되는 최단경로, 또는 지름인 최단경로를 우선 분석하는 것이 효과적이다. 이를 주요경로(primary path)라고 부르자. 넷째, 심층성에 초점을 두고 특정한 한 문장에서 시작하는 확장경로를 살펴볼 수 있다. 시계열 분석도 가능하다. 먼저 가장 중요한 문장의 추이를 살펴본다. 다음으로 주요 경로나 자아연결망에 속한 문장의 추이를 분석한다. 연구목적에 따라서는 확장경로 상의 문장을 심층적으로 살펴볼 수도 있다. 문장연결망에서 정보원 매개 관련도를 산출하는 인접기간 기준이 2일이므로 시계열 분석기간의 최소 단위는 2일이 된다. 이를 주 단위나 월, 분기, 반기, 연 단위로 분석할 수도 있을 것이다.
Page 12: Debating Machine: Rule Based News Sentence Network Analysis

기존뉴스의미연결망분석의한계

뉴스문장연결망분석모형

분석사례: <금융위기후일주일>

목차토론기계는가능한가

: 뉴스문장연결망분석모형의제안

12

Page 13: Debating Machine: Rule Based News Sentence Network Analysis

분석대상, 분석방법

검색어: ‘금융’

분석매체: 경향신문, 국민일보, 문화일보, 서울신문, 세계일보, 한겨레, 한국일보, 동아일보

분석기간: 2008년 9월 16일-2008년 9월 21일

기사수 365건, 정보원 315명, 인용문 695건

분석유목: 인용문, 정보원이름, 소속명, 날짜

수집및분석프로그램: <뉴스소스베타>, EXCEL, NETMINER, NETDRAW

13

발표자
프레젠테이션 노트
분석매체는 경향신문, 국민일보, 문화일보, 서울신문, 세계일보, 한겨레, 한국일보, 동아일보 등 총 8개 매체이다. 분석기간은 2008년 9월 16일부터 9월 21일까지 6일간이다. 검색어는 ‘금융’이었다. <카인즈> 자료를 바탕으로 한 CAQDAS인 <뉴스소스 베타>를 이용하여 인명, 기관, 인용문, 날짜, 기사id, 매체명 등을 자동으로 추출했다. <뉴스소스 베타>의 성능은 정확도의 경우 인명, 기관이 각각 90.3%, 92.7%, 재현율은 87.4%, 50.9%이다. 인용문 추출은 정확도나 재현율 모두 99% 수준이다(차세대융합기술연구원, 2013.12.). 인명과 기관명 오류는 수작업으로 수정했다. 중복은 제거했다. 최종적으로 총 365개의 기사에서, 315명의 정보원과 695개의 인용문을 분석대상으로 삼았다. 분석 편의를 위해 기사와 인용문에 id를 부여했다. 일단 기사id는 <뉴스소스 베타>가 제공하는 <카인즈>의 메타데이터 값을 바탕으로 했다. 추가로 2일 간격으로 동일 정보원의 발언들을 하나로 묶어서 새로운 기사id를 부여했다. 다음으로 인용문에 대해 수작업으로 id를 부여했다. 인용문 id는 숫자로 명목 값을 부여했는데, 일반적인 숫자와 구분하기 위해 끝에 ‘.0’을 붙였다. 동일 인용문은 같은 인용문 id를 부여했다. 최종적으로 EXCEL에 기간별로 기사 id와 인용문 id의 엣지리스트(edge list) 형태의 기초자료를 얻었다. 뉴스 문장연결망 분석은 UCINET 6.574와 넷마이너4를, 시각화 도구는 NetDraw 2.152를 이용했다. 시각화할 때 주요 문장을 확인할 수 있도록 결점과 결점 이름(label)의 크기를 연결정도중앙성 값에 따라 조정했다. 또 경로 파악에 도움을 주기 위해 k-core분석결과에 따라 결점의 색을 달리했다.
Page 14: Debating Machine: Rule Based News Sentence Network Analysis

금융위기

14

발표자
프레젠테이션 노트
부채담보부증권 [Collateralized Debt Obligation, 負債擔保附證券] 자산담보부증권 [asset-backed securities] 상업용부동산담보증권 [commercial mortgage-backed security] 주택저당채권담보부증권(RMBS)
Page 15: Debating Machine: Rule Based News Sentence Network Analysis

뉴스문장연결망

15

Page 16: Debating Machine: Rule Based News Sentence Network Analysis

주요문장

16

발표자
프레젠테이션 노트
1기에는 시장의 낙관적 전망, 2기는 정부와 한국은행의 엇갈린 전망, 3기에는 정부의 낙관적 전망과 이에 대한 비판이 눈에 띈다.
Page 17: Debating Machine: Rule Based News Sentence Network Analysis

자아연결망(3기)

17

Page 18: Debating Machine: Rule Based News Sentence Network Analysis

자아연결망의문장 (3기)

18

발표자
프레젠테이션 노트
예시로 3기에 속한 자아연결망에 속한 문장들만 보면 30개의 인용문이 산출된다. 그 내용은 <표 2>와 같다. 이명박 대통령과 강만수 기획재정부 장관의 낙관적 발언이 많았다. 반면 이성태 한국은행장이나 김기원 방송대 교수 등은 비판적이었다. 최재성 민주당 의원은 영수회담과 관련하여 금융위기와 관련한 민생 논의를 담고 있다. 대체로 민생 담론은 영수회담과 금융위기를 매개했다. 인용문 733, 736, 763 등은 금융보다는 정치와 관련된 내용이었다. <표 2>의 인용문만 놓고 보면 전체 문장 중 80%인 24개 문장은 인용문 728과 밀접하게 관련되며, 10%는 중간 정도, 10%는 약간만 관련 있었다.
Page 19: Debating Machine: Rule Based News Sentence Network Analysis

경로해석

19

발표자
프레젠테이션 노트
가장 중요도가 높은 인용문 242에서 시작하는 주요경로 역시 앞의 인용문 85까지 이어지는 경로로, 의미거리는 10이다. 중간 경로는 다양할 수 있다. 그러한 경로 중 하나는 ‘242-89-91-82-80-58-221-318-317-251-85’으로 이어지는 경로이다. 한편, 인용문242와 인용문 89 사이의 경로에 두 인용문이 속한 파당 내의 다른 인용문들을 추가해 ‘242-134-135-136-218-321-322-89’의 확장경로를 만들 수 있다. <그림 7>은 주요경로에 위치한 인용문의 결점과 함께, 의미거리 1 이내에서 각 결점의 자아연결망을 추가한 확장경로를 시각화한 것이다.
Page 20: Debating Machine: Rule Based News Sentence Network Analysis

주요경로: 지름과확장경로

20

발표자
프레젠테이션 노트
인용문 242에서 인용문 85로 이어지는 주요경로 상의 문장과 인용문 242와 인용문 89 사이 구간에 인용문들을 추가한 확장경로 상의 문장은 <표 4>와 같다. 내용을 살펴보면, 시장과 정부 소속의 다양한 주요 인사들(12명)이 시장에 대해 전망한 발언이 담겨 있다. 대체로 부정적 견해가 우세했다. 확장경로 상의 문장은 주로 투자은행이나 경제연구소의 주요 인사의 발언이었으며, 위기의 규모가 크고 확산될 것으로 보는 등 주요경로 상의 문장을 적절히 뒷받침했다.
Page 21: Debating Machine: Rule Based News Sentence Network Analysis

한계및제언

자연어처리개선 기계학습

검색엔진 개발사용자경험보완

뉴스소스베타에의존 - 구축된말뭉치를학습- 새로운주제에대해서도검색결과제시

자동화된담론분석, 약식보고서작성UI, 템플릿, 음성인식등

01 02 03

04 05

대규모 말뭉치 구축- 대규모뉴스기사에대한분석- 병렬처리등빅데이터 DBMS 결합

21

Page 22: Debating Machine: Rule Based News Sentence Network Analysis

Q & A

22