natural language processing of news (intermediate): rule based model

12
뉴스기사의 자연어처리(심화): 규칙 기반 접근 중심 한국언론진흥재단 선임연구위원

Upload: daemin-park

Post on 08-Jan-2017

146 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Page 1: Natural language processing of News (intermediate): rule based model

뉴스기사의 자연어처리(심화): 규칙 기반 접근 중심

박 대 민

한국언론진흥재단

선임연구위원

Page 2: Natural language processing of News (intermediate): rule based model

문장 경계 인식, 개체명 인식

2016-06-10 2 박대민 KPF 선임연구위원

문장 경계 인식* 기사를 문장 단위로 쪼갠다

장소 인식**

수치 인식 *

수치문에서 단위를 식별하고 다중분류한다 : 시간, 통화, 비율, 넓이 : 압력, 길이, 속도, 연비, 데이터양, 무게, 부피, 기타 : 수치 대용어 추출 (전년 대비, 동기 대비, …)

장소문에서 장소를 식별하고 다중분류한다 : 우편번호부

상품명 인식 ** 장소문에서 상품명을 식별하고 다중분류한다 : 상품분류코드

사전 구축 * 개체명별로 표준사전을 DB화한다 : 외국어 한글표기 개체명 사전 필요

Page 3: Natural language processing of News (intermediate): rule based model

정보원 다중분류* 인용문의 정보원을 다중분류한다 : 이름+소속+직함 : 분류 1: 개인실명(인명 O)/집단(인명 X, 기관명 O)/익명(인명 X, 기관명 X) : 분류 2: 기관 분류 기준

개체명 인식

직함 인식* 직업명 인식**

직함/직업명을 인식하고 다중분류한다

인명 인식* 인명을 인식한다 : 연예인명 추가

기관명 인식* 기관명을 인식하고 다중분류한다 : 대분류의 경우 정/경/사/문/국

개체명 색인화 개체명을 색인화한다

2016-06-10 3 박대민 KPF 선임연구위원

Page 4: Natural language processing of News (intermediate): rule based model

인용문-정보원 대용어해소*

정보원과 인용문을 매칭한다 : 대용어로 된 정보원에 대해 대용어해소한 뒤 매칭 : 대용어의 예로는 ‘이 회장은 ~’, ‘그는 ~’, ‘한은’

대용어해소, 의미중의성 해결

수치문-수치 대용어해소

수치 대용어와 수치문을 매칭한다 : 전년 대비, 작년, 지난해

2016-06-10 4 박대민 KPF 선임연구위원

정보원의 의미중의성해결*

동명이인, 이명동인 문제 해결 : 소속(기관명)이 다르면 동명이인 : 이명동인은 일단 존재하지 않는다고 가정

Page 5: Natural language processing of News (intermediate): rule based model

문장 태깅 및 분류

평판분석** 소속에 따라 인용문의 의견을 분석한다 : 찬/반(정치), 매수/매도(경제), 호/불호(문화, 사회) : 중립 존재

인용문 태깅** 인용문 태그를 추출한다 : 인용문당 3개 추출 후 : 명사(복합명사)만 필터링

URL 부착** 모든 문장에 기사 원문 URL을 부착한다

문장 분류* 개체명 기준으로 각 문장을 다중분류한다 : 인용문, 수치문, 장소문, 기타문

문장 색인화** 문장을 색인화한다

2016-06-10 5 박대민 KPF 선임연구위원

Page 6: Natural language processing of News (intermediate): rule based model

군집화

2016-06-10 6 박대민 KPF 선임연구위원

중복 문장 군집화*

대표 문장 추출*

기타문을 제외하고 문장 유형별로 중복 문장을 클러스터링한다

중복 문장 중에 대표 문장을 뽑는다

기사 분류*

기사 지면과 유형을 분류한다 : 지도학습+규칙(정보원 소속, 매체 기사 분량, 정보원 수, 인용문 수 등) : 1단계 지면(정/경/사/문/국), 2단계 유형(톱/사이드/단신/인터뷰)

기사 군집화* 인용문 태그를 기준으로 기사를 군집화한다

Page 7: Natural language processing of News (intermediate): rule based model

의미연결망분석

2016-06-10 7 박대민 KPF 선임연구위원

정보원 연결망 분석* 기사 공동출현 기준 정보원 연결망을 그리고 정보원 가중치를 부여한다

문장 연결망 분석 *** 기사공동출현, 정보원, 유사도 기준 문장 연결망을 그리고 문장 가중치를 부여한다 : 의미거리, 의미경로, 의미군집 정의 : 핵심문장, 요약문장, 상술문장

매체 특이성 분석 *** 정보원 중복도의 역으로 매체 특이성을 계산하고 매체 가중치를 부여한다

주제 연결망 분석*** 인용문 공동출현 기준 주제 연결망을 그리고 주제 가중치를 부여한다

Page 8: Natural language processing of News (intermediate): rule based model

템플릿 생성

2016-06-10 8 박대민 KPF 선임연구위원

패턴인식/ 템플릿 생성

문장 기준 패턴인식을 통해 기사 템플릿을 찾고 양식을 분류한다

기사 요약* 기사를 다양한 템플릿에 맞게 다중 요약한다

Page 9: Natural language processing of News (intermediate): rule based model

클린징, 서비스

2016-06-10 9 박대민 KPF 선임연구위원

데이터 클린징1

데이터 클린징2*** (F1 성능 90% 이상) 인력으로 개체명 인식, 대용어 해소, 지면 분류 등의 오류를 보정한다

(F1 성능 90% 이하) 추가 알고리즘을 통해 정보원 식별, 문장 분류, 정보원-인용문 매칭, 지면 분류 등의 정답률을 높인다

시각화*** 오류를 제외하고 가중치에 따라 개체명, 문장, 기사, 매체 연결망을 시각화한다

서비스 디자인* 검색결과를 다양한 가중치에 따라 노출한다

Page 10: Natural language processing of News (intermediate): rule based model

2016-06-10 10 박대민 KPF 선임연구위원

참고문헌

•박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션이론>, 12권 1호, 4-52. [Park, D.M.(2016). Natural language processing of news articles: A case of ‘NewsSource beta’. Korean Communication Theory. 12(1). 4-52.]

•Park, D.M., Kim, G.N., & On, B.W.(under review). Understanding the Network Fundamentals of the News Sources Associated with a Specific Topic. Information Sciences. •PARK, D.M.(2016, January). Toward a debating machine: A news sentence network analysis algorithm based on similarity and cooccurrence. In Proceedings of HCI Korea (pp. 491-498). Hanbit Media, Inc..

•박대민, 백영민, 김선호(2015.12.). <뉴스 빅데이터 분석 시스템 연구>. 서울: 한국언론진흥재단. (책임연구). [Park, D.M., Baek, Y.M., & Kim, S.H. (2015). News big data analysis system. Seoul, Korea: Korea Press Foundation.]

•박대민, 김기남, 강남용, 서봉원, 하효지, 온병원(2014). 저널리즘 가치에 기초한 알고리즘을 이용한 뉴스의 시각화. <한국HCI학회 논문지>, 9권 2호, 5-12. [Park, D.M., Kim, G.N., Kang, N.Y., Suh, B.W., Ha, H.J., & On, B.W.(2014). A news visualization based on an algorithm by journalistic values. Journal of the HCI Society of Korea. 9(2). 5-12.]

•박대민(2014). 뉴스 정보원 인용에서의 폭발성과 언론의 편향성. <커뮤니케이션 이론>, 10권 1호, 295-324. [Park, D.M.(2014). Biases by bursts of quoting sources in journalism. Korean Communication Theory. 10(1). 295-324.

•박대민(2013). 뉴스 기사의 빅데이터 분석 방법으로서 뉴스정보원연결망분석. <한국언론학보>, 57권 6호, 233-261. [Park, D.M.(2013). News source network analysis as big data analytics of news articles. Korean Journal of Journalism and Communication Studies. 57(6). 233-261.]

Page 11: Natural language processing of News (intermediate): rule based model

1) PPT 작성일지 - 1차: 2015년 3월 17일 - 2차: 2016년 6월 9일

2) 기능 구현 여부 - ‘*’은 <뉴스소스 베타>, ‘**’은 <빅카인즈>, ‘***’은 논문 또는 보고서로 구현된 것임 - ‘*/**/***’와 굵은 글씨로 표기된 기능은 핵심 기능이 아직 완전히 구현되지 않은 경우임 - ‘*/**/***’가 없고 굵은 글씨로 표기된 기능은 한 번도 구현되지 않은 경우임

Page 12: Natural language processing of News (intermediate): rule based model

12