기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3...

76
1 1세부 기계학습 및 평가용 언어자원 구축 강승식 교수 | 국민대 김한샘 교수 | 연세대 오효정 교수 | 전북대 류법모 교수 | 부산외대 이민행 교수 | 연세대 조은경 교수 | 서강대 임희석 교수 | 고려대 한경수 교수 | 성결대

Upload: others

Post on 17-Jul-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

1

1세부

기계학습 및평가용 언어자원 구축

강승식 교수 | 국민대

김한샘 교수 | 연세대

오효정 교수 | 전북대

류법모 교수 | 부산외대

이민행 교수 | 연세대

조은경 교수 | 서강대

임희석 교수 | 고려대

한경수 교수 | 성결대

Page 2: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

KMU Natural Language Processing Laboratory

2017년도 차세대정보컴퓨팅기술개발사업 (2차년도: 2018/06/01~2019/05/31)

사 업 기 간 | 2017.09.01~2020.12.31 (40개월)

세부책임자 | 국민대학교 소프트웨어학부 강승식

공동연구원 | 김한샘(연세대), 오효정(전북대), 류법모(부산외대), 이민행(연세대), 조은경(서강대), 한경수(성결대)

총괄책임자 | 국민대학교 강승식 교수

한국어 정보처리 원천기술 연구개발1세부: 한국어 기계학습 및 평가용 Gold Standard 언어자원 뱅크 구축

한국어 정보처리 원천기술개발2

1세부 과제 : 연구목표, 연구내용, 향후계획

– 1차년도 연구내용 (2017.09.01 ~ 2018.05.31)• 주요 연구추진 내용, 목표 달성도• 주요 핵심 연구성과 사례, 자체평가 의견서

– 2차년도 연구내용 (2018.06.01 ~ 2019.05.31)• 각 세부별 연구추진 계획, 연구 목표• 추진 전략, 중점 해결 과제• 연구팀 구성, 기대효과, 소요 예산

– 3,4차년도 연구계획 (2019.06.01 ~ 2020.12.31)• 각 세부별 연구추진 계획, 연구 목표• 추진 전략, 중점 해결 과제• 연구팀 구성, 기대효과, 소요 예산

향후 계획: 사업화, 기술이전, 활용 방안 등

목 차

Page 3: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

한국어 정보처리 원천기술개발3

대규모 언어자원 구축, 배포, 활용, open API 서비스– 기계학습 및 평가용 학습 데이터 구축– Gitub 및 파이썬 플랫폼 konltk.org– Open API 서버, 웹서버를 통한 언어자원 웹서비스

대규모, 평가용, 기계학습용 언어자원 구축– 대규모 언어자원 구축: 원시 말뭉치, 품사/구문 태깅 말뭉치– 평가용 언어자원 구축: 자동 띄어쓰기, 복합명사 분해 등

– 구어체/대화 말뭉치 구축

한국어 언어처리 머신러닝, 딥러닝 기술 연구

상황인지, 사용자 의도파악 기술 연구– Multi-turn 챗봇 엔진, 보이스 피싱, 자살 예방 등

연구내용 요약

연구개발의 최종목표

구분 내용

최종목표

- 한국어 정보처리및 기계학습용언어자원구축

- 빅데이터, 머신러닝등에서필요로하는언어처리기술제공

- Python 플랫폼, open API, 웹서비스 형태로제공

세부목표

- 대규모 원시말뭉치, 품사/구문 태깅 말뭉치구축및 배포

- 딥러닝기법을이용한한국어정보처리기술개발

- 상황인지및 사용자의도파악기술연구개발

2017. 8. 18 차세대정보컴퓨팅개발사업4

Page 4: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

연구개발의 추진전략, 방법

• 대규모 언어자원 구축 및 그 활용에 중점- 실용적인 언어지식 관리 체계 구축 및 활성화- 언어자원 보급, 확산을 위한 서비스 프레임워크 구축- 실용적인 한국어 언어처리 모듈의 사용 편의성 및 활용 가치 극대화- 국가 언어자원의 운영, 관리, 보급을 위한 허브 구축

• 기존 언어처리 모듈 및 언어자원을 수집, 정리, 배포, 관리를 수행– 언어처리 연구자들이 개별적으로 구축, 개발해 왔던 언어자원과 언어처리 모듈 수집– Python 플랫폼에서 제공, 여러 연구자들에게 개방적인 형태로 진행

• 언어자원과 언어처리 모듈의 공공성 확보

• 국내외 한국어 언어자원 및 연구결과물을 공유하는 구심점이 되는 역할

• 언어처리 모듈을 활용하는 다양한 의견 수렴, 활용가치 극대화

2017. 8. 18 차세대정보컴퓨팅개발사업5

류법모 교수

언어처리 도구 및 언어자원 분석/활용 도구 개발

- 기존 언어자원 정비- Python API 개발- 언어처리 도구 개발- 언어자원 분석도구

대화체 및 의미추론 언어자원 구축

- 대화체 말뭉치 구축 및관리

- 대화체 말뭉치 분석- 의미추론 언어자원

언어자원 평가셋 구축 및평가 도구 개발

- 언어자원 평가셋 구축- 언어자원 평가도구- 평가셋 테스트, 검증

언어자원 평가셋 구축,활용, 배포, 확산

- 언어자원 평가셋 구축- Gold Standard 언어자

원 구축, 배포, 확산

김한샘 교수 오효정 교수강승식 교수

한국어 정보처리를 위한Gold Standard 언어자원 뱅크 구축

1세부

이민행(연세대,언어자원활용), 조은경(서강대,감정사전), 한경수(성결대,등록어연구)

Page 5: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

1세부: 추진일정

2017. 8. 18 차세대정보컴퓨팅개발사업7이민행(연세대,언어자원활용), 조은경(서강대,감정사전), 한경수(성결대,등록어연구)

2017. 8. 18 차세대정보컴퓨팅기술개발사업8

1세부:참여인력 (2차년도)

언어자원분석및

활용도구개발

강승식

한국어언어자원뱅크구축및도구개발

박사과정 1 명

석사과정 3 명

학사과정 2 명

국민대학교

대화체및의미추론

언어자원구축

김한샘

연세대학교

언어자원평가셋구축

및평가도구개발

오효정

전북대학교

1세부과제

참여학생

박사과정 2 명

석사과정 2 명

참여학생

박사과정 1 명

석사과정 3 명

참여학생

한국어 K-NLTK

플랫폼개발및활용

류법모

부산외국어대학교

학사과정 3 명

참여학생

이민행(연세대, 학생1), 조은경(서강대, 학생1), 한경수(성결대, 학생1)

Page 6: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

연차별 연구성과 계획(실적)구분 1차년도 2차년도 3차년도 4차년도

국외논문게재

SCI - 2(1) 2 -

비SCI - - 1 1

계 - 2(1) 3 1

국내논문게재

SCI - - - -

비SCI 3(4) 6(6) 6 3

계 3(4) 6(6) 6 3

특허출원

국내 1(0) 2(2개 예정) 2 2

국외 - - - -

계 1(0) 2(2개 예정) 2 2

특허등록

국내 - 2(0) 2 2

국외 - - - -

계 0 2(0) 2 2

인력양성

석사 3 4(?) 6 4

박사 0 2(?) 2 1

계 3 6(?) 8 5

기술료 실적

계약건수 2(2) 4(1) 4 3

계약액 10,000천원10,000천원(20,000원)

10,000천원 10,000천원

징수액

2017. 8. 18 차세대정보컴퓨팅개발사업9- 국내국외 학술발표: 21편, - SW 등록: ??건, - SW 공개: 10여건

KMU Natural Language Processing Laboratory

1차년도 실적

연구기간: 2017.09.01 ~ 2018.05.31 (9개월)

Page 7: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

한국어 정보처리 원천기술개발

1세부: 연구 내용 (1차년도)

투입인력 구성현황

한국어 기계 학습 및 평가용 Gold Standard 언어자원 구축

한국어 원시/태깅 말뭉치 구축 언어처리 기초 도구 개발 KoNLTK 플랫폼

2세부 언어 분석 도구 1세부 언어자원 구축 3세부 핵심 응용 기술

언어처리 도구(오픈 API)한국어 언어자원

(말뭉치, 평가셋, 사전 등)언어처리 소프트웨어(tokenizer, tagger, ….)

KoNLTK플랫폼을 통한 언어자원 및 언어처리 도구 공개

11

한국어 정보처리 원천기술개발

√ 언어분석기초도구, 자동띄어쓰기개발

(1) 통계기반N-gram 자동띄어쓰기모듈

(2) Deep learning기반Bidirectional LSTM + CRF 기반의

자동띄어쓰기개발

√ 한국어말뭉치와한국어분석모듈배포를위한

파이썬플랫폼개발, Open API 설계및테스트

√ 독일뮌헨대협력을통한한국어품사태거공개

(1세부이민행교수와3세부옥철영교수협력)

√ KoNLTK를 통한 언어자원 및 언어분석 및

활용 소프트웨어 통합 및 배포

√ Konltk.org을 통한 자동화 홈페이지 구축

및 konlp 오픈소스 자동화 문서화

√ 자동띄어쓰기,복합명사분해말뭉치Set 설계

및구축: 경진대회추진(8월중)

1세부: 주요 연구성과 사례 (1차년도)

12

한국어 정보처리원천 기술 연구 개발 및오픈 소스 플랫폼을 통한공개

언어자원 구축 기초 도구 개발

Github의 KoNLTK flatform을 통한언어자원 및 언어처리 소프트웨어공개, 배포, 확산, 활용

1세부 언어 자원 구축 및 설계

한국어 언어자원 구축 및 설계

Page 8: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

한국어 정보처리 원천기술개발13

KMU Natural Language Processing Laboratory

2차년도 실적

연구기간: 2018.06.01 ~ 2019.05.31 (12개월)

Page 9: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

한국어 정보처리 원천기술개발

1세부: 연구 내용 (2차년도)

투입인력 구성현황

한국어 기계 학습 및 평가용 Gold Standard 언어자원 구축

한국어 원시/태깅 말뭉치 구축 한국어 언어처리 딥러닝 기술 기초연구 SW공개, 배포, open API, 웹서비스

2세부 언어 분석 도구 1세부 언어자원 구축상황인지, 사용자 의도파악

3세부 핵심 응용 기술

한국어 언어자원(대규모 말뭉치, 평가셋, 사전 등)

상황인지, 사용자 의도파악 기술 개발언어처리 도구 및 소프트웨어(파이썬 플랫폼, 머신러닝)

대규모 언어자원 및 언어처리 도구 공개,배포,활용보이스 피싱, 자살예방 등 사회문제 해결에 기여

15

한국어 정보처리 원천기술개발16

1세부: 연구 내용 (2차년도)담당 2차년도 연구내용

국민대강승식

언어자원 구축, 상황인지 및 사용자 의도파악 기술 개발– 대규모 원시말뭉치 2억7천만 어절(2천만 문장) 구축 및 배포– 딥러닝 기법을 이용한 한국어 정보처리 기술 개발– 상황인지 및 사용자 의도파악 기술 연구 개발

연세대김한샘

구어체/대화 말뭉치 및 언어자원 활용– 구어체/대화 말뭉치 구축 및 활용 방안– 국어학 분야의 언어자원 활용

전북대오효정

품사 태깅 말뭉치, 경진대회용 평가셋 구축– 품사 태깅 말뭉치 구축 및 활용 방안– 경진대회용 평가셋 구축 및 활용

부산외대류법모

구문 태깅 말뭉치, 경진대회용 평가셋 구축– 구문 태깅 말뭉치 구축 및 활용 방안– 경진대회용 평가셋 구축 및 활용

성결대한경수

미등록어와 복합어 수집, 정비, 활용– 미등록어 수집, 정비, 활용 방안– 복합어 말뭉치 수집, 정비, 활용

연세대이민행서강대조은경

국어학, 언어학 분야에서 언어자원 구축 및 활용– 한국어 코퍼스 언어학에서 활용 방안– 국어학/언어학 분야의 언어자원 활용 교육 및 연구– 감성사전 구축

Page 10: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

한국어 정보처리 원천기술개발17

원시말뭉치 2억7천만 어절(2천만 문장)

언어자원 구축– 평가용 언어자원 구축

• 자동 띄어쓰기, 복합명사 분해

– 품사태깅 말뭉치 구축– 의존태깅 말뭉치 구축– 구어체/대화 말뭉치 구축

한국어 딥러닝 기술 연구– 한국어 문장의 임베딩 기술

상황인지, 사용자 의도파악 기술 연구– Multi-turn 챗봇 엔진– 보이스 피싱, 자살 예방

주요 연구성과물 (2차년도)

Korean Contemporary Corpus of Written SentencesKCC150, KCCq28, KCC940 -- 한국어 원시말뭉치

http://nlp.kookmin.ac.kr/kcc/

말뭉치 어절 수 문장 수 크기 특징

KCC150 150,705,457 11,961,347 1.02GB인용구

없는 문장

KCCq28 28,782,776 1,337,721 204MB인용구

포함 문장

KCC940 93,210,332 6,263,454 661MB30어절

이하 문장

Total 272,698,565 19,562,522 1.88GB -

Page 11: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

한국어 정보처리 원천기술개발19

1세부: 경진대회 개최 (2차년도)

한국어 정보처리 원천기술개발20

공개기술명 공개장소 활용실적 등

KoNLTKPlatform

KoNLTK githubhttps://github.com/konltk/

한국어 정보처리 원천 기술 공개플랫폼 (자동띄어쓰기, 형태소분석기, 임베딩 등)

KoNLTK(KoNLP) 사이트 공개

KoNLTK(KoNLP) 사이트http://konltk.org/en/latest/index.html

Konltk 플랫폼 사용자들에게편의성 제공을 위한 홈페이지

KCC1501억8천만 어절,1,333만 문장

한국어 문장 raw corpushttp://nlp.kookmin.ac.kr/kcc/

한국어 원시 말뭉치 공유 – 자연어처리 연구 자료로 활용

복합명사 분해모듈

https://github.com/hyunyoung2/Hyunyoung2_Korean_Compound_Noun_Decomposition

복합명사 분해기 소스, 2018 차세정 언어처리 경진대회참가(우수상)

자동 띄어쓰기학습 데이터15,000 문장

https://sites.google.com/site/koreanlp2018/task-1

2018 차세정 언어처리 경진대회사이트(자동 띄어쓰기)자동 띄어쓰기 경진대회에 참가한팀에서 학습데이터로 활용함

연구성과물 공개, 배포 (1,2차년도)

자동 띄어쓰기용평가 데이터1,000 문장

https://sites.google.com/site/koreanlp2018/task-1

2018 차세정 언어처리 경진대회사이트(자동 띄어쓰기)자동 띄어쓰기 경진대회에서제출한 시스템 성능평가에 활용함

한국어 복합명사분해용평가데이터

https://sites.google.com/site/koreanlp2018/task-2

2018 차세정 언어처리 경진대회사이트(복합명사분해)복합명사 분해경진대회에서 제출한 시스템 성능평가에 활용함

자동띄어쓰기모듈(부산외대)

https://github.com/ask4git/BUFS_KoSpacing

부산외대에서 개발한 한국어 자동띄어쓰기 모듈의 소스와 리소스공개

차세정 언어처리경진대회 2018

https://sites.google.com/site/koreanlp2018/home

한국어 자동 띄어쓰기, 복합명사분해 경진대회, 학습데이터 및평가데이터, 제출 시스템, 평가결과를 공개함

(정서 장애 분석을위한) 감성 언어자원 수집기

https://github.com/HanInformatics/SentimentAnalysis

정신의학신문 기사 수집, 국가정보포털 정신의학용어류수집, (향후) 정서 장애 용어와텍스트 기사간 연관성 분석

한국어 품사태거http://www.cis.uni-muenchen.

de/~schmid/tools/TreeTagger/

한국어 품사태깅 말뭉치를

이용한 품사태거 구현

Page 12: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

• 한글 텍스트에 대한 Word Cloud 분석• Unigram, Bigram 어절 분석• 어절 빈도 linear chart (KCC 말뭉치와 비교)• KCC150 말뭉치에 대한 ngram 분석결과 표시

Demo: 한글 텍스트 분석http://203.246.112.72/konltk

Demo: 노래 가사 생성(딥러닝 기법)

• Sample 가사에서seed 추출, 라인단위로 생성

• Seed값 수정 가능

• 동일한 seed라도생성할 때마다 다른 노래가사 생성

http://203.246.112.72/konltk/poem

Page 13: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

Demo: 한국어 의존 파서http://203.246.112.72/konltk/dependency

• 전이기반 파서

• 딥러닝 기법

• 품사태거는 TreeTagger

23

KMU Natural Language Processing Laboratory

3, 4차년도 계획

3차년도: 2019.06.01 ~ 2020.05.31 (12개월)

4차년도: 2020.06.01 ~ 2020.12.31 ( 7개월)

Page 14: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

한국어 정보처리 원천기술개발25

1세부: 연구 계획 (3,4차년도)

언어자원 구축 및딥러닝 기술개발

한국어 언어자원확장구축 및 배포

한국어 언어처리딥러닝 기술개발

언어자원 및 언어처리기술의 활용, 서비스

한국어 언어자원공개 및 API 개발

Open API

FeedbackApplication

한국어 정보처리 원천기술개발26

1세부: 연구 계획 (3,4차년도)

연세대 이민행, 서강대 조은경

- 국어학/언어학 분야에서 언어자원 구축, 활용

• 국어학/언어학 분야의 언어자원 활용 교육, 연구

• 한국어 감성사전 확장 구축, multi-word expression

부산외대 류법모

- 구문 태깅 말뭉치, 경진대회용 평가셋 구축

• 구문 태깅 말뭉치 확장 구축 및 활용

• 말뭉치 성능 평가, 품질 개선, 활용 방안

성결대 한경수

- 미등록어와 복합어 수집, 정비, 활용

• 미등록어 자동수집, 정비, 활용

• 성능 평가, 품질 개선, 활용 방안

전북대 오효정

- 품사 태깅 말뭉치, 경진대회용 평가셋 구축

• 품사 태깅 말뭉치 확장 구축

• 말뭉치 성능 평가, 품질 개선, 활용 방안

국민대 강승식

- 언어자원 구축, 상황인지 및 사용자의도파악• BigText 말뭉치 확장 구축(원시/태깅 말뭉치)

• 딥러닝 기법을 이용한 한국어 정보처리 기술

• 상황인지, 사용자 의도파악 기술 연구개발

연세대 김한샘

- 구어체/대화 말뭉치 및 언어 자원 활용

• 구어체/대화 말뭉치 확장 구축

• 국어학 분야의 언어자원 활용

언어자원 구축 및딥러닝 기술 개발

Page 15: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

한국어 정보처리 원천기술개발27

1세부: 연구 계획 (3,4차년도)담당 2차년도 연구 계획

국민대 강승식

언어자원 구축, 상황인지 및 사용자 의도파악 기술 개발– 대규모 BigText 말뭉치 구축 및 배포 (open API, 파이썬 플랫폼)– 딥러닝 기법을 이용한 한국어 정보처리 기술 개발– 상황인지 및 사용자 의도파악 기술 연구 개발

연세대 김한샘 구어체/대화 말뭉치 및 언어자원 활용

– 구어체/대화 말뭉치 구축 및 활용– 국어학 분야의 언어자원 활용

전북대 오효정 품사 태깅 말뭉치, 경진대회용 평가셋 구축

– 품사 태깅 말뭉치 구축 및 활용– 경진대회용 평가셋 구축 및 활용

부산외대 류법모 구문 태깅 말뭉치, 경진대회용 평가셋 구축

– 구문 태깅 말뭉치 구축 및 활용– 경진대회용 평가셋 구축 및 활용

연세대 이민행서강대 조은경성결대 한경수

한국어 코퍼스 언어학에서 활용 방안 감성사전 구축 및 활용 미등록어와 복합어 수집, 정비, 활용

KMU Natural Language Processing Laboratory

향후 계획: 사업화 추진 및 사회문제 해결 시스템 개발

1. Multi-turn 대화 엔진

2. 보이스 피싱 탐지 및 피해 예방 시스템

3. 심리상태 인지 및 자살 예방 시스템

Page 16: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

1. Multi-turn 대화엔진: 상황인지, 사용자 의도파악

29

Exmaple Scenario

30

Page 17: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

자동차 운전 중 네비게이터 작동 multi-turn script 구현 예제

31

32

Page 18: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

2. 보이스 피싱 탐지 및 피해 예방 시스템

• 피해 규모 (2006년~2018년 상반기까지)– 건수: 총 16만건 발생– 총 피해액: 1조5천억원

• 2018년 1월~10월 피해액: 3,340억원– 전년(1,524억원) 대비 83.9% 증가– 피해자 21,006명으로 56.4%(7,573명) 증가– 매일 100명이 8억6천만원 피해– 대포통장: 12,365건(같은 기간 35.2% 증가)

33

3. 심리상태 인지 및 자살 예방 시스템

34

Page 19: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

차세정 언어처리 경진대회 &

다중 언어분석기를 이용한형태-구문분석 말뭉치 반자동 구축

2019년 2월 19일

부산외국어대학교, 전북대학교

류법모, 오효정

1

자동띄어쓰기, 복합명사 분해 시스템 경진대회 https://sites.google.com/site/koreanlp2018/

학습 및 평가데이터 구축 및 공개자동 띄어쓰기 학습데이터 15,000문장자동 띄어쓰기 평가데이터 1,000문장복합명사 분해 평가데이터 2,000 개

문제 정의, 참가시스템, 학습 및 평가데이터, 참가 시스템 개요 최진혁, 류법모, 오효정, "자동띄어쓰기 오류 수정 및 복합명사 분해 개요: 2018 차세

정 언어처리 경진대회", 제30회 한글 및 한국어 정보처리 학술대회 논문집 (2018년)

2

차세정 언어처리 경진대회

Page 20: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

목표

국민대, ETRI, 울산대 형태-구문분석기를 이용하여 반자동으로 형태-구문분석 말뭉치 구축

방법

자동분석 결과 중 서로 다른 결과를 자동수정 규칙 또는 수작업으로 검증

토큰의 단위1. 띄어쓰기 단위2. “.”, “!”, “?”, “’”, “””, “…” 등 기호 분리

• “철수,” “철수”, “,” 2개의 토큰

3

형태‐구문분석 말뭉치 반자동 구축

1. 형태소/구문 분석

4

국민대 제공/신문기사신문기사

원시말뭉치(740,460문장)

울산대 형태소 구문 분석

형태소 및 구문분석 말뭉치

ETRI 형태소 구문 분석

형태소 및 구문분석 말뭉치

국민대 형태소 분석

형태소분석 말뭉치

2. 형태소분석 통합 정답셋 구축

3. U‐POS 정답셋 변환

4.U‐Dependency 정답셋 구축

강승식

류법모

오효정/김한샘

오효정/김한샘

류/오/김/이공주

Page 21: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

5

2. 형태소분석 통합 정답셋 구축 :형태소 분석 결과 비교

1. 형태소 분석

ETRI 울산대 국민대2‐1 2‐2 2‐3

모두 같음 모두 다름

1 3

구분 내역 어절 수

1 세 기관 모두 같음 8,110,315 정답으로 간주

2-1 울산대/국민대 같고 ETRI만 다름 550,679형태소 분석 결과 유형별Top 100 검증-> 일괄 변환

2-2 ETRI/국민대 같고 울산대만 다름 686,368

2-3 ETRI/울산대 같고 국민대 다름 422,960

3 세 기관 모두 다름 248,087 수작업 검증

74만 문장/ 900만 어절 (by 강승식 교수님)

6

형태소 분석 비교 예시 (1)

ETRI Ulsan

1 NNG+NNG 48,742 # sent_id = 150089

# text = 자전거 사랑 지난해 여름 한국에 들어가서 처음으로 그녀를 만났다 .

1자전거 자전 거 UPOS NNG+NNG 1자전거 자전거 UPOS NNG3지난해 지난 해 UPOS NNG+NNG 3지난해 지난해 UPOS NNG

2 NNG+NNG+JKO  29,708 # sent_id = 150103

# text = 그녀와 결혼한 지금도 우리는 금요일 오후에는 자전거를 타고 집 근처를 산책하거나 가까운 호수로 낚시를 하러 간다 .

5금요일 금 요일 UPOS NNG+NNG 5금요일 금요일 UPOS NNG

7자전거를자전 거를

UPOS NNG+NNG+JKO 7자전거를 자전거 를 UPOS NNG+JKO

3 NNG+XSN  29,143 # sent_id = 150131# file = x150_next_gen# text = 소대원 모두가 그가 가지고 올 음식을 기다리고 있다가 마침내 음식은 그만두고라도 제발 돌아오기만을 애타게 바라는 처지가 되고말았다 .

1소대원 소대 원 UPOS NNG+XSN 1소대원 소대원 UPOS NNG5올 올 UPOS NNG 5올 오 ㄹ UPOS VV+ETM

2‐1) 울산대/국민대 같고 ETRI만 다름Top 100 (550,679어절 중 499,565어절 cover)

Page 22: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

7

형태소 분석 비교 예시 (2)

2‐2) ETRI/국민대 같고 울산대만 다름Top 100 (686,368어절 중 670,225어절 cover)

ETRI Ulsan

1VV+EC 173,744 # sent_id = 300003

# text = 여기서 과거 시제는 카트로첸토라는 말이 과거에는 있었고 지금은 없다는 것을 의미하지 않는다 .

11의미하지의미 하지

UPOS NNG+XSV+EC 11의미하지 의미하 지 UPOS VV+EC

2VV+ETM 163,862 # sent_id = 450095# text = 물에 뜨는 것도 있고 , 물에 가라앉는 것도 있었고 , 뿌옇다가 맑아지는 것도 있었다 .

12맑아지는맑 아 지는

UPOS VA+EC+VX+ETM 12맑아지는 맑아지 는 UPOS VV+ETM

3VA+ETM 45,662 # sent_id = 450661# text = 나는 가한테 미안한 생각이 들었다 .

3미안한미안 하ㄴ

UPOS NNG+XSA+ETM 3미안한 미안하 ㄴ UPOS VA+ETM

8

형태소 분석 비교 예시 (3)

2‐2) ETRI/울산대 같고 국민대만 다름Top 100 (422,960어절 중 300,556어절 cover)

Ulsan KMU

(1) xr+xsa+etm 46,935 

# sent_id = 2# text = 남미풍의 강렬한 원색끼리의 조화 , 수채화 같이 안온한 배색 등 색의 분위기를 강조하는 기하학적 무늬 , 꽃무늬 디자인이 주류를이루고 있다 .

2강렬한 강렬하 ㄴ UPOS VA+ETM 2강렬한강렬+하+

ㄴNOUN xr+xsa+etm

21있다 있 다 UPOS VX+EC 21있다 있+다 VERB vx+ef(2) vv+etm 38,518 

# sent_id = 4# text = 매일 욕실에서 1시간 반 이상을 보낸다는 그는 체조와 텔레비전 시청 , 식사까지 할 수 있는 욕실이 나와야 한다고 주장할 정도다 .

31시간 1 시간 UPOS SN+NNB 31시간 1+시간 NOUN sn+nng15있는 있 는 UPOS VA+ETM 15있는 있+는 VERB vv+etm

(3) vv+ec 31,969 

# sent_id = 31# text = 임부는 몸 움직임이 느려 자칫 둔해 보일 수 있으므로 특히 직장에서는 경쾌한 분위기를 내는 것이 중요하다 .

9있으므로 있 으므로 UPOS VA+EC 9있으므로 있+으므로VERB vv+ec

12경쾌한 경쾌하 ㄴ UPOS VA+ETM 12경쾌한경쾌+하+

ㄴNOUN xr+xsa+etm

Page 23: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

9

3. U‐POS 정답셋 변환 자동 형태소분석 결과를 기반으로 “자동 수정 규칙“, “수작업검증 기준”, “가이드라인” 준비 중 : 전북대, 연세대

신문기사원시말뭉치(740,460문장)

울산대 형태소 구문 분석기

형태소 및 구문분석 말뭉치

ETRI 형태소 구문 분석기

형태소 및 구문분석 말뭉치

품사 정규화 및 통합

4. 의존 구문분석 말뭉치 구축

10

국민대 제공/신문기사

Page 24: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

DB 테이블 구조예문) 제품 가격에 따라 품질의 차이가 크지 않으나 특히 5천원 미만의 제품은 대부분 고무 밴드가 쉽게 찢어지는 게 흠이었다 .

11

ETRI 분석 결과 울산대 분석 결과

• 길이가 500자 이상인 문장, 문장구조가 일반적이지 않은 12문장 제외• string_id=43423 김상하 대한 상공 회의소 회장 한호상 농협 중앙회 회장 박상규 중소 기

업 협동…• string_id=230168 한 문장이 채 되지 않는 이야기 그는 나무 밑에서 울고 있었는데 나무는

4백 년….

• 형태소 분석결과 정규화• 명사 정규화 규칙 : NNG + NNG NNG / NNG + XSN NNG

- 재무 제표 를 (NNG+NNG+JKO) 재무제표 를 (NNG+JKO)- 재미 과학 자(NNG+NNG+XSN) 재미과학자(NNG)

• 동사 정규화 규칙 : NNG + XSV VV- “분해 하 는”(NNG+XSV+ETM) “분해하 는”(VV+ETM)

12

전처리 / 정규화

Page 25: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

전처리 이전 전처리 이후

어절 형태소 분석 결과 종류 12,152 개 8,915 개

형태소 분석이 같은 어절 8,420,803어절(84.08%)

8,939,423어절(89.23%)

형태소 분석이 다른 어절 1,594,217어절 1,078,988어절

의존관계(의존소, 지배소) 형태소 분석이동일

4,943,506어절(49.35%)

5,594,978어절(55.85%)

13

형태소 분석결과 통계

• ETRI, Ulsan 형태소 분석결과 모두 동일한 문장: 53,800문장 (전체 740,460문장)

14

형태소 분석결과 비교

• ETRI, Ulsan 형태소 분석결과 모두 동일한 문장: 53,800문장

문장수 모든문장에 대한 비율형태소분석오류의 개수가 동

일한 문장에서의 비율

의존소의 형태소분석이 모두 동일한 문장의 개수

5어절 이하 5,357  0.72% 9.96%

6어절~10어절 20,741  2.80% 38.55%

11어절~20어절 18,958  2.56% 35.24%

20어절 이상 8,744  1.18% 16.25%

의존소의 형태소분석이 하나가다른 문장의 개수

5어절 이하 28,614  3.86% 6.87%

6어절~10어절 143,690  19.41% 34.51%

11어절~20어절 175,716  23.73% 42.20%

20어절 이상 68,361  9.23% 16.42%

의존소의 형태소분석이 두개가다른 문장의 개수

5어절 이하 4,655  0.63% 2.49%

6어절~10어절 44,341  5.99% 23.76%

11어절~20어절 97,008  13.10% 51.97%

20어절 이상 40,654  5.49% 21.78%

의존소의 형태소분석이 셋이상다른 문장의 개수

5어절 이하 307  0.04% 0.37%

6어절~10어절 8,044  1.09% 9.62%

11어절~20어절 39,891  5.39% 47.70%

20어절 이상 35,379  4.78% 42.31%

Page 26: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

ETRI의존소 품사지배소가 다른

비율[D/(C+D)]

지배소 같은어절 수

지배소 다른어절 수

지배소 다른 비율

(전체 지배소 다른 어절 중)[D/SUM(D)]

지배소 다른어절 누적[D 누적]

지배소 다른어절 누적 비

율[F/SUM(D)]

SF 100.00% 26 735717 30.81% 735717 30.81%

SP 72.50% 79655 210015 8.79% 945732 39.60%

NNG+JX 37.62% 235508 142019 5.95% 1087751 45.55%

VV+EC 7.21% 1468784 114156 4.78% 1201907 50.33%

MAG 80.02% 27199 108901 4.56% 1310808 54.88%

NNG 29.43% 259212 108075 4.53% 1418883 59.41%

VV+ETM 9.71% 761452 81911 3.43% 1500794 62.84%

NNG+JKO 14.33% 357493 59815 2.50% 1560609 65.34%

NNG+JKG 35.93% 98616 55297 2.32% 1615906 67.66%

NNG+JKB 13.23% 337348 51430 2.15% 1667336 69.81%

MAJ 99.87% 64 50756 2.13% 1718092 71.94%

NP+JX 89.96% 5032 45077 1.89% 1763169 73.83%

NNG+JC 48.37% 37072 34730 1.45% 1797899 75.28%

NNG+JKS 12.82% 234943 34538 1.45% 1832437 76.73%

NNB 17.70% 140977 30325 1.27% 1862762 78.00%

VA+ETM 19.83% 104706 25903 1.08% 1888665 79.08%

VA+EC 12.14% 179948 24862 1.04% 1913527 80.12%

NNG+JKB+JX 32.53% 51189 24677 1.03% 1938204 81.15%

NNP+JX 70.26% 9845 23264 0.97% 1961468 82.13%

VX+EC 13.14% 143186 21668 0.91% 1983136 83.04%

MM 81.73% 4756 21274 0.89% 2004410 83.93%

VV+EP+EC 4.93% 385197 19992 0.84% 2024402 84.76%

NNG+VCP+EC 14.75% 92928 16083 0.67% 2040485 85.44%

VX+ETM 12.63% 107038 15477 0.65% 2055962 86.09%

NNB+JX 19.68% 63082 15454 0.65% 2071416 86.73%

VV+EP+EF 33.83% 28299 14470 0.61% 2085886 87.34%

NNG+VCP+ETM 29.09% 31707 13007 0.54% 2098893 87.88%

VV+EF 36.57% 22219 12811 0.54% 2111704 88.42%

NNB+VCP+EF 51.03% 11154 11624 0.49% 2123328 88.91%

SN+NNB 49.95% 10549 10527 0.44% 2133855 89.35%

NNB+JKB 16.41% 50089 9834 0.41% 2143689 89.76%

NNP JKG 66 10% 4950 9652 0 40% 2153341 90 16%

15

의존관계 비교

ETRI 의존소 품사태그 기준으로 지배소가 서로 다른 의존소

지배소가 다른 어절 : 2,388,281어절(의존소의 형태소 분석 결과가 같은 어절 중)

2,536 개

지배소가 다른 비율이 높은 경우• SF, SP, MAG, MAJ, NP+JX, NNP+JX, 

MM

• 2,536가지 형태소분석 결과 (품사태그 기준) 중 상위 33개가 90.16%를 차지

0.00%

10.00%

20.00%

30.00%

40.00%

50.00%

60.00%

70.00%

80.00%

90.00%

100.00%

16

의존관계 비교 : 지배소가 서로 다른 의존소

• 의존소의 형태소 분석이 동일하면서 지배소가 다른 분석결과 누적 분포 (ETRI 분석 결과 기준 )

의존소의 형태소 분석결과 (ETRI)

Page 27: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

울산대 지배소 ETRI 지배소의존관계 차이 유형 분석 – SF (30.81%)

~재산 범죄는 급격히 많아진 것으로 나타났다 .

root

나타나 았 다(VV+EP+EF)

string_id=39 eojeol_id=25

~작품들에서 두드러지는 것은 색의 조화다 .

조화 이 다 (NNG+VCP+EF)

string_id=1 eojeol_id=14root

모든 SF중 서로 다른 지배소를 참조하는 비율: 99.99%(정책적인 차이)

17

울산대 지배소 ETRI 지배소의존관계 차이 유형 분석 – SP (8.79%)

생활 하 ㄹ(VV+ETM)

완치 되 ㄹ(VV+ETM)

string_id=2941 eojeol_id=15 백혈병이 불치의 병이 아니고 , 완치될 경우 건강하게 생활할 수 있음을 직접 ~

꺼내 어(VV+EC)

이부자리 도(NNG+JX)

string_id=156 eojeol_id=10 방문을 열어 놓고 자는 여름습관을 빨리 바꾸고 , 이부자리도 가을용을 꺼내 쓰도록 한다 .

모든 SP중 서로 다른 지배소를 참조하는 비율: 72.50%

18

조사 되 었 다(VV+EP+EC)

금액 으로 는(NNG+JKB+JX)

string_id=1213 eojeol_id=12 가구당 평균 4.47건 , 금액으로는 총 14만 9천원꼴로 조사됐다 .

Page 28: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

SF, SP 처리 방법

19

“.”, “?”, “!”, “,”의 지배소는 항상 앞 토큰 중에서 찾음 (자동)

앞 토큰이 명사인 경우

앞 토큰이 용언인 경우

앞 토큰이 보조용언인 경우

가구당 평균 4.47건 , 금액으로는 총 14만 9천원꼴로 조사됐다 .

punct

방문을 열어 놓고 자는 여름습관을 빨리 바꾸고 , 이부자리도 가을용을 꺼내 쓰도록 한다 .

punct

흩어져 있는지 ,

punct

punct

punct

aux

울산대 지배소 ETRI 지배소의존관계 차이 유형 분석 – NNG+JX (5.95%)

가열 하 면(VV+EC)

있 다(VA+EF)

string_id=65 eojeol_id=9 ~ 경우 경보음이 나는 열감지형은 라이터불로 가열하면 확인할 수 있다 .

우려 되 고(VV+EC)

오르 ㄹ(VV+ETM)

string_id=920 eojeol_id=16

~ 원료인 나프타 가격도 급등 , 석유 화학 제품을 비롯한 공산품 가격이 크게 오를 것으로 우려되고 있다 .

. (SF)

떨 었 다(VV+EP+EF)

string_id=1257 eojeol_id=6 기껏 표주박에 탁주 마시는 주제에 대포라고 너스레를 떨었다 .

모든 NNG+JX중 서로 다른 지배소를 참조하는 비율: 37.62%

20

보조용언은지배소가 될

수 없음

SP, SF는 지배소가 될 수 없

Page 29: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

울산대 지배소 ETRI 지배소의존관계 차이 유형 분석 – VV+EC (4.78%)

감소 하 ㄴ다(VV+EC)

대 하 ㄴ(VV+ETM)

string_id=2552 eojeol_id=4eojeol=‘올리면’

일반 상품의 값을 올리면 공산품에 대한 수요는 감소한다 .

싸 게(VV+EC)

먹 고(VV+EC)

string_id=94283 eojeol_id=4 eojeol=‘들러’

나들이 후 잠깐 들러 평소 먹고 싶었던 빵을 싸게 사 나눠먹어도 좋을듯하다 .

, (SP)

뿌리 ㄴ다(VV+EF)

string_id=77207 eojeol_id=3 eojeol=‘되고’

수증기는 구름이 되고 , 구름은 온 세상에 비를 뿌린다 .

모든 VV+EC중 서로 다른 지배소를 참조하는 비율: 7.21%

21

형태소 분석공통 오류

“~에 대하, ~를위하” 처리 필요

울산대 지배소 ETRI 지배소의존관계 차이 유형 분석 –MAG (4.56%)

부담 하 어야(VV+EC)

들 는(VV+ETM)

string_id=63792 eojeol_id=1eojeol=‘물론’

물론 여기에 드는 비용은 관련기업은 물론 재정에서도 상당한 몫을 부담해야 한다 .

꼽히 ㄹ(VV+ETM)

무모 하 ㄴ(NNG+XSA+ETM)

string_id=5453 eojeol_id=3 eojeol=‘상당히’

투자자들의 행동도 상당히 무모한 나라로 꼽힐 것 같다 .

당 하 ㄴ(VV+ETM)

끔찍 하 ㄴ(NNG+XSA+ETM)

string_id=104060 eojeol_id=5 eojeol=‘꼭’

그런데 중학교에 들어간 지 꼭 열흘만에 그처럼 끔찍한 변을 당한 것이었다 .

모든 MAG중 서로 다른 지배소를 참조하는 비율: 80.02%

22

Page 30: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

울산대 지배소 ETRI 지배소의존관계 차이 유형 분석 –MAJ (2.13%)

중단 되 면(VV+EC)

예상 되 고(VV+EC)

string_id=520 eojeol_id=1 eojeol=‘따라서’

따라서 탈퇴형 보험의 판매가 중단되면 생보 업계는 자금 수급에 큰 애로를 겪게 될 것으로 예상되고 있다 .

모든 MAJ중 서로 다른 지배소를 참조하는 비율: 99.87%

유감 스럽 게 도(NNG+XSA+EC+JX)

그렇 지 가(VA+EC+JX)

string_id=1533 eojeol_id=1 eojeol=‘그러나’

그러나 유감스럽게도 오늘 이 시점의 현상은 그렇지가 못하다 .

23

울산대 지배소 ETRI 지배소의존관계 차이 유형 분석 – NP+JX (1.89%)

살아가 도록(VV+EC)

노력 하 여야(VV+EC)

string_id=1505 eojeol_id=2 eojeol=‘우리는’

이제 우리는 규정대로 , 규칙대로 살아가도록 노력해야 한다 .

모든 NP+JX중 서로 다른 지배소를 참조하는 비율: 89.96%

대 하 ㄴ(VV+ETM)

훼손 이 다(NNG+VCP+EF)

string_id=25768 eojeol_id=1 eojeol=‘이것은’

이것은 검찰의 중립성과 공신력에 대한 스스로의 훼손이다 .

생각 하 ㄴ다(VV+EC)

있 어야(VA+EC)

string_id=24580 eojeol_id=1 eojeol=‘우리는’

우리는 거듭 일본의 올바른 역사 인식과 사죄가 있어야 한다고 생각한다 .

24

“~에 대하, ~를위하” 처리 필요

Page 31: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

울산대 지배소 ETRI 지배소의존관계 차이 유형 분석 –MM (0.89%)

소리 를(NNG+JKO)

흥분 되 ㄴ(VV+ETM)

string_id=1344 eojeol_id=5eojeol=‘무슨’

기수는 이따금 헝가리 말로 무슨 흥분된 소리를 부르짖곤 했다 .

의미 는(NNG+JX)

따뜻 하 ㄴ(NNG+XSA+ETM)

string_id=28370eojeol_id=4 eojeol=‘그’

어디에도 평등과 동포의 그 따뜻한 의미는 찾아 볼 수가 없다 .

모든 MM중 서로 다른 지배소를 참조하는 비율: 81.73%

대통령 보다(NNG+JKB)

미국(NNP)

string_id=31355 eojeol_id=7 eojeol=‘어느’

의지는 어느 미국 대통령보다 오래 살아남을 것이다 .

25

MM은 용언을수식하지 못함

MM은 용언을수식하지 못함

26

계획

형태소 분석 검증된 문장 추출 (전북대, 연세대)

약 30,000문장 예상 (약 36만 토큰)

(참고) 세종 구문분석 말뭉치 약 60,000문장

구문분석 말뭉치 생성 (부산외대)

자동분석결과 일치하지 않는 의존관계 수 : 약 50,000- 60,000개

자동 수정 규칙 적용

수작업 검증

Page 32: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

다중 형태 주석 결과 분석UD 말뭉치 변환 연구대화 시스템을 위한 주석 대화 말뭉치 구축

김한샘

-2-

다중 형태 주석 결과 분석

Page 33: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

-3- 3

형태 분석 통합 정답셋 구축: 형태 분석 결과 비교

1. 형태소 분석

ETRI 울산대 국민대

2-1 2-2 2-3

모두 같음 모두 다름

1 3

구분 내역 어절 수

1 세 기관 모두 같음 8,110,315 정답으로 간주

2-1 울산대/국민대 같고 ETRI만 다름 550,679 형태소 분석 결과 유형별

Top 100 검증-> 일괄 변환

2-2 ETRI/국민대 같고 울산대만 다름 686,368

2-3 ETRI/울산대 같고 국민대 다름 422,960

3 세 기관 모두 다름 248,087 수작업 검증

74만 문장/ 900만 어절 (by 강승식 교수님)

-4-

일치 유형별 TOP 100 검토 1 – 울산대만 불일치

고유명사 처리, 어미 세부 유형 변별

Page 34: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

-5-

일치 유형별 TOP 100 검토 2 – ETRI만 불일치

품사 변별

-6-

일치 유형별 TOP 100 검토 3 – 국민대만 불일치 + 전체

용언과 체언의 통합 및 분석

Page 35: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

-7-

UD 말뭉치 변환 연구

-8-

UD와 한국어 구문 분석 말뭉치

Page 36: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

-9-

세종계획 형태 주석 표지의 Universal POS 변환 규칙안

-10-

Universal Dependency Relations

Page 37: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

-11-

세종계획구문분석표지의 deprel변환규칙안

세종구문주석 UD 주석 세종구문주석 UD 주석

L 왼쪽부호 punct AP_OBJ 부사구_목적어 advmod

R 오른쪽부호 punct AP_MOD 부사구_관형어 advmod

NP_SBJ 체언_주어 nsubj, csubj AP_CMP 부사구_보어 advmod

NP_OBJ 체언_목적어 obj VNP_SBJ 긍정지정사구_주어 nsubj

NP_MOD 체언_관형어 nmod, amod, nummod VNP_OBJ 긍정지정사구_목적어 obj

NP_AJT 체언_부사어 obl VNP_MOD 긍정지정사구_관형어 acl, amod

NP_CMP 체언_보어 obl VNP_AJT 긍정지정사구_부사어 advcl

NP_CNJ 체언_접속어 conj VNP_CMP 긍정지정사구_보어 dep

VP_SBJ 용언_주어 csubj VNP_CNJ 긍정지정사구_접속어 conj

VP_OBJ 용언_목적어 obj, ccomp DP_SBJ 관형사구_주어 dep

VP_MOD 용언_관형어 acl, amod DP_OBJ 관형사구_목적어 dep

VP_AJT 용언_부사어 dep DP_MOD 관형사구_관형어 amod

VP_CMP 용언_보어 dep DP_AJT 관형사구_부사어 dep

VP_CNJ 용언_접속어 conj DP_CMP 관형사구_보어 dep

AP_SBJ 부사구_주어 advmod DP_CNJ 관형사구_접속어 dep

-12-

대화 시스템을 위한 주석 대화 말뭉치 구축

Page 38: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

-13-

대화시스템개발의현재

대화 시스템 구현 방식 시스템 구현 방식에 따라 규칙 기반(rule-based) 시스템과 데이터

기반(corpus-based) 시스템으로 유형화 데이터 기반 시스템은 다시 IR-based 시스템과 end-to-end learning

시스템으로 구분 가능– IR-based 시스템은 발화 유사성을 이용한 모델 및 발화 맥락 임베딩을

이용한 복합 모델 등이 있음.– End-to-end 시스템은 생성 모델로서 대용량의 훈련 데이터를 필요로 함.

주로 대사 데이터나 트위터 데이터 등을 이용하는 경우가 많음.

현재 주류 개발 방식은 데이터 기반 방식 훈련 및 평가를 위한 대량의 발화 데이터가 필요

– 텍스트에 온톨로지를 부과하거나 frame 적용 현재 상황

– 시스템 개발을 위한 충분한 양과 품질의 데이터가 부족– 특정 목적 기반 시스템과 일반 목적 시스템의 통합의 필요성

-14-

현황: 대화 시스템 개발과 관련된 이슈 (1)데이터의 부족 실제 발화 데이터 수집과 관련된 난제

충분한 양의 실제 발화 데이터 수집의 어려움많은 비용 및 시간 투입의필요발화 자료의 수집과 관련된 프라이버시 문제 e.g. 무작위 수집의 문제, 최근 AI 스피커를 통한 발화 자료 수집의 윤리적 문제 등 대두실제 발화 자료에는 많은 노이즈 존재불연속적 발화, 단편적 발화 등입력데이터로 활용 위해서는 많은 단계의 전처리 필요필요한 만큼의 다양한 종류의 발화를 수집하는 것이 쉽지 않음 – 인구학적다양성 및 상황적 다양성

Page 39: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

-15-

현황: 대화 시스템 개발과 관련된 이슈 (2)특정 목적 시스템과 일반 목적 시스템의 통합의 필요성 out-of-domain 대화 상황의 처리 필요성

특정 목적 시스템 – in-domain 대화 (다음 슬라이드)특정 과업 수행을 위한 대화 시스템상대적으로 적은 양의 데이터로 개발 가능Out-of-domain 대화 상황 발생 시 유연한 대처 불가능두 가지방식으로 처리 (“Sorry, I have no idea.” 전략과 모호한 응답 전략)부적합한 응답의 수시 발생대화의 흐름이 자주 끊어짐예상치못한 입력 발화로 인해 발생

일반 목적 시스템 (chatbot 시스템)챗봇 스타일의 시스템이 out-of-domain 대화 상황을 처리하는 데 도움을줄 수 있음다양한 대화 상황을 통한 학습으로 out-of-domain 대화 상황에 대한 보다유연한 대처 가능

-16-

상용화 대화 시스템의 작동 방식Frame-based 대화 시스템 (digital assistants의 경우)

Page 40: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

-17-

Yonsei-ScriptDialog 말뭉치의 특징현재 대화 시스템 개발과 관련된 두 가지 이슈들의 해결 목적

데이터의 부족 및 out-of-domain 상황에서의 대처 능력 향상

대용량의 대화 말뭉치 지향실제 발화 대신 대본 발화를 이용함으로써 대용량 데이터 확보 가능대본 발화의 실제 발화와의 유사성 (pseudo-dialogue)o movie language can be regarded as a potential source for teaching and learning spoken language features” (Forchini. 2009)

실제 발화에 비해 노이즈가 적음두 사람 간의 대화 상황으로 재구성 (그 외 다자간 대화 상황도 같이 포함)원시 말뭉치의 재가공다양한 주석의 시도 – 대화 상황의 메타 정보, 대화 행위, 감정 등데이터세트 산출을 위한 workflow 구축데이터의 양적 확대 (scalability)및 관리(management)의 용이성용이한 업데이트

-18-

대용량의 대화 말뭉치 지향

현재 구축된 대화 말뭉치 규모 (원시 말뭉치 기준)

계속 확대 중구축 완료 데이터에 대한 주석 작업 진행 (메타 정보 및 대화 주석)

라인 수(텍스트 기준)

전체 어절 수 발화의 수 발화 어절 수발화 당 평균

길이 (어절 수)

356,960 2,587,084 241,960 1,592,759 6.74

Page 41: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

-19-

보다 적은 노이즈

일반적인 구어(대화) 말뭉치 구축의 과정발화자 섭외녹음(녹화) 음성(영상) 에디팅(후처리)전사(transcription) 전사 텍스트 에디팅(후처리)각 단계마다 노이즈 발생의 위험성이 높음예: 발화자 섭외 단계(다양한 발화자 확보, 프라이버시 문제 등), 녹음단계(녹음의 품질 문제), 전사 단계 (전사 작업의 가이드라인 및 전사결과물의 품질 문제)

실제 발화의 경우불완정한 형태의 발화, 단편적인 발화 및 중복 발화가 종종 발생많은 비표준 형태 및 슬랭 표현의 존재

대본 데이터의 경우 실제 발화와 유사하나 노이즈는 보다 적음(대본 데이터에도 많은 노이즈가 존재하며 처리 작업에 많은 시간비용 역시 필요)상용화 시스템의 경우 이미 스크립트 대화나 시뮬레이션 대화자료를 많이 이용.

-20-

양자간 대화(bipartite conversation) 중심 데이터

양자간 대화 데이터가 대화 시스템의 훈련에 용이

양자간 대화 데이터의 구성전체 대화 데이터 중 두 사람간의 대화 상황을 우선 추출다자간 대화의 흐름을 재구성하여 양자간 대화로 변형 후 추출데이터의양적 확대를 위함. (변형 대화의 품질 확인 후 적용 결정)Tri-turn 대화 중심: A – B – A 유형 (e.g. A-B-A, A-B-A-B, A-A-B-A, A-B-B-A, …)물리적 발화가 나타나지 않을 경우 대신 silence, pause, surprise 등의표지를 추가

Page 42: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

-21-

다자간 대화

-22-

양자간 대화

Page 43: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

-23-

다양한 종류의 주석 시도

메타 정보 (대화 상황 (dialogue event) 자체에 대한 주석)발화자의 인구학적 정보성별, 연령대, (optional: 직업), (optional: 방언 사용 여부)발화량이 많은 주요 발화자 중심으로 주석 (발화자 전체 약 18800여 명 중70%에 대한 주석)대화 장소: 대화가 일어나는 장소에 대한 정보 (전체 대화 상황 9400여 개 중약 45%에 대한 주석)대화의 목적(task): 대화 상황 전체의 특정 목적 (특정한 목적이 없는일상적인 대화가 대다수를 차지함)

대화 행위 주석: DAs (Dialogue acts)발화의 의도, 대화 흐름에서 개별 발화의 기능

-24-

• 소개하기To greet

• 인사하기To greet

• 상담하기To consult and be consulted / To give and get counselling

• 신청하기To apply for public service

• 문의하기To ask for information and be informed

• 길 찾기 To give and be given direction

• 안내하기

• 초대하기To invite and be invited

• 약속하기To make an appointment

• 구매하기To buy and sell

• 주문하기To make an order and accept it

• 예약하기To reserve and accept

• 인터뷰하기 To inverview and be interviewed

• 제안하기To suggest

• 설명하기To explain and be explained

• 토론하기To discuss

• 설득하기To persuade and be persuaded

• 부탁하기To ask for something

• Airport 공항

• Bus terminal 버스 터미널

• Train station 기차역

• Cafe/Bar 카페, 바

• Home 집

• Hospital/Pharmacy 병원, 약국

• Office 사무실

• Public service center 은행, 관공서 등

• Restaurant 식당

• School 학교

• Street 길

• Shop 상점

• Hotel (lobby) 숙박(호텔 등의 로비, 프런트데스크)

• Others 기타

• Unknown

대화 장소 분류대화 목적 분류

Page 44: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

-25-

대화 행위 (DA)

대화 행위 주석발화 시 발화자가 가지고 있는 의도(the kind of intention that the speaker had)가 무엇인가? 어떤 목적을 이루고자 하는가? (what was he trying to achieve?)를 나타내는 정보

관련 개념Domains (= utterance situations)Activity types (cooperative negotiation, information extraction, problem solving, teaching/instruction, counselling, chatting, …)Sentence types (interrogative, imperative, declarative)Speech acts ( illocutionary force)

현재 일반 목적 대화 시스템을 위한 한국어 대화 행위 주석말뭉치는 대량으로 구축되어 있지 않음.

-26-

대화 행위 (DA)

대화 행위 태그셋의 유형일차원 태깅(One-dimensional tagging): 발화 당 하나의 태그e.g. SWBD-DAMSL

다차원 태깅 (Multi-dimensional tagging): 발화 당 하나 이상의 태그• general-purpose functions + dimension-specific functions (피드백, 대화

흐름 관리, 시간 관리, …)e.g. DIT++, ISO DA

주석의 단위발화(utterances) vs. 문장 (sentences)한국어에서 발화 단위 문제. 상호 대화 흐름에서 개별 발화를 어떻게 분리할것인가의 문제 (파편적 발화, 분리 발화 등) 존재

Page 45: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

-27-

대화 행위 (DA)

대화 행위 태그셋의 종류DAMSL (Dialog Act Mark-up in Several Layers): 220개 태그SWBD-DAMSL - “Application” of DAMSL to the Switchboard data: 42 tagsICSI-MRDA: 약 60개 태그MALTUSAMI (Decision tree type through yes/no dichotomy): 15 태그DIT++ (Dynamic interpretation theory): 약 95개 태그 (42개 이상의 general-purpose 태그, 51개의 domain-specific 태그)ISO: DIT++에 기반한 태그셋

-28-

대화 행위 (DA)

대화 행위 주석 체계의 결정Traum (2000)에 의하면 주석 체계를 결정할 때 다음 6가지를 고려할 필요

(1) Theory: the tagset should be related to a theory of the ‘functions’ that it annotates.(2) Insights from the data: the tagset should be compatible with observations on actual utterances, in a given domain.(3) Empirical validation: the DA set should be reliably tagged by human annotators (high inter-annotator agreement, e.g. using kappa).(4) Possibility of automatic tagging using the tagset, at a reasonable performance level.(5) Role of the application: the tagset should be designed depending on the targeted NLP application (mark relevant ‘functions’ instead of all ‘functions’).(6) Mapping to existing DA sets: the DA set should be reasonably compatible with previous tagsets (or at least compared to them) so that useful insights are preserved, and data can be reused.

Page 46: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

-29-

대화 행위 (DA)

추가로 실제 작업에서 고려할 사항실제 데이터에 적용 가능할 정도로 복잡하지 않을 것전체 태그셋 체계에 영향을 주지 않고 새로운 태그의 추가 및 삭제가 용이할것보다 간단한 태그셋으로 분류 가능할 것가능한 한 단순하고 구분이명확한 태그셋으로 분류 필요참조 및 비교 가능한 태깅 데이터(reference tagged data)가 있는가

위 조건들을 고려하여 SWBD-DAMSL 태그셋을 우선 고려대상으로 삼음. 추후 태그셋의 단순화 작업도 염두에 둠.

-30-

No name act_tag example

1Statement-non-opinion

sd Me, I'm in the legal department.

2Acknowledge(Backchannel)

b Uh-huh.

3 Statement-opinion sv I think it's great

4 Agree/Accept aa That's exactly it.

5Abandoned or Turn-Exit

% So, -

6 Appreciation ba I can imagine.

7 Yes-No-Question qyDo you have to have any specialtraining?

8 Non-verbal x [Laughter], [Throat_clearing]

9 Yes answers ny Yes.

10 Conventional-closing fc Well, it's been nice talking to you.

11 Uninterpretable % But, uh, yeah

12 Wh-Question qw Well, how old are you?

13 No answers nn No.

14ResponseAcknowledgement

bk Oh, okay.

15 Hedge hI don't know if I'm making any sense ornot.

16Declarative Yes-No-Question

qy^d So you can afford to get a house?

17 Otherfo_o_fw_by_bc

Well give me a break, you know.

18Backchannel inquestion form

bh Is that right?

19 Quotation ^q You can't be pregnant and have cats

20Summarize/reformulate

bfOh, you mean you switched schools forthe kids.

21Affirmative non-yesanswers

na It is.

22 Action-directive ad Why don't you go first

No name act_tag example

23CollaborativeCompletion

^2 Who aren't contributing.

24 Repeat-phrase b^m Oh, fajitas

25 Open-Question qo How about you?

26Rhetorical-Questions

qh Who would steal a newspaper?

27Hold beforeanswer/agreement

^h I'm drawing a blank.

28 Reject ar Well, no

29Negative non-noanswers

ng Uh, not a whole lot.

30Signal-non-understanding

br Excuse me?

31 Other answers no I don't know

32Conventional-opening

fp How are you?

33 Or-Clause qrr or is it more of a company?

34Dispreferredanswers

arp_nd Well, not so much that.

35 3rd-party-talk t3My goodness, Diane, get down fromthere.

36Offers, Options,Commits

oo_co_cc

I'll have to check that out

37 Self-talk t1 What's the word I'm looking for

38 Downplayer bd That's all right.

39 Maybe/Accept-part aap_am Something like that

40 Tag-Question ^g Right?

41Declarative Wh-

^d Y h t ki d f b ff?

SWBD-DAMSL 태그셋

Page 47: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

-31-

대화 행위 (DA) 주석 작업 (1)

반자동 작업 (자동 주석수작업 후처리)대용량 자료: 처음부터 수작업 주석 실시는 거의 불가능대화 행위 자동 주석의 가능성대화 행위 유형에서도 Zipf’s law 작동 (SWBD 데이터 분석 결과, 총 42개의대화 행위 중 상위 10개가 전체 발화의 약 82% 차지. 상위 20개가 약 90%를차지)

대화 행위 자동 주석 시스템딥러닝 모델 기반 주석기CNN 모델과 CNN + LSTM 결합 모델의 성능 비교 CNN 모델이 짧은문장의 분류에 보다 효과적으로 나타남 (학습 속도도 상대적으로 빠름)딥러닝 모델의 구축을 위한 한국어 학습 데이터의 부재기계번역 단계를중간 단계로 도입영어 데이터를 학습 데이터로 이용SWBD 데이터를 대상으로 구축 후 성능 확인정확도 71.2% (K = 0.63)SWBD 외 다른 종류의 학습 데이터 확보하여 확장 모델 구축 테스트 중대화 행위 외 감정(big 6 emotions) 주석 모델 구축 예정

-32-

대화 행위 (DA) 주석 작업 (2)

한국어 발화 데이터에 대한 테스트

SWBD 데이터 훈련 모델로 테스트약 64% (CNN+LSTM) - 70% (CNN) 정도의 성능일정한 유형의 Bias의 존재 – 훈련 데이터의 영향이 큰 것으로 예상보다 심층 모델의 구축 혹은 훈련 데이터의 확장 필요성능 평가 및 오류 유형 탐지오류 수정 대상의 범위 축소 (e.g. q s, ad s)하나의 turn에서 개별 발화를 어떻게 분리할 것인가의 문제가 있음분리 방식에 따라 자동 분류의 성능에 영향을 주는 것으로 확인

Page 48: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

-33-

테스트 결과샘플

-34-

데이터의 scalability 및 updatability

말뭉치 구축의 자동화 시스템 구축원시 데이터에서 구조화된 DB로 일괄 변환 (일부 수작업 - 데이터의 정제 및기본 전처리 단계)주석 작업의 반자동화 (메타 정보 및 발화 단위 주석)주석된 데이터는 추후 새로운 데이터의 주석을 위한 훈련 데이터로 사용예정

Page 49: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

-35-

Raw text data

Utterance annotation (e.g. DA,

emotions, …)

Pre-processing (element mark-up)

Structured DB

Meta-informatio

n annotation

(semi-)automatic processing Manual

Tagging validation

Data formatting

Automatic

Final dataset

말뭉치 데이터 구축 흐름

-36-

활용 방안

대화 시스템 개발에 필요한 훈련 / 평가 데이터대화 분석 연구 (담화 분석)데이터 기반 구어 (spoken language) 연구언어 교육 – e.g. 대화 전략(dialogue protocol), speech template

Page 50: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

-37-

한계점

짝을 이루는 음성 및 영상 자료의 부재일상적인 관점에서 부자연스러운 대화 상황의 존재데이터의 원본이 되는 작품들의 장르의 영향보다 다양한 장르의 보다 많은 대화 데이터를 포함하여 문제 해소

-38-

향후 계획

대화 데이터의 양적 확대현재 약 160만 어절의 발화량을 200만 이상 규모로 확장보다 다양한 장르의 원본 자료 확보데이터의 정제 작업 (non-standards, typos 등)

대화 데이터의 주석메타 정보 주석 대상의 확대 (발화자 정보 및 대화 상황 정보)대화 행위 주석 체계의 단순화

현재 42개의 SWBD-DAMSL 주석 체계를 도입하여 자동 주석 10개미만의 태그 유형으로 재분류 작업 (e.g. seek information, give information, give direction, …)

한국어(특히 대본 데이터)와 잘 맞지 않는 주석의 존재42개 전체 유형에 대한 데이터의 불균등 문제지속적인 bias로나타남.후처리 작업의 용이성 증대

Page 51: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

-39-

데이터 공유

현재 오픈 가능한 데이터를 대상으로 깃허브 저장소에 업로드

-40-

2018년 연구 실적 및 성과

학술대회 논문 발표: 5건

• 이진, 한지윤, 김한샘. (2018). 일본어의 Universal Dependency 태그셋 적용 사례 연구 - 한국어와의비교를 중심으로. 제30회 한글 및 한국어 정보처리 학술대회 논문집, 한국정보과학회언어공학연구회, 2018. 10, 323-328 (6 pages)

• 이찬영, 김진웅, 김한샘. (2018). Universal Dependency 관계 태그셋의 한국어 적용. 제30회 한글 및한국어 정보처리 학술대회 논문집, 한국정보과학회 언어공학연구회, 2018. 10, 334-339 (6 pages)

• 박혜진, 오태환, 김한샘. (2018). Universal POS 태그셋의 한국어 적용. 제30회 한글 및 한국어정보처리 학술대회 논문집, 한국정보과학회 언어공학연구회, 2018. 10, 417-421 (5 pages)

• Choi Ji-Myoung, Kim HanSaem (2018). [Yonsei-Script Dialog] A Richly Annotated Conversation Corpus in Korean for Dialogue System Development. 한국언어학회 학술대회지(2018년 서울 언어학포럼 발표 논문집), 한국언어학회, 2018.12, 71-76 (6 pages)

• Noh, Y., Han, J., Oh, T. H., & Kim, H. (2018). Enhancing Universal Dependencies for Korean. In Proceedings of the Second Workshop on Universal Dependencies (UDW 2018 in ,EMNLP)

학술지 논문 게재: 1건

• 박혜진, 오태환, 김한샘. (2018). Universal Dependency를 위한 한국어 형태 주석 체계 연구, 언어와정보, 한국언어정보학회, 22권 3호, 67-89. (23 pages)

Page 52: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open
Page 53: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open
Page 54: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open
Page 55: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open
Page 56: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open
Page 57: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open
Page 58: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

감성 사전 구축: 사회적 이슈가 되는 정서 장애 관련

서강대학교 글로벌한국학/국제한국학

과제 개요

Motive

(한국 사회에) 사회적 이슈가 되는 정서, 감정, 감성에 관련된 사전 구축

깃허브 저장소:

https://github.com/HanInformatics/SentimentAnalysis

구성원

조은경, {학부생:김요욱, 구유진}

2

Page 59: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

데이터 수집

정신의학 신문 ‘트렌딩토픽’ 기사 수집:

http://www.psychiatricnews.net/

토픽 기사 페이지 전체(425~450 미만) 기사.

국가정보포털 정신의학 용어 수집:

https://terms.naver.com/list.nhn?cid=51004&categoryId=51004

1월 초 주간조회순 상위 27개 해설집.

SQL db로 저장 : 기사, 용어 묶음.

기타 : 일반 뉴스 사건 기사 수집 후 LDA 토픽 모델링 수행 & 유의미한 {클러스터: 어휘 목록}이 모이지 않았음.

‘조현병’, ‘자살’, ‘성폭력’ 각 1주일치. github 사이즈 제한으로 못올림.

3

데이터 수집

정신의학 신문 ‘트렌딩토픽’

4

Page 60: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

5

6

Page 61: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

7

남은 일

작성 노력 중인 연구 실적

“Distributional semantics of languages of affective disorders through word embedding of Psychiatric terminology and news article”

“정신 의학 용어 및 뉴스 기사의 워드임베딩으로 보는 정서 장애 언어의 분포 의미”

5월까지 출판이 될지는 미지수….

8

Page 62: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

남은 일

워드임베딩(정서 장애류 의미 분포) 코드추가

데이터 수집 정례화, Watchdog

daily/monthly scraping

diff old_file cur_file

drop the same data and add new data

9

기대 효과 & 토의

TBD

쓸모있는 언어 자원이 되려면 ….

감사합니다!!!

10

Page 63: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

기구축된 감성 사전과 비교

군산대 Sentiment Lexicon

aho corasick

11

Page 64: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open
Page 65: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open
Page 66: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open
Page 67: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open
Page 68: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open
Page 69: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open
Page 70: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

미등록어 인식

한경수

성결대학교 컴퓨터공학부

미등록어

• 입력 텍스트를 처리하기 이전에 시스템에 알려지지 않았던 단어(형태소)– 사전 등의 리소스에 등록되지 않음– 말뭉치에 등장하지 않음

• 미등록어 인식의 필요성– 사전/말뭉치에 빠진 단어가 존재할 수 밖에 없음– 신조어, 고유명사 등이 꾸준히 생성됨

2

Page 71: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

미등록어의 특징

• 미등록어의 93.2%가 명사(고유명사, 일반명사)임– 89.5%는 어절의 첫번째 형태소로 등장 그것이 어절 내 유일한 미등록어인 경우: 88.4%

3출처: 김보경, 이재성, “확률 기반 미등록 단어 분리 및 태깅“, 정보과학회논문지 43(4), pp.430-436, 2016.

미등록어의 특징

• 미등록어가 어절의 첫번째 형태소가 아닌 경우 예– 복합명사 명사끼리 결합된 형태: 신한/NNP + 동해/NNP + 오픈/NNG + 의/JKG 기호+명사 형태: TG/SL + 삼보/NNP + 는/JX

– 접두사/관형사 결합 접두사 + 명사: 반/XPN + 민자당/NNP 관형사 + 명사: 전/MM + 청와대/NNP

– 혼합 반/XPN + 핵/NNG + 아시아/NNP + 포럼/NNG

4

Page 72: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

연구 목표

• 다음과 같이 정의한 미등록어의 인식– 미등록어: 미리 알려져 있지 않은 명사가 포함된 어절에서 접미 형

식 형태소열이 제거된 형태 단일명사 복합명사 접두사/관형사 + 단일/복합명사

• 목표 처리 환경– 기존 연구들은 문장 하나 혹은 문서 하나를 입력으로 하여 형태소

분석 및 품사부착에 실패한 어절들을 대상으로 미등록어 인식을 시도

– 본 연구는 여러 문서들의 분석 실패 어절들을 모아 미등록어 인식을시도하는 환경을 고려함

5

미등록어 인식기의 구성문서집합

한 음절, 숫자, 영어로만 이루어진 어절 제거전처리

미등록어후보추출

어절 리스트

- 그룹 어절 후보 추출- 단일 어절 후보 추출

웹 검색을 통한 검증

미등록어 후보 리스트

후보 검증

미등록어리스트

6

명사 접미 형태소열

(형태소분석 실패) 어절 리스트

음운현상 복원 규칙

형태소 분석

Page 73: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

명사 접미 형태소열

• 미등록 명사를 인식하기 위해 품사 부착 말뭉치로부터 한어절 내에서 명사 뒤에 연이어 등장하는 형태소열들을 추출

• 빈도가 2 이상인 것만 사용

7

을 435442의 355683이 300574에 292536를 243321가 186492은 179577는 134328으로 102267이다 99759에서 92215

음운 현상 복원 규칙

• 음운 현상에 의해 변형된 형태소를 복원하는 규칙• 품사 부착 말뭉치에서 원 어절과 분석된 형태소열이 일치

하지 않은 어절을 대상으로 규칙 학습

8

미국에선 미국/NNP + 에서/JKB + ㄴ/JX베니스에선 베니스/NNP + 에서/JKB + ㄴ/JX서울에선 서울/NNP + 에서/JKB + ㄴ/JX공짠데 공짜/NNG + 이/VCP + ㄴ데/EC인격첸데 인격체/NNG + 이/VCP + ㄴ데/EC일쑨데 일쑤/NNG + 이/VCP + ㄴ데/EC

^1에선 ^1/NNP + 에서/JKB + ㄴ/JX^1:??ㄴ데 ^1:??_/NNG + 이/VCP + ㄴ데/EC

음절 규칙 자소 규칙

Page 74: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

그룹 어절 미등록어 후보 추출

• 시작 음절열이 동일한 어절들을 그룹핑하여 각 그룹별 미등록어 후보 추출– 시작 음절이 2개 이상 동일한 어절들에 대해– 최장 공통 시작 문자열(LCP) + 명사 접미 형태소열(NS)

형태로 구분 가능한 어절들을 그룹핑– 그룹 크기가 2 이상인 그룹에 대해 LCP를 후보로 생성

9

관계자만도관광교역전으로관광전관광전에관광전으로는관광전은

관광전

단일 어절 미등록어 후보 추출

• 그룹핑되지 않은 각 어절에 대해 후보 추출– 2음절 이상의 문자열 + 명사 접미 형태소열(NS)

형태로 구분 가능한 문자열들을 미등록어 후보로 추출 빈도가 임계치 이상인 NS와 결합하는 문자열만을 추출 모든 NS가 임계치 미만일 경우 어절 자체를 후보로 추출 숫자로만 구성된 후보는 제외

10

관계자만도관광교역전으로롯데백화점들과

관계자관광교역전롯데백화점

Page 75: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

웹 검색을 통한 미등록어 검증

• 그룹 어절에서 추출된 후보는 복수의 증거로부터 추출된것이므로 검증 과정 없이 그대로 미등록어로 추출

• 단일 어절에서 추출된 후보는 대규모 원시 말뭉치(웹)를통해 검증

• 후보 + 검증용 명사 접미 형태소열(VNS)형태의 검색어로 검색한 결과 건수가 임계치 이상일 때미등록어로 추출

11

롯데백화점을: 5379건롯데백화점의: 18301건롯데백화점이: 30967건

롯데백화점

검증용 명사 접미 형태소열

• 다음 가 임계치(예: 0.9) 이상인 고빈도 명사 접미형태소열 중에서 개 선별– 명사의 종성 유무에 따라 별도의 접미 형태소열 선별

– ,∑ ,∈

– , : 말뭉치에서 접미 형태소열 가 명사 다음에 사용된 횟수

– , : 말뭉치에서 접미 형태소열 가 품사 다음에 사용된횟수

– : 전체 품사 집합

12

을 435442 0.9479773064714873의 355683 0.9990955183213719이 300574 0.999730588215729에 292536 0.9996446145434664를 243321 0.9996220415507799

Page 76: 기계학습및 평가용언어자원구축203.246.112.72/workshop_20190219/kmu_ws1.pdf · 3 한국어정보처리원천기술개발 대규모언어자원구축, 배포, 활용, open

실험 및 평가

• 실험 시스템은 특정 형태소 분석기에 종속되지 않도록 구성– 가상의 형태소 분석 실패 어절만 미등록어 인식 처리– 세종계획 말뭉치로부터 어절 리스트(EJList), 명사 사전(Dict) 구

축– 전처리 단계에서 입력 문서의 각 어절이 EJList에 존재하면 제

거– 미등록어 후보 추출 단계에서 추출된 후보가 Dict에 존재하면

후보에서 제거

• 실험 및 평가 진행 중

13