웹의 협업 환경을 이용한 확장 형태소 사전 관리 kcc 2010

21
웹웹 웹웹 웹웹웹 웹웹웹 웹웹 웹웹웹 웹웹 웹웹 KCC 2010 황황황 , 황황황 , 황황황 , 황황황 1 1 웹웹웹웹웹 웹웹웹웹웹웹 KCC 2010 2010. 6. 30

Upload: masako

Post on 19-Mar-2016

91 views

Category:

Documents


16 download

DESCRIPTION

웹의 협업 환경을 이용한 확장 형태소 사전 관리 KCC 2010. 황인범 , 이동주 , 연종흠 , 이상구 1 1 서울대학교 컴퓨터공학부 KCC 2010 2010. 6. 30. 서론. 1/2. 자연어 처리에 대한 요구 증대 넓어진 자연어 처리 활용 범위 웹 검색의 색인어 추출 Opinion mining 등 information extraction 연구 및 응용 늘어나는 자연어 데이터 웹을 통해 많은 데이터 생산. 서론. 2/2. 형태소 분석 자연어 처리 과정의 첫 단계 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 웹의 협업 환경을 이용한 확장 형태소 사전 관리 KCC 2010

웹의 협업 환경을 이용한 확장 형태소 사전 관리KCC 2010

황인범 , 이동주 , 연종흠 , 이상구 1

1 서울대학교 컴퓨터공학부

KCC 2010

2010. 6. 30

Page 2: 웹의 협업 환경을 이용한 확장 형태소 사전 관리 KCC 2010

Copyright 2010 by CEBT

서론

자연어 처리에 대한 요구 증대 넓어진 자연어 처리 활용 범위

– 웹 검색의 색인어 추출

– Opinion mining 등 information extraction 연구 및 응용

늘어나는 자연어 데이터– 웹을 통해 많은 데이터 생산

2

1/2

Page 3: 웹의 협업 환경을 이용한 확장 형태소 사전 관리 KCC 2010

Copyright 2010 by CEBT

서론

형태소 분석 자연어 처리 과정의 첫 단계

형태소 분석 결과는 이후 과정의 결과에 큰 영향

문장에 포함된 단어의 구조 파악

한국어 등 교착어에서 중요성 두드러짐– 어미 및 조사 등에 의해 뚜렷한 형태 변화

3

2/2

Page 4: 웹의 협업 환경을 이용한 확장 형태소 사전 관리 KCC 2010

Copyright 2010 by CEBT

관련연구

규칙 기반 형태소 분석 방법 대부분 초기 연구

– 강승식 , “ 음절 정보와 복수어 단위 정보를 이용한 한 국어 형태소 분석” , 서울대학교 공학박사 학위 논문 , 1993

– 임희석 , 윤보현 , 임해창 , “ 배제 정보를 이용한 효율적 인 한국어 형태소 분석기” , 한국정보과학회 논문지 , 1995.

문법에 따라 미리 정의한 규칙에 의해 형태소 분석

많은 탐색 횟수로 인한 시간 복잡도 증가 : 비교적 낮은 분석 효율– 음소 단위 분석 수행

규칙에 벗어난 예외 상황 처리가 어려움– 알고리즘 단계에서 수정 필요

4

1/2

Page 5: 웹의 협업 환경을 이용한 확장 형태소 사전 관리 KCC 2010

Copyright 2010 by CEBT

관련연구

사전 기반 형태소 분석 방법 처리할 데이터 양이 증가하면서 주목받음

– 양승현 , 김영섬 , “ 부분 어절의 기분석에 기반한 고속 한국어 형태소 분석 방법” , 정보과학회논문지 , 2000. 3

– 심광섭 , 양재형 , " 인접 조건 검사에 의한 초고속 한글 형태소 분석기 ", 정보과학회논문지 , 2004. 1

– 심광섭 , “MADE: 형태소 분석기 개발 환경” , 인터넷정보학회논문지 , 2007. 8

어절 또는 음절 형태를 사전에 기록 ( 기분석 사전 )

사전 항목 조합을 통해 형태소 분석이 이루어짐

음절 단위 분석 : 규칙 기반 방법에 비해 연산 횟수 적음

성능 향상을 위해 사전 크기를 적절히 유지하여야 함

5

2/2

Page 6: 웹의 협업 환경을 이용한 확장 형태소 사전 관리 KCC 2010

Copyright 2010 by CEBT

Motivation

웹에서 생산되는 데이터에는 많고 다양한 오류 존재 오타 , 잘못된 용법 , 신조어 등

그에 반해 , 바른 문장을 분석하는 것에 초점을 맞추어 온 기존 형태소 분석 연구 많은 오류를 포함한 문장에 대한 활용도 저하

자동화 자연어 처리에 부적합

오류에 대응하는 방법의 효율성도 평가 기준에 포함되어야 함 사전 기반 형태소 분석 방법에 이점 : 사전 관리를 통한 분석 품질

유지

6

1/1

Page 7: 웹의 협업 환경을 이용한 확장 형태소 사전 관리 KCC 2010

Copyright 2010 by CEBT

꼬꼬마 (KKMA)

http://kkma.snu.ac.kr

한글 형태소 분석기와 분석 품질 관리 체계

다양한 자연어 처리 연구에서 용이하게 사용 가능 공개 소프트웨어 : 소스코드 분석 및 수정 용이

Java 라이브러리 형태 : 높은 코드 이식성

7

1/5

Page 8: 웹의 협업 환경을 이용한 확장 형태소 사전 관리 KCC 2010

Copyright 2010 by CEBT

꼬꼬마 (KKMA)

인접 조건 검사에 의한 초고속 한국어 형태소 분석 방법 ( 심광섭 , 양재형 , 2005) 에 기반 사전 기반 형태소 분석

– 확장 형태소 사전 사용

우수한 분석 성능– 높은 정확도 : 99.2%

– 기존 연구들에 비해 빠른 분석 속도

8

2/5

Page 9: 웹의 협업 환경을 이용한 확장 형태소 사전 관리 KCC 2010

Copyright 2010 by CEBT

알고리즘

음절 단위 분석으로 분석 후보 생성 각 음절 사이에 형태소가 구분될 수 있는지 판정

– 형태소의 결합 조건 사용

간단한 동적 프로그래밍으로 구현

확률 모델을 이용한 최적 분석 후보 선택

9

예 제 찾 기 가 어 렵 습 니 다

3/5

NN VV ETN JKC VA EFN

Page 10: 웹의 협업 환경을 이용한 확장 형태소 사전 관리 KCC 2010

Copyright 2010 by CEBT

결합조건

품사 결합 조건 형태소의 왼쪽에 결합 가능한 품사들

– E.g. 조사의 왼쪽에 체언이 결합

음운 결합 조건 형태소와 결합하기 위해 만족해야 할 특정 음운 조건

한국어의 음운적 특성 반영– E.g. ~ 아라 : 양성 결합 ( 보아라 ), ~ 어라 : 음성 결합 ( 숨어라 )

형태 결합 조건 음소 단위 결합이 이루어지는 형태소를 나타내기 위한 조건

– E.g. 감사합니다 : 감사하 + ㅂ니다

10

4/5

Page 11: 웹의 협업 환경을 이용한 확장 형태소 사전 관리 KCC 2010

Copyright 2010 by CEBT

확장 형태소 사전

단어의 모든 활용 형태를 항목으로 저장

포함 내용 표제어

분석 결과

결합 조건

11

5/5

Page 12: 웹의 협업 환경을 이용한 확장 형태소 사전 관리 KCC 2010

Copyright 2010 by CEBT

사전 관리를 통한 분석 품질 유지

패키지 프로그램 형태 개발은 형태소 분석기 개발에 부적합 긴 개발 주기 : 언어의 변화 주기에 비해 김

언어 변화에 따른 품질 관리에 어려움

사전 중심 형태소 분석 형태소 분석기 성능이 사전 품질에 의존

지속적 사전 관리로 다양한 오류 및 예외 상황에 대처 가능

형태소 분석기에 적합한 개발 환경 구축 필요

12

1/7

Page 13: 웹의 협업 환경을 이용한 확장 형태소 사전 관리 KCC 2010

Copyright 2010 by CEBT

Open Knowledge

웹 기반 협업 사전 관리 시스템 구현 형태소 분석기 개발자 및 사용자들이 협업적으로 사전 데이터를

개선 및 정제

Open API 및 웹 기반 사전 관리 프로그램 제공

집단 지성을 사전 관리에서 발현시키고자 한 첫 시도

13

2/7

Page 14: 웹의 협업 환경을 이용한 확장 형태소 사전 관리 KCC 2010

Copyright 2010 by CEBT

Open API

Search 사전 항목 검색

14

Parameter Type Default Descriptionid Integer 항목 idexpression String 표제어

morpheme String 형태소

exactExpression Boolean True 표제어 exact match 여부

exactMorpheme Boolean False 형태소 exact match 여부

tag String 품사

createdAftercreatedBefore

Timestamp 생성 시각

modifiedAftermodifiedBefore

Timestamp 수정 시각

createdBy String 생성한 사람

modifiedBy String 수정한 사람

page Integer 1 페이지 번호

3/7

Page 15: 웹의 협업 환경을 이용한 확장 형태소 사전 관리 KCC 2010

Copyright 2010 by CEBT

Open API

Create 사전 항목 생성

15

Parameter Type Default Descriptionexpression String 표제어

tag String 품사

analyzedResult String 기분석 결과 , 형태소 / 태그를 ‘ +’ 로 연결하여 나열한다 .

atl String 띄어쓰기 하지 않고 접속 가능한 품사의 태그

hcl String 해당 기분석 결과가 나타내는 결합 조건 . 음운 조건 , 품사 조건 등

ccl String 형태소가 결합하기 위한 조건 . 음운 결합 조건 , 품사 결합 조건 등

ecl String 결합 배제 조건

pcl String 띄어쓰기를 통해 결합할 때 선호되는 조건

commit Boolean False 사전 반영 여부

4/7

Page 16: 웹의 협업 환경을 이용한 확장 형태소 사전 관리 KCC 2010

Copyright 2010 by CEBT

Open API

Analyze 웹을 통한 형태소 분석

16

5/7

Page 17: 웹의 협업 환경을 이용한 확장 형태소 사전 관리 KCC 2010

Copyright 2010 by CEBT

Open API

API Description

Register 사용자 및 API key 등록Publish 최신 사전 배포Search 검색Analyze 형태소 분석Report 분석 오류 보고Create 사전 항목 추가

CreateSingle 사전 항목 추가 ( 형태소와 표제어가 일치하는 경우 )CreateCompNoun 사전 항목 추가 ( 복합 명사인 경우 )

Delete 사전 항목 삭제Modify 사전 항목 수정

17

6/7

Page 18: 웹의 협업 환경을 이용한 확장 형태소 사전 관리 KCC 2010

Copyright 2010 by CEBT

형태소 분석기 개발 환경

관련 연구 심광섭 , “MADE: 형태소 분석기 개발 환경” , 인터넷정보학회논문지 ,

2007. 8– 인접 조건 검사에 의한 초고속 한국어 형태소 분석 방법에 기반

– 사전 관리를 통해 형태소 분석 결과 보정

– 적용 영역에 적합한 형태소 사전 제작 가능

분석할 데이터 양이 많은 경우 , 적용 영역이 다르더라도 대체로 비슷한 오류에 대응해야 할 것 협업적 사전 관리를 통해 관리 효율 향상 가능

18

7/7

Page 19: 웹의 협업 환경을 이용한 확장 형태소 사전 관리 KCC 2010

Copyright 2010 by CEBT

성능 검증

웹에서 얻은 검증 데이터 오류가 포함된 웹 문서 특성 반영

Edit distance 를 이용한 성능 평가 정확도 = ( 전체 형태소 수 - edit distance) / 전체 형태소 수

띄어쓰기 보정을 고려한 성능 평가가 이루어져야 하기 때문에 기존 어절 내 형태소 재현율 (Recall) 에 의한 평가는 알맞지 않음

19

오류 적음

오류 많음

검증 데이터 글 수 문장 수 정확도

신문기사 10 1057 0.81

블로그 게시물 10 2199 0.75

상품평 10 2414 0.70

1/1

Page 20: 웹의 협업 환경을 이용한 확장 형태소 사전 관리 KCC 2010

Copyright 2010 by CEBT

결론

공개된 형태소 분석기 구현

협업 환경에서 사전 내용을 수정하여 분석 품질 유지 웹 기반 사전 관리 도구와 Open API 제공

많은 연구 및 응용에서 유용하게 활용할 수 있을 것으로 기대 라이브러리 형태로 쉽게 사용 가능

지속적 유지보수로 정확도 높은 분석 결과를 얻을 수 있음

20

1/2

Page 21: 웹의 협업 환경을 이용한 확장 형태소 사전 관리 KCC 2010

Copyright 2010 by CEBT

향후 연구 방향

형태소 분석기 평가 방법 재고 기존에는 분석 후보의 재현율 (Recall) 로 분석 품질 평가

– 분석 후보 개수가 많은 경우에 신뢰도 저하

분석 정확도를 판단하는 명확한 기준 수립 필요

변화하는 언어 사용 양상을 반영하는 표본 필요 주기적 Test set 검증 및 보정

21

2/2