기계번역과 통계기반 자연어 처리

2

Click here to load reader

Upload: seonbae-kim

Post on 15-Apr-2017

460 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Page 1: 기계번역과 통계기반 자연어 처리

기계번역과 통계기반 자연어 처리작성자: 김선배 [email protected]

기계 번역 방법

기계번역은 하나의 언어로 기술된 문서를 다른 언어로 자동으로 번역하기 위한 제반 기술을 의미한다. 기계번역은 통상적으로 규칙 기반 기계번역(RBMT: Rule based machine translation)과 통계 기반 기계번역(SBMT: Statistical based machine translation), 그리고 규칙과 통계 기반 기술을 병합한 하이브리드 기계 번역으로 크게 나눌 수 있습니다. 하지만 기계 번역을 수행하는 알고리즘 측면에서 본다면 직접 방식, 중간언어 방식, 통계기반 , 하이브리드 번역 등으로 좀 더 세부적으로 나누어질 수 있다.

■ 직접 방식 기계번역

직접 방식의 기계번역은 원문에 대해 형태소 분석, 품사 태깅을 수행한 후, 각 형태소를 목적 언어의 문법 구성에 맞게 재배열, 생략, 삽입, 통합, 분리하는 방식으로 목적 문장을 생성한다.

직접 방식의 기계번역은 한국어 일본어와 같은 유사 어족에 있어 90% 이상의 상당히 높은 번역 품질과 번역 속도를 보이고 있어서 상용화에 무리가 없지만, 한국어와 영어 및 중국어와 같이 구문 구조가 상이한 언어간 번역에는 부적절하다.

■ 규칙 기반 기계번역(RBMT)규칙기반 기계번역은 변환 방식 기계번역(transfer based MT)으로도 알려진 기술로서 예전의 대부분의 상용 엔진들이 이 방식을 적용해 왔다. 번역 대상 원문에 대해 형태소 분석, 품사 태깅과 함께 구문 분석을 수행하고, 분석된 원문의 구문 구조를 변환 규칙(transfer rules)에 기반해 목표 언어의 구문 구조로 변환하여 목표 언어 문장을 생성하는 방식이다.

변환 규칙을 마련한 언어는 높은 번역 성능과 품질을 보장하지만, 신규 언어를 번역하기

위해서는 해당 언어에 대한 자원과 언어 전문가를 확보하여 구문 변환 분석을 수행해야 하는 어려움이 존재하 다양한 언어로 번역이 불가능하다.

■ 중간언어(Pivot) 방식 기계번역중간언어 방식의 기계번역은 소스 언어 문장이 분석이 되면 중간 언어로 표현하고, 이 중간 언어를 중심으로 목표 언어 문장을 자동 생성하는 방식이다. 목적언어의 생성은 원시 언어와 전혀 무관하게 이뤄지는 것이 특징이다. 예를 들면 한영 번역시 일본어를 중간언어로 활용하면 한->일, 일->영으로 영어 문장을 손쉽게 얻을 수 있는 것이다.

하지만 다수 언어가 가지고 있는 언어 현상을 충분히 표현해내는 신뢰할만한 중간언어를 설계 구현하는 것이 어려움이 존재한다.

■ 통계 기반 기계번역(SBMT)통계 기반 기계번역은 대량의 말뭉치(Corpus)로부터 학습된 통계 정보를 활용하여 목적언어 문장을 자동으로 생성하는 엔진을 말한다. 따라서 정제된 언어쌍(코퍼스)에 대한 의존도가 무척 크다. 특정 도메인에 최적화된 번역엔진을 개발하기 위해서는 최소 약 2 백만 코퍼스이 필요하며 일반 도메인에 적용하려면 그 이상의 코퍼스가 필요하다. 하지만 대부분의 회사가 최소 품질역량을 넘길 수 있는 코퍼스를 보유하기도 쉽지 않으며, 언어모델, 번역모델, 디코더 등의 성능과 품질 개선을 위한 엔지니어링 리소스를 지속적으로 투자하지 않으면 적정 수준의 품질을 얻기 불가능하다.

■ 하이브리드 방식 기계 번역규칙 기반 기계번역(RBMT)의 강점과 통계 기반 기계번역(SBMT)의 강점을 병합한 연구가

Page 2: 기계번역과 통계기반 자연어 처리

진행되고 있으며, 통계기반에 용어집과 사람에 의해 번역된 번역 메모리(Translation Memory)를 재활용하여 품질을 개선하는 방식도 상용엔진에서 진행중이다.

통계 기반의 자연어 처리 방법

인간이 사용하는 자연어(natural language)를 컴퓨터를 이용하여 처리하고자 하는 연구는 규칙 기반의 접근법(rule based approach)과 통계 기반의 접근법(statistics based approach)으로 나눌 수 있다.

통계 기반 접근법은 사람이 실제로 사용하는 많은 데이타로부터 확률정보 및 통계 정보를 추출하여 이를 통해 여러 언어현상을

규명하고자 하는 코퍼스 기반 접근법(corpus based approach)라고도 한다.

통계 기반 자연어 처리는 코퍼스 구축과 코퍼스 분석도구 개발, 중의성 탐색과 해소를 위한 품사 태깅, 통계기반 파싱, 기계 번역 등과 같은 분야까지 연구가 확장되고 있다.

그리고 언어가 실제로 사용된 코퍼스로부터 추출한 통계와 확률정보를 자연어 처리에 사용하므로 어떤 영역의 데이타에 대해서도 처리할 수 있고, 확장성이 좋은 장점이 있지만, 시스템 수정이 어렵고 제한된 영역에 대하여 높은 정확도를 보이는 규칙기반 접근법과 비교하여 정확도가 떨어진다는 단점을 갖고 있다.

따라서 통계기반이냐 규칙 기반이냐의 접근법은 응용 분야의 선택에 따라 결정되어야 한다.

예를 들면 질의어 응답 시스템 등과 같이 처리 영역이 매우 제한적이거나 정확성을 요구하는 분야를 위해서는 규칙 기반 접근법을 이용하는 것이 효율적이지만 음성인식, 문자인식, 그리고 음성 합성 분야 등 약각의 오류율을 감수하더라도 모든 입력 데이터를 처리하기 위해서는 통계 기반의 접근법이 더욱 효과적일 것이다.

통계기반 접근법은 어휘 지식 획득(lexical knowledge acquisition), 품사 태깅(part of speech tagging), 문법 개발(grammar construcion), 구문 분석(syntactic analysis), 기계번역(machine translation) 등 많은 자연어 처리 분야 발전가능성을 제시하였다