neural machine translation 기반의 영어-일본어 자동번역

48 특집원고 Neural Machine Translation 기반의 영어-일본어 자동번역

Neural Machine Translation 기반의 영어-일본어 자동번역

강원대학교 이창기*

네이버 김준석･이형규･이재송*

1. 서 론1)

최근의 기계번역 연구에서 Neural Machine Translation (NMT) 모델이 큰 각광을 받고 있다. 최근까지 기계번

역에 신경망을 적용하는 방식은re-ranking 방식이 주

로 연구되었고, 최근에는 end-to-end 방식의 신경망

구조를 사용하는 NMT 모델이 영어-프랑스와 같이 어

순이 유사한 언어 쌍에서 좋은 성능을 보였다.본 논문에서는 전통적인 방식의 SMT 방식인 구 기반

(Phrase-based) 모델과 계층적 구 기반(Hierarchical Phrase-based) 모델, 그리고 구문 기반(Syntax-based) 모델

을 소개한다. 또한 최근에 각광받고 있는 NMT 모델에 대해

설명하고 이를 어순이 상이한 영어-일본어 기계번역에 적

용한다. 실험을 통해 NMT 모델이 기존의 구 기반 모델과

계층적 구 기반 모델보다 성능이 우수하고, 구문분석을

사용하는 Syntax-based 모델과 성능이 유사함을 보인다.2장에서는 전통적인 방식의 SMT 모델에 대해서 소

개하고, 3장에서는 NMT 모델에 대해서 설명하고

NMT 모델의 장단점에 대해서 알아본다. 4장에서는

기존의 SMT 모델과 NMT 모델을 어순이 상이한 영

어-일본어 기계번역에 적용한 결과를 설명한다.

2. SMT

전통적인 방식의 SMT는 대규모 데이터 기반으로 자동

으로 학습된 통계적 모델을 기반으로 번역하는 방식이다. 그림 1은 전통적인 방식의 SMT의 기본 구조를 보여준다. SMT는 병렬코퍼스(bilingual corpus)로부터 학습된 번역

모델(translation model)과 단일언어 코퍼스(monolingual corpus)로부터 학습된 언어 모델(language model)을 이용

하여 번역을 수행한다. 입력 언어(source language) 문장이

들어오면 형태소 분석과 같은 전처리를 수행하고, 디코더

(decoder)에서는 번역 모델과 언어 모델 등의 통계 모델을

*종신회원

기반으로 최적의 번역 열을 찾은 후에 출력 언어(target language) 문장에 맞게 생성하면 번역이 완료된다.

그림 2는 구(phrase) 기반의 SMT의 기본 수식을 보

여준다. fi는 입력 언어의 구(phrase)를 ei는 출력 언어의

구를 의미한다. P(fi|ei)는 ei가 fi로 번역될 확률 값이고, P(ei)은 출력 언어가 나타날 확률인 언어 모델 값이다. 수식에서 양변에 log를 취하는 log-linear 모델로 변환하

면 그림 2의 아래와 같은 가중치-합(weighted-sum) 형태의 수식이 된다. hm(e, f)은 번역 모델과 언어 모델

같은 feature 함수가 되고, λm은 해당 feature 함수의

가중치를 의미한다. 가중치는 기계번역에서 가장 많

이 사용하는 척도인 BLEU[1]값을 최대화 시키는 파

라미터 최적화 방식 MERT[2]를 사용하여 그 값이 결

정된다. 따라서 전통적인 방식의 SMT는 결국 좋은

feature 함수를 발굴하는 것이 가장 중요하다. 이에 따라, 번역 모델, 언어 모델 외에 다양한 feature 함수를 만

들어내고 기존 모델에 추가하여 실험을 통해 번역 품

질 높이는 많은 연구들이 진행되었다.

그림 1 SMT 기본 구조

그림 2 SMT 기본 수식

특집원고

2015. 10 정보과학회지 49

그림 3은 전통적인 방식의 SMT 기술 발전 과정을

보여준다. 처음에는 단어(word) 단위로 번역을 수행하

다가 2003년 여러 개의 단어들의 묶음인 구(phrase) 라는 단위의 번역 방식이 제안되었다[3]. 단어 단위

보다 구 단위가 번역의 모호성(ambiguity)이 낮기 때

문에 더 좋은 번역 품질을 얻을 수 있다. 구(phrase) 내에 단어뿐만 아니라 변수 개념을 도입한 것이 계층

적 구(hierarchical phrase) 기반의 번역 방식인데, 2005년 David Chiang에 의해서 제안되었다[4]. 기존의 구

기반 방식에서는 ‘eat an apple’ → ‘사과를 먹다’, ‘eat a tomato’ → ‘토마토를 먹다’, ‘eat a hamburger’ →

‘햄버거를 먹다’와 같이 대역 관계를 표현했다면, 계층

적 구 방식에서는 ‘eat X’ → ‘X를 먹다’와 같이 대역

관계를 표현할 수 있어서 기존의 구(phrase) 방식에 비

해서 훨씬 더 많은 대역 관계를 표현할 수 있다. 그러

나 계층적 구 기반 번역은 변수 때문에 디코딩 방식이

복잡해지고 번역 속도가 느려지는 문제점이 존재한다.한국어-영어와 같이 어순 차이가 큰 언어 쌍에서는

단순한 구 기반 모델로는 번역에 어려움이 있다. 대역

어 간의 정렬(alignment)을 찾는 과정도 어렵고, 그 결과

에도 많은 오류들이 포함되어 있다. 또한 원거리 의존

(long distance dependency) 관계를 표현하기도 쉽지 않

다. 그래서 번역을 하기 전에 입력 문장을 출력 언어의

어순과 비슷하게 바꾼 후에 번역을 시도하는 많은 연구

들이 있었고[5, 6], 번역을 하기 전에 어순을 바꾼다고

하여 사전 순서 변경(pre-reordering) 이라고 부른다. 예를 들어 영어를 한국어로 번역을 한다고 했을 때, 영어

문장을 구문분석(parsing)을 하고 그 결과와 어순 변형

규칙을 이용해서 영어 문장을 한국어와 비슷하게 변형

을 한 다음에 구 기반 번역을 수행하면 번역 품질이 높

아진다. 그러나 이 방법들은 구문분석 결과에 의존적이

라서 구문분석 결과가 틀리면 어순 변경도 틀려져서 결

국 전혀 다른 의미로 번역되는 문제점을 가진다. 입력

문장의 구문분석 결과를 번역에 사용하는 방법을 구문

기반의 번역(Syntax-based SMT)이라고 하며[7,8], 계층

적 구 기반의 번역에서 변수 X 대신에 구문 카테고리

정보가 들어간다. 예를 들면, ‘eat X’가 아니고 ‘eat NP’가 된다. 이때 NP는 명사구이고, ‘eat’ 다음에 모든 구가

가능한 것이 아니라 명사구만 올 수 있다고 한정하는

것이다. 이를 통해 불필요한 번역 후보 생성을 막아서 더

욱 정확한 번역을 할 수 있다. 하지만 이 방법 역시 구문

분석기의 정확률이 번역 품질에 영향을 준다.다양한 번역 방식들 중에서 어떤 방식이 적합한지는

언어 쌍에 따라서 달라지고 결국 많은 실험을 통해 가

장 좋은 품질을 가지는 번역 방식을 찾아야 한다.

그림 3 SMT 기술 발전 과정

3. NMT

NMT는 Recurrent Neural Network(RNN)등의 신경

망을 이용하여 P(y|x)를 직접 최적화한다(x는 입력 언

어 문장, y는 출력 언어 문장). 그림4는 가장 기본적

인 NMT 모델중에 하나인 RNN encoder-decoder 모델

을 나타낸다[13]. 첫 번째 RNN(encoder)은 입력 언어

문장을 다음과 같이 continuous-space representation (c)으로 인코딩(encoding)한다:

두 번째 RNN(decoder)은 이로부터 P(y|x)를 최대화

하는 출력 언어 문장을 생성한다. RNN에서는 long term dependency를 학습하기 위해서 Long Short-Term Memory (LSTM)나 Gated Recurrent Unit(GRU)를 사

용하며, 전체 시스템은 한번에(end-to-end) 학습된다. 학습이 끝난 후, 실제 번역을 수행할 때는 주어진 입

력 언어 문장으로부터 beam search 등을 이용하여

P(y|x)이 가장 높은 출력 언어 문장을 찾는다.

그림 4 RNN encoder-decoder model [13]


RNN encoder-decoder 모델은 입력 언어의 문장을 길

이에 상관없이 항상 고정된 차원의 단일 벡터로 인코

딩하는데, 이로 인해 입력 문장이 길어질 경우 번역의

성능이 떨어진다는 문제가 있다. 또한 입력 언어 문장

으로부터 고정된 길이의 벡터만을 생성하고, 이로부터

출력 언어 문장을 생성하기 때문에 번역이 잘못되었을

경우에 원인을 분석하기 어렵다는 문제가 있다.RNN search 모델에서는 인코더(encoder)와 디코더

(decoder)사이에 attention mechanism을 두어 이러한

문제들을 해결하였다[14]. 그림5는 RNN search모델을 나타낸다. 인코더에서는 Bidirectional RNN을

사용하여 forward network에서는 hidden state vector set { ⋯ }를 생성하고 backward network에서는

hidden state vector set { ⋯ }를 생성하여, 각 시간

별로 두 벡터들을 합하여 context vector set { ⋯ }

( )를 생성한다. Attention mechanism은 인코더

가 생성한 각각의 context vector 와 디코더가 현재까지

생성한 출력 언어 문장( ⋯ )의 정보를 포함

하고 있는 hidden state vector 을 입력으로 받아

서 다음 출력 언어 단어 를 예측하기 위해서 주의해

서 봐야 할 context vector 의 attention weight

를 결정한다. 이러한 attention weight를 결정하기 위해

서 Feed-Forward Neural Network(FFNN)와 같은 신경

망(fATT)이 내부적으로 사용되고, attention weight를 이

용하여 context vector set의 가중치 합(weighted sum)

을 구하여 새로운 context vector 를 아래와 같이 구한다:

∑ exp

exp

그림 5 Attention-based neural machine translation [14]

디코더는 새로 구한 context vector 와 디코더의 이

전 hidden state vector 와 이전 출력 단어 을 입

력으로 받아서 hidden state vector 를 갱신하고 이를 이

용하여 새로운 출력 단어 를 beam search 등을 이용하여

결정한다. RNN search 모델은 attention mechanism을 도

입하여 출력 언어의 각 단어별로 context vector 를 새로

계산하기 때문에 RNN encoder-decoder 모델에 비해서

긴 입력 언어 문장이 들어오더라도 성능 하락이 적으며, attention weight를 단어 정렬(word alignment)로 사용할

수 있어 잘못된 번역의 원인 분석이 좀더 쉽다

지금까지 살펴본 NMT가 전통적인 방식의 SMT에

비해서 가지는 장점은 다음의 세 가지이다.첫 번째는 전통적인 방식의 SMT는 많은 feature

engineering이 필요한데, 번역에 도움이 되는 feature들을

발굴하는 데는 전문적인 지식이 필요하고 시간도 많이 소

요된다. 그러나 NMT는 이런 feature의 발굴 작업이 필요

없이 학습할 네트웍의 구조만 결정해 주면 학습되는 파라

미터들에 번역에 필요한 모든 정보들이 포함되게 된다.두 번째는 전통적인 방식의 SMT는 단어 정렬(word

alignment)을 최적화 시키기 위한 기계학습, 언어 모

델을 최적화시키기 위한 기계학습, 디코더에서 각

feature들의 가중치(weight)를 최적화시키기 위한 기계

학습을 각자 수행하는 문제점이 있다. NMT의 경우

입력 언어 문장을 input으로 했을 때, 출력 언어 문장

이 output으로 나오게 학습한다. 즉, 번역 결과가 최적

이 되도록 직접적으로 학습을 하는 장점을 가진다.세 번째로 번역 시스템의 단순함이다. 전통적인 방

식의 SMT는 번역 모델, 언어 모델 등 리소스가 필요

하고 번역 방식에 따라서 다양한 형태의 디코더가 필

요하다. 또한 경우에 따라서는 구문분석기가 필요해

지고 어순의 변경도 필요하다. 하지만 NMT의 경우

전통적인 방식의 SMT에 비해서 상대적으로 간단한

구조의 디코더만 있으면 된다.NMT의 단점은 다음과 같다.첫 번째는 학습 시간이 오래 걸린다는 점이다. 데

이터가 많아지고 학습을 위한 네트웍이 복잡해질 수

록 학습 시간이 오래 걸린다. 그래서 학습을 빠르게

하기 위한 병렬 처리가 필수적이다.두 번째는 번역 결과가 틀렸을 때, 원인을 분석하기가

어렵다는 점이다. 디버깅을 하고, 틀린 원인을 찾고, 수정하

는 과정은 기계번역기를 서비스하는데 꼭 필요한 과정이다.

4. 실험 및 평가

본 논문에서는 SMT와 NMT의 성능을 비교 평가하

→ → →

← ← ←

→ ←

2015. 10 정보과학회지 51

기 위해서, ASPEC(Asian Scientific Paper Excerpt Corpus) 영어-일본어 병렬 코퍼스2)를 이용하여 영-일

기계번역 시스템을 학습 및 평가하였다. ASPEC 코퍼

스는 과학 기술 분야의 논문에서 수집된 문장으로 구

성되어 있다. 표 1은 ASPEC 코퍼스의 학습/개발/테스

트 데이터 통계를 보여준다.

표 1 ASPEC 코퍼스 통계

문장 수 영어 단어 수 일본어 단어 수

학습 3,008,500 79,186,067 93,156,187

개발 1,790 44,046 51,321

테스트 1,812 44,305 51,124

본 논문에서는 SMT 시스템과 NMT 시스템을 각각

구현하였으며, 학습 데이터는 동일하게 번역 품질 상위

100만 문장만을 이용하였다. SMT 시스템은 오픈소스

엔진인 Moses[9]을 이용하여 구현되었으며, 구문 기반

(Syntax-based) 모델 중 하나인 Tree-to-string 모델[8]을

학습하였다. 또한 MERT 알고리즘[2]을 이용하여 파라

미터 튜닝을 수행하였고, Chart 파싱 디코딩[4]을 통해

번역문을 생성하였다. Tree-to-string 모델에서는 소스

언어의 구문 분석 정보를 필요로 하기 때문에 영어 구

문 분석을 위해서 Berkeley 파서[10]를 이용하였다.NMT 시스템은 RNN search 모델[14]과 유사하게

Theano[15]를 이용하여 자체적으로 구현하였으며, 디코더

부분에서 학습 속도를 위해 Maxout network 대신 ReLU를

사용하였다. 학습은 Stochastic Gradient Decent(SGD)를 사

용하였으며, 입력/출력 언어 모두 200차원의 word embedding을 projection layer에 사용했고, hidden layer unit수는 1000을 사용했으며, Dropout은 사용하지 않았다.

번역 결과의 성능 평가를 위해 테스트 데이터에서

의 BLEU[1]와 RIBES[11]를 측정하였다. BLEU는 번

역 평가에서 가장 널리 사용되고 있는 척도이며, RIBES는 BLEU에 비해 영어-일본어와 같이 어순 차

이가 큰 언어쌍에서 더 정확한 평가가 가능하다고 알

려진 척도이다.표 2는 NMT와 구 기반SMT, 계층적 구 기반 SMT,

구문 기반 SMT의 비교 평가 결과를 보여준다. SMT의

기본 모델인 구 기반 모델과 계층적 구 기반 모델의 결

과는 동일한 코퍼스로 학습하고 평가되어 WAT 2014[12]에서 보고된 결과를 참조하였다. 구문 기반 모

델은 구 기반 모델이나 계층적 구 기반 모델에 비해 확

연히 좋은 성능을 보여주었다. 실험 언어 쌍이 어순 차

2) http://lotus.kuee.kyoto-u.ac.jp/ASPEC/

이가 큰 영어-일본어이기 때문에 입력 언어 문장의 구

문 분석 정보가 활용되는 구문 기반 모델이 더 좋은 번

역문을 만들어 내었다. 반면, NMT는 명시적인 구문 분

석을 수행하지 않음에도 불구하고 SMT의 구 기반 모델

과 계층적 구 기반 모델을 능가하였고, 구문 기반 모델

과 BLEU에서는 거의 대등하였으며, RIBES에서는 오

히려 더 높은 성능을 보여주었다. 이는 NMT의 RNN 모델이 단순히 단어 번역에서뿐만 아니라 문장 내의 원

거리 의존성을 잘 학습하고 있기 때문으로 분석된다.추가적으로 번역 예제 분석을 수행하였다. 표3은

SMT 번역문과 NMT 번역문을 비교하여 보여준다. 1번

예문에서 SMT 번역문은 전치사구로 수식되는 부분의

해석에 오류를 보인 반면, NMT는 수식 구조를 정확

히 해석하여 더욱 정확한 번역문을 만들었다. 2번 예

문에서는 SMT 번역문은 콤마로 연결된 대등 관계 부

분에서의 재배열 오류로 인해 원문의 의미를 정확히

전달하지 못한 반면, NMT 번역문은 정확한 배열을 보

이고 있다. SMT에서는 비교적 길고 복잡한 문장에서

구문 분석의 오류 전파가 자주 발생하는 것으로 보인다.

표 2 영-일 번역 성능 평가

시스템 BLEU (Juman) RIBES (Juman)

Phrase-based SMT 27.48 0.6837

Hierarchical

Phrase-based SMT30.19 0.7347

Syntax-based SMT 32.63 0.7833

NMT 32.05 0.8012

표 3 영-일 번역 예문

예문

1

입력문

Three towns and eight villages in Kiso District in Nagano Prefecture were investigated as an object area for the investigation.

SMT

번역문

３町と長野県木曽郡における８集落を調査の対象地域として調べた。

NMT

번역문

調査の対象地域として長野県の木曽地区の３つの町と８つの村を調査対象地域として調査した。

예문

2

입력문

The results showed that the friction coefficient of poly(2) brush was remarkably smaller than that of poly(1) brush in water, but reversely larger in air.

SMT

번역문

その結果，ポリ（２）ブラシの摩擦係数は空気中で顕著にポリ（１）水におけるブラシより小さいが，逆に大きいことを示した。

NMT

번역문

その結果，ポリ（２）ブラシの摩擦係数はポリ（１）ブラシのそれより著しく小さいが，空気中では大きくなった。


그러나 NMT는 이러한 오류 전파에서 자유롭고 원거

리 단어 재배열에서 좀더 좋은 결과를 보여준다.

5. 결 론

본 논문에서는 전통적인 방식의 SMT 방식인 구 기반

모델과 계층적 구 기반 모델과 구문 기반 모델을 소개

하고, 최근에 각광받고 있는 Neural Machine Translation (NMT) 모델에 설명하고 이를 영어-일본어 기계번역에

적용하였다. 실험 결과, Attention mechanism을 사용하

는 NMT 모델이 기존의 구 기반 모델과 계층적 구 기반

모델보다 성능이 우수하였으며, 구문분석을 사용하는

구문 기반 모델과 유사한 성능을 보였다.향후 연구로는 NMT 모델의 성능을 개선하고, 한

국어나 일본어, 중국어와 같은 언어에 알맞은 NMT 모델을 개발할 계획이다.

참고문헌

[ 1 ] Papineni, K, et al., "BLEU: a method for automatic evaluation of machine translation," Proceedings of ACL ’02, 2002.

[ 2 ] Och, F. J., "Minimum error rate training in statistical machine translation." Proceedings of ACL ’03, 2003.

[ 3 ] Koehn, P. et al., "Statistical phrase-based translation," Proceedings of NAACL-HLT ’03, 2003.

[ 4 ] Chiang, D., "A hierarchical phrase-based model for statistical machine translation," Proceedings of ACL ’05, 2005.

[ 5 ] Xu, P., et al., "Using a dependency parser to improve SMT for subject-object-verb languages." Proceedings of NAACL-HLT ’09., 2009.

[ 6 ] Goto, I., et al., "Post-ordering by parsing for Japanese-English statistical machine translation," Proceedings of ACL ’12, 2012.

[ 7 ] Ahmed, A. and Hanneman, G., "Syntax-based statistical machine translation: A review," Computational Linguistics, 2005.

[ 8 ] Liu, Y., et al., “Tree-to-string alignment template for statistical machine translation,” Proceedings of Coling-ACL ’06, 2006.

[ 9 ] Koehn, P., et al., “Moses: Open source toolkit for statistical machine translation,” Proceedings of ACL ’07, 2007.

[10] Petrov, S. et al., "Learning Accurate, Compact, and

Interpretable Tree Annotation," Proceedings of Coling-ACL ’06, 2006.

[11] Isozaki, H. et al., “Automatic Evaluation of Translation Quality for Distant Language Pairs,” Proceedings of EMNLP ’10, 2010.

[12] Nakazawa, T. et al., “Overview of the 1st workshop on Asian translation,” Proceedings of WAT ’14, 2014.

[13] Cho, K. et al., “Learning phrase representations using RNN encoder-decoder for statistical machine translation,” Proceedings of EMNLP ’14, 2014.

[14] Bahdanau, D. et al., “Neural machine translation by jointly learning to align and translate,” Proceedings of ICLR’15, arXiv:1409.0473, 2015.

[15] Bastien, F. et al. “Theano: new features and speed improvements,” Deep Learning and Unsupervised Feature Learning NIPS 2012 Workshop. 2012.

이 창 기

1999 KAIST 학사.2001 POSTECH 석사.2004 POSTECH 박사.2004~2012 ETRI 선임연구원.2012~현재 강원대 IT대학 컴퓨터과학과 조교수.관심분야: 자연언어처리, 기계학습, 딥러닝.

Email: [email protected]

김 준 석

1999 경북대학교 컴퓨터공학과 졸업 (학사)2001 포항공과대학교 컴퓨터공학과 졸업 (석사)2001~2007 LG전자기술원 선임연구원

2007~현재 NAVER LABS관심분야: 기계번역, 음성인식, 검색모델링, 자연

언어처리, 대화모델링


이 형 규

2005 고려대학교 컴퓨터학과 졸업 (학사)2014 고려대학교 컴퓨터학과 졸업 (박사)2005~2007 LG전자 MC연구소 연구원

2014~현재 NAVER LABS관심분야: 자연언어처리, 정보추출, 기계번역


이 재 송

2010 한국과학기술원 전산학과 졸업 (학사)2012 한국과학기술원 전산학과 졸업 (석사)2015~현재 NAVER LABS관심분야: 기계번역, 자연언어처리, 기계학습


neural machine translation 기반의 영어-일본어 자동번역

Technology