[論文紹介]selecting syntactic, non redundant segments in active learning for machine translation

25
NAACL2016 Selec.ng Syntac.c, Non-redundant Segments in Ac.ve Learning for Machine Transla.on Akiva Miura, Graham Neubig, Michael Paul, Satoshi Nakamura 紹介者 関沢祐樹 首都大学東京 16/06/23 1

Upload: sekizawayuuki

Post on 12-Apr-2017

412 views

Category:

Education


3 download

TRANSCRIPT

Page 1: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation

NAACL2016Selec.ngSyntac.c,Non-redundantSegmentsinAc.veLearningforMachineTransla.on

AkivaMiura,GrahamNeubig,

MichaelPaul,SatoshiNakamura

紹介者 関沢祐樹首都大学東京

16/06/23 1

Page 2: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation

Selec.ngSyntac.c,Non-redundantSegmentsinAc.veLearningforMachineTransla.on

•  背景•  SMTにおける能動学習はラベル無しデータから

情報性の高いデータを選択し、効率的に学習•  選択されたものが、不変か、翻訳しやすいかが不明•  同じような文脈から冗長なフレーズを選択

•  提案手法(2つ)•  文法的に不変であるフレーズを選択•  冗長なフレーズを減少Ø BLEU値が向上, 翻訳の確信度の向上

16/06/23 2

Page 3: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation

Introduc.on

•  フレーズの選択•  右の例だと3つ

•  重なっている部分が冗長 à効率が悪くなる•  フレーズのマージを行う•  フレーズ長を任意にでき、線形時間で計算可能

•  フレーズの一部分を取り出す à 翻訳しづらい•  構文木を用いて、文法的に正しいものを選択

16/06/23 3

Page 4: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation

アルゴリズム

•  SrcPool: 翻訳候補を含む原言語データ•  Translated:翻訳されたパラレルデータ(フレーズのペア)•  Oracle:入力フレーズに対する正しい翻訳を与える

•  ex:humantranslator

•  LoopUn.lStopCondi.on:•  TM ßTrainTransla.onModel(Translated)•  NewSrc ßSelectNextPhrase(SrcPool,Translated,TM)•  NewTrg ßGetTransla.on(Oracle,NewSrc)•  Translated ßTranslated∪{〈NewSrc,NewTrg〉}

16/06/23 4

Page 5: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation

既存手法

1.  SentenceSelec.onusingN–GramFrequency•  カバーできていないフレーズが最も多く出現する文を選択

(上限n-gram)•  短所:すでにパラレルデータでカバーされているフレーズ

を多く含む à コスト高

2.  PhraseSelec.onusingN–GramFrequency•  最も多く出現し、まだカバーされていないh-gramフレーズを

選択(少ないデータの追加になる)•  短所:冗長性、フレーズの重なり

16/06/23 5

Page 6: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation

冗長なフレーズの削除

•  Maximalsubstrings•  フレーズpiがコーパス上に何回現れるかocc(pi)

occが等しい場合、マージするマージできなくなったフレーズ:最長単語列(p2,p3)

16/06/23 6

Page 7: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation

冗長なフレーズの削除

•  利点•  重なるフレーズを最長句のみに削減,長さの上限無し•  最長句、その発生回数はenhancedsuffixarraysによって

線形時間(文書長)で計算される

•  欠点•  先ほどの例だとp2とp3が残るがやはり冗長à共起回数がほぼ等しい場合は削除

16/06/23 7

λを用いる(0〜1の実数値、本研究では0.5)

Page 8: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation

文法的な判断

•  原言語文を解析し、全ての部分木を走査•  文法的に、句である部分を全て抽出

16/06/23 8

Page 9: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation

simula.onexperiment•  データを増やすこと、それによる再トレーニングによって翻訳の

accuracyがどうなるかを評価•  人手翻訳なし、データの追加方法の良さを見る

•  英仏の翻訳•  スタート:Europarlcorpus(WMT2014)•  追加:EMEA,PatTR,Wikipedia.tle(全てMedical)

•  英日の翻訳•  スタート:カバレージの広い例文コーパス(英辞郎辞書)•  追加 :ASPEC科学ペーパーのアブストラクトのコーパス•  日本語のコーパスのトークン化ではKyteaを用い、60以上の長さの文は

除去 à解析、アライメントの正確さを確実

16/06/23 9

Page 10: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation

データの詳細

16/06/23 10

Page 11: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation

実験設定

•  フレーズベースSMT(MosesToolkit)を使用•  効率的再トレーニングのためにinc-giza-ppを使用、

これは、 単語アライメントを取るGIZA++で、トレーニングデータを増やすこと、変化できるsuffixarrayフレーズテーブル(Moses) を含む。

•  言語モデルは5-gram•  デコーディングのパラメータ : 毎回調整は非現実的•  ベースラインのBLEU値が最大となるパラメータ

16/06/23 11

Page 12: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation

8つの手法

•  sent-rand:文をランダムに選択•  4gram-rand:n-gram: 単語列をランダムに選択、上限は4•  sent-by-4gram-freq(baseline1):まだカバーされていないフレーズ(最長

4)を最も多く含む文を選択4gram-freq(baseline2):最も多く出現する、まだカバーされていないフレーズ(最長4)を選択

•  以下は提案•  maxsubst-freq:最も多く出現する、まだカバーされていない

最長句を選択•  reduced-maxsubst-freq:最も多く出現する、まだカバーされていない

凖最長句を選択•  struct-freq:部分木から抽出された句のうち、最も多く出現する、

まだカバーされていない句を選択•  reduced-struct-freq:部分木から抽出された句のうち、最も多く出現する、

まだカバーされていない凖最長句を選択

16/06/23 12

Page 13: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation

result:BLEUとAddWord英仏

•  冗長句を除くことは良いといえる

16/06/23 13

Page 14: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation

result:BLEUとAddWord英日

16/06/23 14

Page 15: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation

result: フレーズ数とLength

•  木構造を用いた方法に注目すると、他のよりも短いフレーズを選択している

16/06/23 15

Page 16: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation

result:Coverage

16/06/23 16

Page 17: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation

人手による翻訳の質の評価

•  翻訳の専門家3人に依頼

16/06/23 17

Page 18: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation

実験設定

•  beseline:sent-by-4gram-freqと4-gram-freq•  提案手法:reduced-struct-freq•  英日と同じ実験設定•  目的言語モデルのトレーニングでは、SRILM

を使用して集めたデータを補間•  パープレキシティが最大になるようにパラメー

タ調整

16/06/23 18

Page 19: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation

result:BLEUとAddWords

16/06/23 19

Page 20: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation

result:BLEUと.me

16/06/23 20

Page 21: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation

result:TimeとConfidence

•  収集単語数:10,000

3の割合:79%

16/06/23 21

Page 22: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation

result:TimeとPhraseLength

•  length1が時間がかかる•  専門用語になりやすく、辞書を見る必要あり

16/06/23 22

Page 23: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation

result:ConfidenceとPhraseLength

•  1のとき低い àbaselineはlength1が少ない•  提案手法はlength2以降も安定

16/06/23 23

Page 24: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation

result:Accuracy(BLEUScore)

•  確信度で分けて実験•  確信度1を除いた時は総じて良くなる•  一方3のみの場合は悪くなる•  データを加えない場合はBLEU:9.37%

16/06/23 24

Page 25: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation

Selec.ngSyntac.c,Non-redundantSegmentsinAc.veLearningforMachineTransla.on

•  提案手法•  文法的に不変であるフレーズを選択•  冗長なフレーズを減少Ø BLEU値が向上, 翻訳の確信度の向上

•  改善点•  翻訳に時間がかかる専門用語の対処

•  未知語を対処する方法の組み合わせ•  必要な時間によって選択した単語列を最適化する

•  柔軟な文法の制限による様々なフレーズのアノテーション•  例えば”oneoftheprecedingX”

16/06/23 25