非连续短语翻译研究

39
非非非非非非非非非 非非非 非非非 2012.11.4 1

Upload: daria-fleming

Post on 01-Jan-2016

35 views

Category:

Documents


1 download

DESCRIPTION

非连续短语翻译研究. 张家俊 宗成庆 2012.11.4. 提纲. 统计机器翻译中的非连续短语问题 非连续短语的分类 非连续短语对翻译质量的影响的全面分析 基于非连续短语的规则过滤 总结. 提纲. 统计机器翻译中的非连续短语问题 非连续短语的分类 非连续短语对翻译质量的影响的全面分析 基于非连续短语的规则过滤 总结. 统计机器翻译中的非连续短语问题. 基于连续短语的翻译. 统计机器翻译中的非连续短语问题. 非连续短语的引入 譬如: 遭受 X 袭击  hit by X. 统计机器翻译中的非连续短语问题. 非连续短语的引入 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 非连续短语翻译研究

非连续短语翻译研究

张家俊 宗成庆2012.11.4

1

Page 2: 非连续短语翻译研究

提纲• 统计机器翻译中的非连续短语问题• 非连续短语的分类• 非连续短语对翻译质量的影响的全面分析• 基于非连续短语的规则过滤• 总结

2

Page 3: 非连续短语翻译研究

提纲• 统计机器翻译中的非连续短语问题• 非连续短语的分类• 非连续短语对翻译质量的影响的全面分析• 基于非连续短语的规则过滤• 总结

3

Page 4: 非连续短语翻译研究

统计机器翻译中的非连续短语问题

• 基于连续短语的翻译

4

欧洲 部分 地区 遭受 洪水 袭击

Europe parts of

(1)

(3)

hit by floods

parts of Europe hit by floods

欧洲 部分 地区 遭受 洪水 袭击

(2)

Page 5: 非连续短语翻译研究

统计机器翻译中的非连续短语问题

• 非连续短语的引入– 譬如:遭受 X 袭击 hit by X

5

遭受

hit by floods

洪水

floods

袭击欧洲 部分 地区

parts of europe

parts of europe hit by floods

Page 6: 非连续短语翻译研究

统计机器翻译中的非连续短语问题

• 非连续短语的引入– 譬如:遭受 X 袭击 hit by X

6

遭受

hit by floods

洪水

floods

袭击欧洲 部分 地区

parts of europe

parts of europe hit by floods

非连续短语的引入有效提升了翻译质量!

Page 7: 非连续短语翻译研究

提纲• 统计机器翻译中的非连续短语问题• 非连续短语的分类• 非连续短语对翻译质量的影响的全面分析• 基于非连续短语的规则过滤• 总结

7

Page 8: 非连续短语翻译研究

非连续短语的分类• 根据源语言端、目标语言端是否连续划分– 仅源端非连续• 遭受 X 袭击 hit by X

– 仅目标端非连续• 考虑 X take X into account

– 两端非连续• 与 X1 有 X2 have X2 with X1

8

Page 9: 非连续短语翻译研究

非连续短语的分类• 对层次短语规则的划分

9

Page 10: 非连续短语翻译研究

非连续短语的分类• 对非连续短语翻译作用的一些研究发现– 在汉语到英语的翻译中,不管是利用兼容非连

续短语的短语翻译模型、层次短语模型还是基于句法树的翻译模型,都一致发现仅源端非连续的翻译规则对翻译质量的提高要远远好于允许目标端非连续的翻译规则

– 仅源端非连续• 遭受 X 袭击 hit by X

10

Page 11: 非连续短语翻译研究

提纲• 统计机器翻译中的非连续短语问题• 非连续短语的分类• 非连续短语对翻译质量的影响的全面分析• 基于非连续短语的规则过滤• 总结

11

Page 12: 非连续短语翻译研究

非连续短语对翻译质量影响的全面分析

• 疑问– 仅源端非连续的翻译规则是否在英语到汉语的

翻译中也更有效?是否在其他语言对上也更有效?

– 非连续短语规则是否在所有语言对之间的翻译都帮助很大?

12

Page 13: 非连续短语翻译研究

非连续短语对翻译质量影响的全面分析

• 实验设置– 翻译语言对• 汉语 - 英语• 德语 - 英语• 法语 - 英语• 西班牙 - 英语

13

Page 14: 非连续短语翻译研究

非连续短语对翻译质量影响的全面分析

• 实验数据规模– 汉语 - 英语• 训练集: 190 万句对• 开发集:汉语英语 MT NIST06, 英语汉语 MT

NIST08 前 800 句• 测试集:汉语英语 MT NIST05 (test-1) MT NIST08

(test-2) , 英语汉语 MT NIST08 的后 1059 句 (test-1) ,汉英测试集 MT NIST05 (test-2)

14

Page 15: 非连续短语翻译研究

非连续短语对翻译质量影响的全面分析

• 实验数据规模– 其他语言对• 训练集:德语 - 英语、法语 - 英语 148 万句对 , 西

班牙语 - 英语 147 万句对• 开发集: WMT2009 第一部分开发集 Devset2009-a• 测试集: WMT2009 第二部分开发集 Devset2009-b

(test-1), WMT2009 的测试集 Testset2009 (test-2)

15

Page 16: 非连续短语翻译研究

非连续短语对翻译质量影响的全面分析

• 实验结果与分析

16

gaps 汉语英语 英语汉语tuning test-1 test-2 tuning test-1 test-2

CR 28.76 28.07 21.78 30.44 30.21 25.44+SDR 29.46 28.65 22.24 30.60 30.22 25.54+TDR 28.86 28.26 21.90 30.94 30.75 25.73+BDR 29.31 28.78 22.33 30.99 30.85 25.62ALL 29.69 28.87 22.68 31.47 31.31 25.89

汉语 - 英语

Page 17: 非连续短语翻译研究

非连续短语对翻译质量影响的全面分析

• 实验结果与分析

17

gaps 汉语英语 英语汉语tuning test-1 test-2 tuning test-1 test-2

CR 28.76 28.07 21.78 30.44 30.21 25.44+SDR 29.46 28.65 22.24 30.60 30.22 25.54+TDR 28.86 28.26 21.90 30.94 30.75 25.73+BDR 29.31 28.78 22.33 30.99 30.85 25.62ALL 29.69 28.87 22.68 31.47 31.31 25.89

汉语 - 英语

Page 18: 非连续短语翻译研究

非连续短语对翻译质量影响的全面分析

• 实验结果与分析

18

gaps 汉语英语 英语汉语tuning test-1 test-2 tuning test-1 test-2

CR 28.76 28.07 21.78 30.44 30.21 25.44+SDR 29.46 28.65 22.24 30.60 30.22 25.54+TDR 28.86 28.26 21.90 30.94 30.75 25.73+BDR 29.31 28.78 22.33 30.99 30.85 25.62ALL 29.69 28.87 22.68 31.47 31.31 25.89

汉语 - 英语

Page 19: 非连续短语翻译研究

非连续短语对翻译质量影响的全面分析

• 实验结果与分析

19

法语 - 英语

gaps 法语英语 英语法语tuning test-1 test-2 tuning test-1 test-2

CR 22.37 22.58 21.94 21.95 22.05 21.36

+SDR 22.54 22.70 22.01 21.93 21.94 21.10

+TDR 22.51 22.53 22.05 22.06 22.00 21.35

+BDR 22.61 22.68 21.98 22.27 22.11 21.53

ALL 22.58 22.72 21.80 22.24 22.08 21.50

Page 20: 非连续短语翻译研究

非连续短语对翻译质量影响的全面分析

• 实验结果与分析

20

法语 - 英语

gaps 法语英语 英语法语tuning test-1 test-2 tuning test-1 test-2

CR 22.37 22.58 21.94 21.95 22.05 21.36

+SDR 22.54 22.70 22.01 21.93 21.94 21.10

+TDR 22.51 22.53 22.05 22.06 22.00 21.35

+BDR 22.61 22.68 21.98 22.27 22.11 21.53

ALL 22.58 22.72 21.80 22.24 22.08 21.50

Page 21: 非连续短语翻译研究

非连续短语对翻译质量影响的全面分析

• 实验结果与分析

21

法语 - 英语

gaps 法语英语 英语法语tuning test-1 test-2 tuning test-1 test-2

CR 22.37 22.58 21.94 21.95 22.05 21.36

+SDR 22.54 22.70 22.01 21.93 21.94 21.10

+TDR 22.51 22.53 22.05 22.06 22.00 21.35

+BDR 22.61 22.68 21.98 22.27 22.11 21.53

ALL 22.58 22.72 21.80 22.24 22.08 21.50

Page 22: 非连续短语翻译研究

非连续短语对翻译质量影响的全面分析

• 实验结果与分析

22

德语 - 英语

gaps 德语英语 英语德语tuning test-1 test-2 tuning test-1 test-2

CR 18.25 19.05 15.83 12.78 13.02 10.82

+SDR 18.50 19.44 15.85 12.97 13.20 11.09

+TDR 18.41 19.15 15.70 12.91 13.24 11.15

+BDR 18.51 19.42 15.69 12.82 13.32 11.24

ALL 18.60 19.45 15.92 13.03 13.18 10.98

Page 23: 非连续短语翻译研究

非连续短语对翻译质量影响的全面分析

• 实验结果与分析

23

德语 - 英语

gaps 德语英语 英语德语tuning test-1 test-2 tuning test-1 test-2

CR 18.25 19.05 15.83 12.78 13.02 10.82

+SDR 18.50 19.44 15.85 12.97 13.20 11.09

+TDR 18.41 19.15 15.70 12.91 13.24 11.15

+BDR 18.51 19.42 15.69 12.82 13.32 11.24

ALL 18.60 19.45 15.92 13.03 13.18 10.98

Page 24: 非连续短语翻译研究

非连续短语对翻译质量影响的全面分析

• 实验结果与分析

24

德语 - 英语

gaps 德语英语 英语德语tuning test-1 test-2 tuning test-1 test-2

CR 18.25 19.05 15.83 12.78 13.02 10.82

+SDR 18.50 19.44 15.85 12.97 13.20 11.09

+TDR 18.41 19.15 15.70 12.91 13.24 11.15

+BDR 18.51 19.42 15.69 12.82 13.32 11.24

ALL 18.60 19.45 15.92 13.03 13.18 10.98

Page 25: 非连续短语翻译研究

非连续短语对翻译质量影响的全面分析

• 实验结果与分析

25

西班牙语 - 英语

gaps 西班牙语英语 英语西班牙语tuning test-1 test-2 tuning test-1 test-2

CR 23.62 23.50 22.17 23.10 22.95 21.14

+SDR 23.56 23.47 22.07 23.24 23.07 21.37

+TDR 23.81 23.62 22.20 23.17 22.95 21.31

+BDR 23.78 23.55 22.40 23.63 23.15 21.38

ALL 23.59 23.46 22.03 23.50 23.13 21.44

Page 26: 非连续短语翻译研究

非连续短语对翻译质量影响的全面分析

• 实验结果与分析

26

西班牙语 - 英语

gaps 西班牙语英语 英语西班牙语tuning test-1 test-2 tuning test-1 test-2

CR 23.62 23.50 22.17 23.10 22.95 21.14

+SDR 23.56 23.47 22.07 23.24 23.07 21.37

+TDR 23.81 23.62 22.20 23.17 22.95 21.31

+BDR 23.78 23.55 22.40 23.63 23.15 21.38

ALL 23.59 23.46 22.03 23.50 23.13 21.44

Page 27: 非连续短语翻译研究

非连续短语对翻译质量影响的全面分析

• 实验结果与分析

27

西班牙语 - 英语

gaps 西班牙语英语 英语西班牙语tuning test-1 test-2 tuning test-1 test-2

CR 23.62 23.50 22.17 23.10 22.95 21.14

+SDR 23.56 23.47 22.07 23.24 23.07 21.37

+TDR 23.81 23.62 22.20 23.17 22.95 21.31

+BDR 23.78 23.55 22.40 23.63 23.15 21.38

ALL 23.59 23.46 22.03 23.50 23.13 21.44

Page 28: 非连续短语翻译研究

非连续短语对翻译质量影响的全面分析

• 结论– 若源端非连续在一个翻译方向上更有效,那么

目标端非连续在相反的翻译方向上更有效– 非连续短语并不是在任何语言对的翻译中都帮

助很大

28

Page 29: 非连续短语翻译研究

提纲• 统计机器翻译中的非连续短语问题• 非连续短语的分类• 非连续短语对翻译质量的影响的全面分析• 基于非连续短语的规则过滤• 总结

29

Page 30: 非连续短语翻译研究

基于非连续短语规则过滤• 基于非连续短语的发现– 非连续短语规模庞大,但绝大多数对翻译质量

没有帮助

30

Page 31: 非连续短语翻译研究

基于非连续短语规则过滤• 基于功能的翻译规则细分– 完全词汇化短语规则 (LPR)– 调序规则 (RR) ,譬如: uX Xu– 源端非连续规则 (SDR)– 目标端非连续规则 (TDR)– 两端非连续规则• 严格两端非连续规则 (SBDR) , uXvu’Xv’ (u,v 和

u’,v’ 需交叉对齐 )• 一个非终结符的复合规则 (CR1NT)• 两个非终结符的复合规则 (CR2NT)

31

Page 32: 非连续短语翻译研究

基于非连续短语规则过滤• 实验结果

32

role tuning test-1rules BLEU rules BLEU

+TDR 1.27 23.81 1.28 23.62-RR1NT 0.70 23.70 0.71 23.53-RR1NT

-RR0.66 23.86 0.67 23.61

-RR1NT-RR2NT

-RR0.40 23.35 0.41 23.29

ALL 4.13 23.59 4.23 23.46

西班牙语英语

Page 33: 非连续短语翻译研究

基于非连续短语规则过滤• 实验结果

33

role tuning test-1rules BLEU rules BLEU

+TDR 1.27 23.81 1.28 23.62-RR1NT 0.70 23.70 0.71 23.53-RR1NT

-RR0.66 23.86 0.67 23.61

-RR1NT-RR2NT

-RR0.40 23.35 0.41 23.29

ALL 4.13 23.59 4.23 23.46过滤 70%的规则数目!

Page 34: 非连续短语翻译研究

基于非连续短语规则过滤• 实验结果

34

role tuning test-1rules BLEU rules BLEU

+TDR 1.27 23.81 1.28 23.62-RR1NT 0.70 23.70 0.71 23.53-RR1NT

-RR0.66 23.86 0.67 23.61

-RR1NT-RR2NT

-RR0.40 23.35 0.41 23.29

ALL 4.13 23.59 4.23 23.46过滤 84%的规则数目!

Page 35: 非连续短语翻译研究

基于非连续短语规则过滤• 实验结果

35汉语英语

roletune test-1

rules BLEU rules BLEUALL 0.6 29.69 0.69 28.87

-CR1NT 0.37 29.20 0.43 28.27-CR2NT 0.48 29.85 0.56 28.86

-RR 0.58 29.24 0.67 28.34-SDR 0.58 29.35 0.67 28.50-TDR 0.59 29.64 0.68 28.72

-SBDR 0.58 29.40 0.69 28.58

Page 36: 非连续短语翻译研究

基于非连续短语规则过滤• 实验结果

36过滤 20%的规则数目!

roletune test-1

rules BLEU rules BLEUALL 0.6 29.69 0.69 28.87

-CR1NT 0.37 29.20 0.43 28.27-CR2NT 0.48 29.85 0.56 28.86

-RR 0.58 29.24 0.67 28.34-SDR 0.58 29.35 0.67 28.50-TDR 0.59 29.64 0.68 28.72

-SBDR 0.58 29.40 0.69 28.58

Page 37: 非连续短语翻译研究

提纲• 统计机器翻译中的非连续短语问题• 非连续短语的分类• 非连续短语对翻译质量的影响的全面分析• 基于非连续短语的规则过滤• 总结

37

Page 38: 非连续短语翻译研究

总结• 非连续短语在不同语言对的翻译中作用差

别很大• 源端非连续短语、目标端非连续短语对翻

译的作用基本符合对称现象• 根据非连续短语的分析,基于功能的规则

过滤方法可以有效地去除大量无用规则

38

Page 39: 非连续短语翻译研究

39