cwmt’08 统计机器翻译研讨会自动化所技术报告

CWMT’08统计机器翻译研讨会自动化所技术报告

何彦青2008年 11月 27日

报告提纲引言参评系统描述实验结果结论

引言自动化所作为参评单位之一参

加了所有的四个评测任务，即：新闻的汉英翻译评测任务；新闻的英汉翻译评测任务；科技的英汉翻译评测任务新闻的汉英融合评测任务。

参评系统描述在这次评测中我们共有四个系统参

加，即：自主开发的基于短语的翻译系统（ BPSMT ）；开源基于短语的翻译系统（ Moses ）；基于中心词的概率化句法调序系统 Bandore ；基于词语调序的对齐方法融合系统 (WRABC) 。

BPSMT

模型训练：语言模型利用开源 Srilm 工具包来获取

四元文法概率信息；翻译模型主要是根据开源 Moses 工具包

来获取翻译短语表，其中的参数设置都利用 Moses 工具包的默认设置；

解码算法采用 Beam-Search 进行单调搜索获取翻译结果。

Moses

模型训练：利用 Moses 的默认设置来进行

训练解码只用到了词这一个信息作为特征，

没有使用因子模型。

Bandore

作为前端调序处理；关键思想：

基于中心词的调序，中心词包括动词与名词，调序的候选对象是动词修饰语以及名词修饰语；

Bandore 方法概要：

由一个源语言句子得到一棵句法树；从句法树的根开始递归地考察每一个动词短语

和名词短语，并利用最大熵的方法指导训练中心词（动词、名词）的修饰语是否需调至中心词的另一侧。

WRABC 源语言句子

…………

对齐参考

一致对齐

混淆网络

合并相同的词

目标语言句子

混淆网络解码

汇总的 N-Best 列表

系统1N-Best 列表

系统nN-Best 列表

MBR 解码

对齐方法

WRABC （续）在基于词的系统融合流程中，词对齐的质

量直接关系到系统融合的性能。现阶段用于系统融合的词对齐包括基于词

错误率 (WER) 的词对齐和基于翻译错误率(TER) 的词对齐；

WRABC （续） WER 词对齐方法和 TER 词对齐方法能较

好地对齐词序相同的翻译假设。当对齐的翻译假设间词序有很大不同时，

WER 词对齐方法完全忽略词序的不同； TER 词对齐准则虽然理论上解决了这个问

题，但是 TER 词对齐准则采用的贪心搜索算法，在很多情况下无法实现大范围的词语块的调序。

WRABC （续）我们使用基于词语调序的对齐方法（ WR

A ）。找出待对齐的翻译假设和参考对齐之间的所有

公共的连续词语块；进行局部对齐；在局部对齐关系中寻找交叉的词语块对；利用已对齐的局部词语块的位置作为参考，对

有词序变化的词语块位置进行调整。

WRABC （续）采用单纯形算法调整参数；

在词对齐时选择的参考对齐是从所有参与融合系统的 top-Best 中抽取得到：依次把每个系统的 top-Best 用 BLEU4 打分 , 打分时参

考译文为其它系统的 top-Best ，然后用 MBR 解码选择得分最高的 top-Best 为参考对齐；

操作系统性能CPU 内存操作系统

Intel Xeon E5335 2.0G

16G Ubuntu-server 8.04

评测实验及结果

机器翻译评测新闻汉英翻译评测；新闻英汉翻译评测；科技英汉翻译评测；系统融合评测新闻汉英融合评测；

机器翻译评测数据准备短语表的获取开发集的获取对测试语料的特殊处理实验结果

数据准备根据 CWMT’08 发布的新闻训练语料过滤后的 LDC 语料规

模4.07M

根据 CWMT’08 发布的科技训练语料过滤后的 LDC 语料规模

2.41M

根据 CWMT’08 发布的科技训练语料从 CWMT’08 发布的新闻

训练语料中过滤出的训练语料规模

532K

最终用于 CWMT’08 新闻翻译模型的训练语料规模 4.9M

最终用于 CWMT’08 科技翻译模型的训练语料规模 3.6M

最终用于 CWMT’08 新闻语言模型的训练语料规模 7.6M

最终用于 CWMT’08 科技语言模型的训练语料规模 7.4M

预处理对中文数据进行的处理：

中文的分词， ICTCLAS3.0 ；全角变半角，

对英文数据进行的处理：大写转小写标点符号的分离处理。

短语表的获取所有机器翻译参评项目的短语表都是

利用 Moses 工具包进行训练获取的，其中的参数都利用 Moses 工具包的默认设置。

开发集的获取评测任务新闻汉英新闻英汉科技英汉

开发集规模2652 个汉语句子， 4 个参考答案

2046 个英语句子， 4 个参考答案

2593 个英语句子， 4 个参考答案

开发集的获取新闻评测任务

以 SSMT07 的测试集作为基准利用相似度从剩余开发集中过滤一部分开发集与 SSMT07 测试集合并

科技评测任务开发集 1 ：以测试集为基准；利用相似度从科技训练

语料中抽取一部分作为开发集；开发集 2 ：利用测试集跟新闻发布训练中的英汉开发

集的相似度来进行筛选过滤出来把这两个开发集合并成最终用于科技评测任务的开发

集。

对测试语料的特殊处理这次评测使用的是时事新闻语料和科技语

料包含大量的命名实体，包括：人名、地名、机构名、时间、数字及未登陆词

对测试语料进行特殊处理是很有必要的。

对测试语料的特殊处理对这些实体词进行特殊处理并获得翻译列

表，设置一个较大的概率添加到训练获得的翻译短语对中对测试语料进行解码。

命名实体识别翻译中文命名实体识别

采用 [Wu ， 2005] 开发的多知识源融合的汉语实体识别系统进行汉语命名实体的识别；

英文命名实体识别采用公开的 Mallet软件包中的基于条件随机场

模型（ Conditional Random Fields ， CRF ）的英语实体标注工具进行英语命名实体的识别标注；

命名实体识别翻译汉英实体翻译

对人名和地名：采用字典查询方式进行翻译机构名的翻译：利用基于语块的层次翻译模型；

英汉实体翻译对各类实体都采用逐词查询字典的方式进行翻译；

所利用的词典主要是 LDC2005T34 实体词典和 LDC2002L27 词典。

时间数字识别与翻译时间数字识别和翻译主要是利用规则方法，将时间数字细化为六类来进行处理： 1 、数量（ Number ）； 2 、序数词（ Ordinal ）； 3 、号码（ Figure ）； 4 、月份（ Month ）； 5 、日期（ Date ）； 6 、星期（ Week ）。

未登陆词识别与翻译采用 n 元语法进行识别

首先通过对比测试集和训练集，找出测试集中的一元未登录词，并将中文一元未登录词周围的三元词组都作为未登录词，将英文一元未登录词周围的五元未登录词组都作为未登录词；

未登录词的翻译主要是依赖 LDC2005T34 实体词典和 LDC200

2L27 词典

后处理汉语的后处理：

合并空格英文的后处理：

字母大小写标点符号的合并。

实验结果评测系统 BLEU-4大小写不敏感打分（基于词）

Bandore 0.3286

Moses 0.3271

Combine 0.3135

BP 0.3028

评测系统 BLEU-4大小写不敏感打分（基于词）Combine 0.2510

Moses 0.2398

BP 0.2391

评测系统 BLEU-4大小写不敏感打分（基于词）Moses 0.7570

新闻汉英评测任务在开发集上的打分

新闻英汉评测任务在开发集上的打分

科技评测任务在开发集上的打分

实验结果（续）

评测任务 BLEU-4 大小写敏感新闻汉英评测任务（ Primary） 0.2188

新闻英汉评测任务（ Primary） 0.2970

科技评测任务（ Primary） 0.4718

科技评测任务（ Contrast） 0.4421

所有翻译评测任务在测试集上的翻译结果

系统融合评测

UNIT U1(1,2) U3(1,2) U4 U7 U8 U10(1,2,3) U11 U12(1,2) U14(1,2,3) U15

BLEU 25.65 25.58 23.01 26.68 27.24 15.77 19.59 20.79 21.67 21.69 17.84 29.81 21.97 20.97 20.52 21.23 24.96

10 家单位的 17个系统在开发集上的 BLEU打分

不同方式的系统融合后翻译结果的 BLEU得分 (WRABC)

翻译假设数目采用的组合方式 BLEU

1-Best

U1(1,2) U3(1,2) U4 U7 U8 U10(1,2,3) U11 U12(1,2) U14(1,2,3) U15 26.19

U1(1,2) U3(1,2) U4 U10(1,2,3) U12(1,2) U14(1,2,3) U15

26.20

U1(1) U3(1) U4 U10(1) U12(1) U14(1) U15 29.77

10-Best

U3(1,2) U4 U8 U10(1,2,3) U11 U12(1,2) U14(1,2,3) 25.83

U3(1,2) U4 U10(1,2,3) U12(1,2) U14(1,2,3) 26.20

U3(1) U4 U10(1) U12(1) U14(1) 27.97

系统融合评测（续）

组合方式词对齐策略 BLEU

U1(1) U3(1) U4 U10(1) U12(1) U14(1) U15

1-Best

WER 30.51

TER 29.82

WRA 29.77

U3(1) U4 U10(1) U12(1) U14(1)10-Best

WER 28.35

TER 28.01

WRA 27.97

利用不同的词对齐策略进行系统融合后翻译结果的 BLEU得分

评测任务 BLEU-4 大小写敏感新闻汉英融合系统（ Primary） 0.2679

新闻汉英融合系统（ Contrast ） 0.2602

系统融合评测任务在测试集上的翻译结果

结论 BPSMT 只是使用了单调解码，因为没有加入调序模块，所以翻译结果并不是十分理想；

Bandore 系统的调序模型以前主要针对口语语料来做的，这次针对新闻语料只是对测试语料进行了调序，效果上也不太理想，要想取得更好的效果，我们需要对训练语料以及开发集都进行调序，以取得训练与测试集的一致性；

结论融合系统采用了目前主流的系统融合方法，并做

了部分改进，但是还有很多工作需要进一步深入研究和完善，例如，组成混淆网络的词对齐没有利用近义词信息和词根信息，语言模型也只使用了 4 元语言模型等；

总之，希望通过这次评测，能够跟其它的研究机构和参评单位进行一次很好的沟通，努力学习其它参评系统的特长，总结经验，从而能够取长补短，进一步改进和完善我们目前的系统。

谢谢！谢谢！

cwmt’08 统计机器翻译研讨会自动化所技术报告

Documents