cwmt 2008 评测 技术报告
DESCRIPTION
CWMT 2008 评测 技术报告. 机器智能与翻译实验室 哈尔滨工业大学 2008.11. 提交系统. 机器翻译 : 2 机器翻译系统 + 1 系统融合结果 系统融合 : 3 融合系统. 机器翻译主评系统概述. 4 元词形 / 词性语言模型. 基于词性的调序模型. Mosses 解码器. 引入句法特征的翻译模型. 语言模型特征. 4 元词形序列 4 元词性序列. 调序模型特征. Distance Backward-Monotone Backword-Swap Backword-Discontinuous Forward-Monotone - PowerPoint PPT PresentationTRANSCRIPT
CWMT 2008 评测技术报告
机器智能与翻译实验室
哈尔滨工业大学
2008.11
提交系统
• 机器翻译 : 2 机器翻译系统 + 1 系统融合结果
• 系统融合 : 3 融合系统
机器翻译主评系统概述
Mosses 解码器
4 元词形 / 词性语言模型
基于词性的调序模型
引入句法特征的翻译模型
语言模型特征
• 4 元词形序列
• 4 元词性序列
调序模型特征• Distance
• Backward-Monotone
• Backword-Swap
• Backword-Discontinuous
• Forward-Monotone
• Forward-Swap
• Forward-Discontinuous
Translation Model Features
• F2E 短语翻译概率• F2E 词汇翻译概率• E2F 短语翻译概率• E2F 词汇翻译概率• 短语惩罚 • 源语言短语结构性分数• 目标语短语结构性分数
元结构 (Meta Structure )
A B C D E F
s1 s2 s3 s4 s5 s6
G H
I
S-PA B C D E F
G H
I
An SMS of the parse tree
A B C D E F
G H
Another SMS of the parse tree
A B C D E F
G H
An exampl e for RMs
RM1 RM2
t1 t2 t3
AA BB CC
T-P
抽取短语及元结构元结构随短语一起被抽取出来 :
S4|D S5|E S6|F ||| 源短语
t3|CC ||| 目标短语
D*H ||| 源短语元结构序列
CC 目标语元结构
结构性分数
Prob(P)
structure)metasinglebycoverdisProb(PP)Str_Score(
Translation Model Features
• F2E 短语翻译概率• F2E 词汇翻译概率• E2F 短语翻译概率• E2F 词汇翻译概率• 短语惩罚 • 源语言短语结构性分数• 目标语短语结构性分数
机器翻译对比系统概述
Mosses 解码器
4 元语言模型
调序模型
对齐方法 1
对齐方法 2
融合翻译模型 A
融合翻译模型 B
融合策略 A
融合策略 B
两种对齐方法• GIZA++
• HIT-MITLAB Aligner(Yajuan Lv et al., 2003)
– 统计与字典相结合的方法– 采用贪心算法
对齐方法的差异测试数据 : SSMT07 汉英训练数据集 - 815544 句
23/4/21 13
集合 对齐对H 7,089,061
G 10,675,740
H∩G 4,787,381
H G∪ 12,977,420
H-G 2,301,680
G-H 5,888,359
H∩G = 45% *G = 67%*H
G : Giza++H : HIT
对齐质量• 定义一个对齐对集合 S 的平均分数 :
Plex_f2n & Plex_n2f 为双向的词汇翻译概率表
2( , )
f2n
( | )
AvgScore (S)=( )
f nf e S
Plex e f
sizeof S
2( , )
n2f
( | )
AvgScore (S)=( )
n ff e S
Plex f e
sizeof S
对齐质量
集合 AvgScore_f2n AvgScore_n2f
H 0.23 0.26
G 0.19 0.21
H∩G 0.31 0.35
H G∪ 0.17 0.18
H-G 0.05 0.06
G-H 0.10 0.10
H∩G > H > G > H G > H-G>G-H∪
两种融合策略• 数据级 :
• 将两种对齐方法产生的对齐语料合并• 用合并后的语料训练翻译模型
• 模型级 :• 分别用两种对齐结果训练获得两个翻译模型• 将两个翻译模型合并,作为最终的翻译模型
两种策略性能比较训练数据 : SSMT07-815544 sentences测试数据 SSMT07 C-E test data
BLEU BLEU after PP UNK
H 18.24 18.84 463
G 19.61 20.15 477
Data Level 20.34 20.83 363
Model Level 19.39 19.94 383
CWMT 2008 机器翻译评测结果
汉英新闻 英汉新闻 英汉科技
主系统 0.2051 0.2532 0.3743
对比系统 0.2104 0.2425 0.4620
主系统 : 引入元结构特征的短语统计翻译模型对比系统 : 引入对齐融合策略的短语统计翻译模型
语言学分析 (基于 MS-Woodpecker)
汉英新闻 英汉新闻 英汉科技
名词 2 11 11
形容词 5 7 7
动词 2 5 5
代词 3 1 2
副词 2 6 5
量词 - 11 11
数量短语 3 9 5
动词短语 2 6 6
谓宾短语 2 5 5
主谓短语 1 7 8
介宾短语 5 5 7
汉英新闻 英汉新闻 英汉科技
名词 2 11 11
形容词 4 10 10
动词 1 8 8
代词 1 4 4
副词短语 1 4 4
形容词变形 6 3 10
数量短语 10 10 10
连词短语 1 7 7
谓宾短语 1 10 10
主谓短语 2 8 4
中文检测点 英文检测点
主系统在 3 个评测中的排名 : 汉英新闻 (2/12) ; 英汉新闻 (8/11) ; 英汉科技 (7/9)
系统融合
• 基于加权最小贝叶斯风险的句子级融合 .
• 基于多特征及最小化错误训练的句子级融合 .
• 词汇级与句子级融合相结合的方法 .
加权最小贝叶斯风险方法(MBR)
该方法基于最小贝叶斯风险 (Minimum Bayes Risk ) ,它在所有候选译
文中寻找一个相对于其他所有译文具有最小贝叶斯风险的译文作为最佳译文 :
EE
mbr EELFEPE )',()|(minarg'
加权最小贝叶斯风险方法(MBR)
其中L(E,E’) 为风险函数,这里我们使用两个译文的 Bleu-4得分的倒数来表示 .
P(E,F) 为译文与源语言句子的联合概率 , 这里我们使用译文的系统得分来表示 .
EE
mbr EELFEPE )',()|(minarg'
'
),'(
),()|(
E
FEP
FEPFEP
加权最小贝叶斯风险方法(MBR)
我们使用每个系统在开发集上的 Bleu-4得分的归一化结果作为这个系统的权重,该权重被赋予每个属于该系统的译文 :
E
E
EEmbr EELFEPW
WE )',()|(
1 minarg''
多特征方法 在该方法中,我们使用多个句子级特征,对数线性模型和最小化错误训练方法来重新计算每个译文的模型得分,并将得分最高的译文作为最佳译文 :
Pij : 第 i个系统的第 j个译文的模型得分
Wil : 第 i个系统的第 l个特征的权重
Xijl : 第 i个系统的第 j个译文的第 l个特征的值
L
lijlil
ij
ij xwP
P
11log
多特征方法
特征:1. 系统内排名2. 系统得分的系统内归一化结果3. 系统得分4. 词汇数
所有特征值被归于 [0,1] 之间
L
lijlil
ij
ij xwP
P
11log
词汇级与句子级相结合的方法 (conMBR)
该方通过两个步骤将词汇级融合方法与句子级融合方法相结合:
• 首先,运用词汇级融合方法生成一个新的最佳译文: Econ .
• 然后,在原译文中,选择与 Econ 具有最小风险的译文作为最终的最佳译文。
),(1
minarg conEE
conMBR EELW
E
融合性能SSMT 2007 Test _Data
• 汉英翻译 .
• 新闻领域• 1002 句
BLEU
参与融合的系统的译文Sys_1 0.3390
Sys_2 0.2823
Sys_3 0.2818
Sys_4 0.2803
Sys_5 0.2800
融合后的译文MBR 0.3420
conMBR 0.3370
Multi-Features 0.3402
MBR (Sys_2,3,4,5) 0.2932
Upper bound 0.4102
融合性能CWMT 2008 Test _Data
• 汉英翻译 .
• 新闻领域• 4012 句
BLEU
参与融合的系统的译文Sys_1 0.2809
Sys_2 0.2412
Sys_3 0.2390
Sys_4 0.2331
Sys_5 0.2188
融合后的译文MBR 0.2944
conMBR 0.2808
Multi-Features 0.2192
多特征方法在机器翻译评测中的结果
汉英新闻 英汉新闻 汉英科技
主系统 0.2051 0.2532 0.3743
对比系统 0.2104 0.2425 0.4620
融合结果 0.2058 0.2581 0.4542
谢谢 !