cwmt 2008 评测 技术报告

30
CWMT 2008 评评评评评评 评评评评评评评评评评 评评评评评评评 2008.11

Upload: onawa

Post on 21-Jan-2016

171 views

Category:

Documents


0 download

DESCRIPTION

CWMT 2008 评测 技术报告. 机器智能与翻译实验室 哈尔滨工业大学 2008.11. 提交系统. 机器翻译 : 2 机器翻译系统 + 1 系统融合结果 系统融合 : 3 融合系统. 机器翻译主评系统概述. 4 元词形 / 词性语言模型. 基于词性的调序模型. Mosses 解码器. 引入句法特征的翻译模型. 语言模型特征. 4 元词形序列 4 元词性序列. 调序模型特征. Distance Backward-Monotone Backword-Swap Backword-Discontinuous Forward-Monotone - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: CWMT 2008  评测 技术报告

CWMT 2008 评测技术报告

机器智能与翻译实验室

哈尔滨工业大学

2008.11

Page 2: CWMT 2008  评测 技术报告

提交系统

• 机器翻译 : 2 机器翻译系统 + 1 系统融合结果

• 系统融合 : 3 融合系统

Page 3: CWMT 2008  评测 技术报告

机器翻译主评系统概述

Mosses 解码器

4 元词形 / 词性语言模型

基于词性的调序模型

引入句法特征的翻译模型

Page 4: CWMT 2008  评测 技术报告

语言模型特征

• 4 元词形序列

• 4 元词性序列

Page 5: CWMT 2008  评测 技术报告

调序模型特征• Distance

• Backward-Monotone

• Backword-Swap

• Backword-Discontinuous

• Forward-Monotone

• Forward-Swap

• Forward-Discontinuous

Page 6: CWMT 2008  评测 技术报告

Translation Model Features

• F2E 短语翻译概率• F2E 词汇翻译概率• E2F 短语翻译概率• E2F 词汇翻译概率• 短语惩罚 • 源语言短语结构性分数• 目标语短语结构性分数

Page 7: CWMT 2008  评测 技术报告

元结构 (Meta Structure )

A B C D E F

s1 s2 s3 s4 s5 s6

G H

I

S-PA B C D E F

G H

I

An SMS of the parse tree

A B C D E F

G H

Another SMS of the parse tree

A B C D E F

G H

An exampl e for RMs

RM1 RM2

t1 t2 t3

AA BB CC

T-P

Page 8: CWMT 2008  评测 技术报告

抽取短语及元结构元结构随短语一起被抽取出来 :

S4|D S5|E S6|F ||| 源短语

t3|CC ||| 目标短语

D*H ||| 源短语元结构序列

CC 目标语元结构

Page 9: CWMT 2008  评测 技术报告

结构性分数

Prob(P)

structure)metasinglebycoverdisProb(PP)Str_Score(

Page 10: CWMT 2008  评测 技术报告

Translation Model Features

• F2E 短语翻译概率• F2E 词汇翻译概率• E2F 短语翻译概率• E2F 词汇翻译概率• 短语惩罚 • 源语言短语结构性分数• 目标语短语结构性分数

Page 11: CWMT 2008  评测 技术报告

机器翻译对比系统概述

Mosses 解码器

4 元语言模型

调序模型

对齐方法 1

对齐方法 2

融合翻译模型 A

融合翻译模型 B

融合策略 A

融合策略 B

Page 12: CWMT 2008  评测 技术报告

两种对齐方法• GIZA++

• HIT-MITLAB Aligner(Yajuan Lv et al., 2003)

– 统计与字典相结合的方法– 采用贪心算法

Page 13: CWMT 2008  评测 技术报告

对齐方法的差异测试数据 : SSMT07 汉英训练数据集 - 815544 句

23/4/21 13

集合 对齐对H 7,089,061

G 10,675,740

H∩G 4,787,381

H G∪ 12,977,420

H-G 2,301,680

G-H 5,888,359

H∩G = 45% *G = 67%*H

G : Giza++H : HIT

Page 14: CWMT 2008  评测 技术报告

对齐质量• 定义一个对齐对集合 S 的平均分数 :

Plex_f2n & Plex_n2f 为双向的词汇翻译概率表

2( , )

f2n

( | )

AvgScore (S)=( )

f nf e S

Plex e f

sizeof S

2( , )

n2f

( | )

AvgScore (S)=( )

n ff e S

Plex f e

sizeof S

Page 15: CWMT 2008  评测 技术报告

对齐质量

集合 AvgScore_f2n AvgScore_n2f

H 0.23 0.26

G 0.19 0.21

H∩G 0.31 0.35

H G∪ 0.17 0.18

H-G 0.05 0.06

G-H 0.10 0.10

H∩G > H > G > H G > H-G>G-H∪

Page 16: CWMT 2008  评测 技术报告

两种融合策略• 数据级 :

• 将两种对齐方法产生的对齐语料合并• 用合并后的语料训练翻译模型

• 模型级 :• 分别用两种对齐结果训练获得两个翻译模型• 将两个翻译模型合并,作为最终的翻译模型

Page 17: CWMT 2008  评测 技术报告

两种策略性能比较训练数据 : SSMT07-815544 sentences测试数据 SSMT07 C-E test data

BLEU BLEU after PP UNK

H 18.24 18.84 463

G 19.61 20.15 477

Data Level 20.34 20.83 363

Model Level 19.39 19.94 383

Page 18: CWMT 2008  评测 技术报告

CWMT 2008 机器翻译评测结果

汉英新闻 英汉新闻 英汉科技

主系统 0.2051 0.2532 0.3743

对比系统 0.2104 0.2425 0.4620

主系统 : 引入元结构特征的短语统计翻译模型对比系统 : 引入对齐融合策略的短语统计翻译模型

Page 19: CWMT 2008  评测 技术报告

语言学分析 (基于 MS-Woodpecker)

汉英新闻 英汉新闻 英汉科技

名词 2 11 11

形容词 5 7 7

动词 2 5 5

代词 3 1 2

副词 2 6 5

量词 - 11 11

数量短语 3 9 5

动词短语 2 6 6

谓宾短语 2 5 5

主谓短语 1 7 8

介宾短语 5 5 7

汉英新闻 英汉新闻 英汉科技

名词 2 11 11

形容词 4 10 10

动词 1 8 8

代词 1 4 4

副词短语 1 4 4

形容词变形 6 3 10

数量短语 10 10 10

连词短语 1 7 7

谓宾短语 1 10 10

主谓短语 2 8 4

中文检测点 英文检测点

主系统在 3 个评测中的排名 : 汉英新闻 (2/12) ; 英汉新闻 (8/11) ; 英汉科技 (7/9)

Page 20: CWMT 2008  评测 技术报告

系统融合

• 基于加权最小贝叶斯风险的句子级融合 .

• 基于多特征及最小化错误训练的句子级融合 .

• 词汇级与句子级融合相结合的方法 .

Page 21: CWMT 2008  评测 技术报告

加权最小贝叶斯风险方法(MBR)

该方法基于最小贝叶斯风险 (Minimum Bayes Risk ) ,它在所有候选译

文中寻找一个相对于其他所有译文具有最小贝叶斯风险的译文作为最佳译文 :

EE

mbr EELFEPE )',()|(minarg'

Page 22: CWMT 2008  评测 技术报告

加权最小贝叶斯风险方法(MBR)

其中L(E,E’) 为风险函数,这里我们使用两个译文的 Bleu-4得分的倒数来表示 .

P(E,F) 为译文与源语言句子的联合概率 , 这里我们使用译文的系统得分来表示 .

EE

mbr EELFEPE )',()|(minarg'

'

),'(

),()|(

E

FEP

FEPFEP

Page 23: CWMT 2008  评测 技术报告

加权最小贝叶斯风险方法(MBR)

我们使用每个系统在开发集上的 Bleu-4得分的归一化结果作为这个系统的权重,该权重被赋予每个属于该系统的译文 :

E

E

EEmbr EELFEPW

WE )',()|(

1 minarg''

Page 24: CWMT 2008  评测 技术报告

多特征方法 在该方法中,我们使用多个句子级特征,对数线性模型和最小化错误训练方法来重新计算每个译文的模型得分,并将得分最高的译文作为最佳译文 :

Pij : 第 i个系统的第 j个译文的模型得分

Wil : 第 i个系统的第 l个特征的权重

Xijl : 第 i个系统的第 j个译文的第 l个特征的值

L

lijlil

ij

ij xwP

P

11log

Page 25: CWMT 2008  评测 技术报告

多特征方法

特征:1. 系统内排名2. 系统得分的系统内归一化结果3. 系统得分4. 词汇数

所有特征值被归于 [0,1] 之间

L

lijlil

ij

ij xwP

P

11log

Page 26: CWMT 2008  评测 技术报告

词汇级与句子级相结合的方法 (conMBR)

该方通过两个步骤将词汇级融合方法与句子级融合方法相结合:

• 首先,运用词汇级融合方法生成一个新的最佳译文: Econ .

• 然后,在原译文中,选择与 Econ 具有最小风险的译文作为最终的最佳译文。

),(1

minarg conEE

conMBR EELW

E

Page 27: CWMT 2008  评测 技术报告

融合性能SSMT 2007 Test _Data

• 汉英翻译 .

• 新闻领域• 1002 句

BLEU

参与融合的系统的译文Sys_1 0.3390

Sys_2 0.2823

Sys_3 0.2818

Sys_4 0.2803

Sys_5 0.2800

融合后的译文MBR 0.3420

conMBR 0.3370

Multi-Features 0.3402

MBR (Sys_2,3,4,5) 0.2932

Upper bound 0.4102

Page 28: CWMT 2008  评测 技术报告

融合性能CWMT 2008 Test _Data

• 汉英翻译 .

• 新闻领域• 4012 句

BLEU

参与融合的系统的译文Sys_1 0.2809

Sys_2 0.2412

Sys_3 0.2390

Sys_4 0.2331

Sys_5 0.2188

融合后的译文MBR 0.2944

conMBR 0.2808

Multi-Features 0.2192

Page 29: CWMT 2008  评测 技术报告

多特征方法在机器翻译评测中的结果

汉英新闻 英汉新闻 汉英科技

主系统 0.2051 0.2532 0.3743

对比系统 0.2104 0.2425 0.4620

融合结果 0.2058 0.2581 0.4542

Page 30: CWMT 2008  评测 技术报告

谢谢 !