基于翻译日志的统计机器翻译模型剪枝

38
基基基基基基基 基基基基基基基基基 基基 基基基 基基基 基基 基基基基基基

Upload: sawyer-summers

Post on 01-Jan-2016

55 views

Category:

Documents


4 download

DESCRIPTION

基于翻译日志的统计机器翻译模型剪枝. 刘凯 吕雅娟 姜文斌 刘群 中科院计算所. 大纲. 研究动机 翻译解码方法 翻译日志模型剪枝 实验结果. 大纲. 研究动机 翻译解码方法 翻译日志模型剪枝 实验结果. 研究动机. 实用机器翻译系统 训练语料庞大. 研究动机. 实用机器翻译系统 训练语料庞大 翻译模型庞大. 研究动机. 实用机器翻译系统 训练语料庞大 翻译模型庞大 较大的运行成本 & 应用场景受限. 研究动机. 规则表规模 FBIS(0.2M) 规则数: 32M 大小: 1G (压缩后) LDC(1.5M) 规则数: 167M - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 基于翻译日志的统计机器翻译模型剪枝

基于翻译日志的统计机器翻译模型剪枝

刘凯 吕雅娟 姜文斌 刘群

中科院计算所

Page 2: 基于翻译日志的统计机器翻译模型剪枝

大纲• 研究动机

• 翻译解码方法

• 翻译日志模型剪枝

• 实验结果

Page 3: 基于翻译日志的统计机器翻译模型剪枝

大纲• 研究动机

• 翻译解码方法

• 翻译日志模型剪枝

• 实验结果

Page 4: 基于翻译日志的统计机器翻译模型剪枝

研究动机• 实用机器翻译系统– 训练语料庞大

Page 5: 基于翻译日志的统计机器翻译模型剪枝

研究动机• 实用机器翻译系统– 训练语料庞大

– 翻译模型庞大

Page 6: 基于翻译日志的统计机器翻译模型剪枝

研究动机• 实用机器翻译系统– 训练语料庞大

– 翻译模型庞大

– 较大的运行成本 & 应用场景受限

Page 7: 基于翻译日志的统计机器翻译模型剪枝

研究动机• 规则表规模– FBIS(0.2M)• 规则数: 32M• 大小: 1G (压缩后)

– LDC(1.5M)• 规则数: 167M• 大小: 4G (压缩后)

– Baidu 、 Bing 、 Google……

Page 8: 基于翻译日志的统计机器翻译模型剪枝

研究动机• 规则表规模问题– 需要大规模服务器提供服务

Page 9: 基于翻译日志的统计机器翻译模型剪枝

研究动机• 规则表规模问题– 需要大规模服务器提供服务

– 难以移植到移动终端

Page 10: 基于翻译日志的统计机器翻译模型剪枝

研究动机• 规则表规模问题– 需要大规模服务器提供服务

– 难以移植到移动终端• 国际流量漫游包月≈ 2000 元(泰国)

Page 11: 基于翻译日志的统计机器翻译模型剪枝

研究动机• 可行性

– 长尾现象– 大规模剪枝是可能的

Page 12: 基于翻译日志的统计机器翻译模型剪枝

研究动机• 解码器搜索空间有限– 参数固定则搜索空间固定

输出参数

Page 13: 基于翻译日志的统计机器翻译模型剪枝

研究动机• 解码器搜索空间有限– 参数固定则搜索空间固定

参数 输出

Page 14: 基于翻译日志的统计机器翻译模型剪枝

研究动机• 解码器搜索空间有限– 参数固定则搜索空间固定

参数 输出

Page 15: 基于翻译日志的统计机器翻译模型剪枝

研究动机• 解码器搜索空间有限– 参数固定则搜索空间固定

参数 输出

找出模型搜索空间并去除搜索空间外的不必要的规则

Page 16: 基于翻译日志的统计机器翻译模型剪枝

研究动机• 解码器搜索空间有限– 参数固定则搜索空间固定

参数 输出

找出模型搜索空间并去除搜索空间外的不必要的规则

翻译日志!

Page 17: 基于翻译日志的统计机器翻译模型剪枝

大纲• 研究动机

• 翻译解码方法

• 翻译日志模型剪枝

• 实验结果

Page 18: 基于翻译日志的统计机器翻译模型剪枝

翻译解码• 翻译例子– 布什 与 沙龙 举行 了 会谈– 解码: ⟨ 布什 与 X1 X2, Bush X2 with X1⟩

⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……

Page 19: 基于翻译日志的统计机器翻译模型剪枝

翻译解码• 翻译例子– 布什 与 沙龙 举行 了 会谈– 解码: Bush held a meeting with Sharon

⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……

Page 20: 基于翻译日志的统计机器翻译模型剪枝

翻译解码• 翻译例子– 布什 与 沙龙 举行 了 会谈– 解码: Bush held a meeting with Sharon Bush hold a meeting with Sharon

⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……

Page 21: 基于翻译日志的统计机器翻译模型剪枝

翻译解码• 翻译例子– 布什 与 沙龙 举行 了 会谈– 解码: Bush held a meeting with Sharon Bush hold a meeting with Sharon Bush hold a conference with Salon ……

⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……

Page 22: 基于翻译日志的统计机器翻译模型剪枝

翻译解码• 翻译例子– 布什 与 沙龙 举行 了 会谈– 解码: Bush held a meeting with Sharon Bush hold a meeting with Sharon Bush hold a conference with Salon ……

⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……

√1best

Page 23: 基于翻译日志的统计机器翻译模型剪枝

翻译解码• 翻译例子– 布什 与 沙龙 举行 了 会谈– 解码: Bush held a meeting with Sharon Bush hold a meeting with Sharon Bush hold a conference with Salon ……

⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……

√1best

Page 24: 基于翻译日志的统计机器翻译模型剪枝

翻译解码• 翻译例子– 布什 与 沙龙 举行 了 会谈– 解码: Bush held a meeting with Sharon Bush hold a meeting with Sharon Bush hold a conference with Salon ……

⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……

√1best

Page 25: 基于翻译日志的统计机器翻译模型剪枝

大纲• 研究动机

• 翻译解码方法

• 翻译日志模型剪枝

• 实验

Page 26: 基于翻译日志的统计机器翻译模型剪枝

翻译日志模型剪枝• 利用翻译获取规则信息

⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……

Page 27: 基于翻译日志的统计机器翻译模型剪枝

翻译日志模型剪枝• 利用翻译获取规则信息

⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……

√√√

布什 与 沙龙 举行 了 会谈

Page 28: 基于翻译日志的统计机器翻译模型剪枝

翻译日志模型剪枝• 利用翻译获取规则信息

⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……

111

布什 与 沙龙 举行 了 会谈

Page 29: 基于翻译日志的统计机器翻译模型剪枝

翻译日志模型剪枝• 利用翻译获取规则信息

⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……

………

…………

…………

Page 30: 基于翻译日志的统计机器翻译模型剪枝

翻译日志模型剪枝• 利用翻译获取规则信息

⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……

………

…………

…………

翻译日志

Page 31: 基于翻译日志的统计机器翻译模型剪枝

翻译日志模型剪枝• 模型剪枝– 仅保留在翻译中命中的规则– 命中次数 >0 的规则

Page 32: 基于翻译日志的统计机器翻译模型剪枝

大纲• 研究动机

• 翻译解码方法

• 翻译日志模型剪枝

• 实验

Page 33: 基于翻译日志的统计机器翻译模型剪枝

实验• 实验配置(汉 - 英)– 训练语料: LDC , 1.5M 句对– 语言模型:法新社 +Giga 新华 5 元– 翻译日志模拟语料:• 训练集 1.5M• 新闻语料 5.28M• Web 语料 6.06M (搜狗全网)

– 开发测试集:• Dev:nist06; Tst:nist04,nist05,nist08

Page 34: 基于翻译日志的统计机器翻译模型剪枝

实验• 实验结果– 直接过滤规则表

– Count: 低于等于该使用频度的规则不被保留

翻译日志 训练集 新闻语料 Web语料

过滤频度 Count=0 Count=1 Count=2 Count=0 Count=0

规则表大小% 2.40 0.89 0.47 3.68 2.78

NIST04 (BLEU%) 34.01 33.08 32.40 33.74 32.76

NIST05(BLEU%) 31.46 30.78 30.12 31.07 30.58

NIST08(BLEU%) 27.24 26.45 25.80 26.70 26.50

测试集均值 30.90 (-0.28) 30.10 (-1.08) 29.44 (-1.74) 30.50 (-0.68) 29.95 (-1.23)

Page 35: 基于翻译日志的统计机器翻译模型剪枝

实验• 实验结果– 在过滤规则表基础上重新调参

– 能够更加接近原始规则表的效果

翻译日志 训练集 新闻语料

测试集均值(重调参前) 30.90 30.50

测试集均值(重调参后) 31.03 30.90

Page 36: 基于翻译日志的统计机器翻译模型剪枝

实验• 讨论– OOV 问题• 解决:利用训练集获取翻译日志

– 领域问题• 确实存在

– 新闻 : 34.06=>33.74– Web: 34.06=>32.76

Page 37: 基于翻译日志的统计机器翻译模型剪枝

结论• 简单动机和方法

• 效果显著– 规则表大小: 100%=>2.4%– 翻译效果: 31.18=>31.03

• 语言模型剪枝也可参照该思想

Page 38: 基于翻译日志的统计机器翻译模型剪枝

谢谢!