CWMT2008机器翻译评测总结报告
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
– 统一采用UTF-8编码,但是:
– 带编码(如 utf-8 )的文件在 Windows 下复制到剪贴板上时(包括使用写字版和 UltraEdit),很多符号如引号和连字符等都会被转换成默认的编码方式(如ANSI 编码),从而出现乱码。 – 不能采用utf-8、无BOM编码:因其不识别英镑符号£
评测方法
评测方法
• 格式预处理:
– 各系统翻译的结果首先需要转换为评测软件能够处理的内部格式;
– 此次评测的内部格式更加接近NIST评测格式;
– 部分单位提交的结果格式不符合要求;
• 解决办法:下次评测提供格式检测程序! • 10月22日收到提交结果后开始进行自动评测,10月28日全部完成。 • 体会:评测中最麻烦的问题莫过于格式和编码
0.1964 0.2622 0.2532 0.2408 0.2369 0.2129 0.2413 0.2611
英 汉 新 闻 主 系 统
0.3263 0.3157 0.297
不 受 限
4 5 6 7 8 9
10
0.2369
0.2129 0.1964 0.15 0.20 0.25 0.30 0.35
受
参评单位和系统数量
项目 受限 单位 不受限 合计
系统 单位 系统 单位 系统
汉英新闻翻译
汉英新闻系统融合 英汉新闻翻译 英汉科技翻译
7
13
7
10
12
6
wenku.baidu.com
23
10 20 20
4 4
9 10
8 6
11 10
11 9
合计
15
73
评测语料
机器翻语译料 • 训练语料: 新闻、科技公共训练语料:868,947句对; 科技独有训练语料: 620,985句对 其中, 万方数据:320,985句对 中信所语料:300,000句对。 • 6家单位参加了万方数据论文摘要句对齐语料的校对 • 测试语料:新闻语料按照分割日期规定均采自国内外新闻网站; 所有测试集中均混入了3倍的干扰集,真实测试集规模:
15个参评单位
●
● ● ● ●
2个语种方向(汉英、英汉)
两种领域(新闻、科技),其中科技翻译为新增项目 新增了汉英新闻系统融合项目 新增了WoodPecker评测 新增了BLEU-SBP参考指标
参评单位
● 厦门大学人工智能研究所 ● 中国软件与技术服务股份有限公司 ● 东北大学自然语言处理实验室 ● 中科院自动化研究所系统1 ● 中科院自动化研究所系统2 ● 北京迈创语通软件有限公司 ● 北京赛迪翻译技术有限公司 ● 中国科学院软件研究所 ● 西安汇申软件有限公司 ● 中科院计算技术研究所多语言交互技术研究室 ● 北京航空航天大学计算机学院智能信息处理研究所 ● 微软亚洲研究院 ● 北京工业大学 ● 哈尔滨工业大学机器智能与翻译研究室 ● SYSTRAN Software, Inc
受限情况 单位 BLEU5 0.3263 0.3157 0.2970 0.2622 0.2611 0.2532 0.2413 0.2408 0.2369 0.2129 0.1964 BLEU5-SBP 0.3113 0.3070 0.2847 0.2526 0.2579 0.2417 0.2354 0.2353 0.2233 0.2084 0.1947 BLEU6 0.2652 0.2542 0.2349 0.2045 0.2029 0.1946 0.1867 0.1838 0.1818 0.1615 0.1482 NIST6 9.2769 9.5048 8.9366 8.2371 8.8019 8.2184 8.2081 7.5465 7.9624 7.8425 7.4316 NIST7 9.2869 9.5143 8.9430 8.2434 8.8083 8.2237 8.2135 7.5504 7.9670 7.8460 7.4359 GTM 0.7582 0.7754 0.7556 0.7137 0.7753 0.7110 0.7283 0.7101 0.7013 0.6958 0.7173 mWER 0.6485 0.6468 0.6728 0.6928 0.6698 0.7215 0.7133 0.6851 0.7184 0.7395 0.7215 mPER 0.4008 0.4048 0.4087 0.4416 0.4139 0.4491 0.4621 0.4566 0.4735 0.4842 0.4771 ICT 0.3941 0.3603 0.3865 0.3473 0.3120 0.3146 0.2810 0.3564 0.3174 0.2559 0.2434
机器翻译评测语料
汉英新闻翻译汉语语料 英汉新闻翻译英语语料 英汉科技翻译英语语料
句数
1006 1000 1008
汉字数/单词数
41042 21767 21339
制作单位
计算所 计算所 中信所
评测语料
• 参考译文
每句4个参考译文 4个以目标语言为母语的翻译者独立翻译 新闻的参考译文由计算所制作,科技的参考译文由中信所提供 系统融合语料
11
限
0.35
0.15
0.20
BLEU-5
0.25 0.30 BLEU-5
评测结果:英汉科技主系统
受限情况 不受限 不受限 受限 受限 单位 1 2 3 4 BLEU5 0.4879 0.4718 0.4618 0.4026 BLEU5SBP 0.4811 0.4551 0.4533 0.3853 BLEU6 0.4319 0.4223 0.4028 0.3392 NIST6 11.3272 10.9460 11.0845 10.3247 NIST7 11.3514 10.9676 11.1053 10.3379 GTM 0.8588 0.8204 0.8497 0.8220 mWER 0.5185 0.5665 0.5440 0.5981 mPER 0.2980 0.3191 0.3105 0.3550 ICT 0.4864 0.4749 0.4692 0.4380
• 评测指标:
本次评测采用多种自动评价指标,包括: BLEU、 NIST、GTM、mWER、mPER、ICT
• 参考指标:
BLEU-SBP:采用修改bp的BLEU WoodPecker:提供基于检测点的评测结果 以上指标均为: – 大小写敏感的 – 中文的评测是基于字的,而不是基于词的
评测方法: BLEU-SBP
0.2051 0.2033
0.1838 0.1773 0.1686 0.1539 0.0968
受
9 10 11
12 0.05
0.1686
0.0968
限
0.10
0.15 0.20 BLEU-4
0.25
0.30
0.05 0.10 0.15 0.20 0.25 0.30 BLEU-4
评测结果:英汉新闻主系统
CWMT2008机器翻译评测 总结报告
中科院计算所 机器翻译评测组 赵红梅 谢军 吕雅娟 刘群 2008年11月
提纲
●
●
● ●
●
● ● ●
概述 参评单位和参评系统 评测语料 评测流程 评测方法 评测结果 评测结果分析 总结和展望
概述
●
机器翻译核心技术的评测
● 目的: 推进机器翻译技术的交流和发展 ●
•
•
训练语料
SSMT2007汉英新闻测试集、参考集和本次评测中10家参评单位提 交的17个系统在SSMT2007汉英新闻真实测试语料上的翻译结果 (共1,002句对)
•
•
•
测试语料
以上17个系统在CWMT2008汉英新闻测试集上的翻译结果。
其中,12个系统提交了n-best结果,5个系统提交了1-best结果。
• •
•
我们发现了BLEU本身存在的问题:
将测试结果中2%的句子缩短为只有1-2个单词,BLEU值不变!
用BLEU进行A、B两个结果的显著性差异的符号检验,发现:
评测方法: BLEU-SBP
Base
BLEU of the base system 0.1964 0.2407 0.1947 0.2353
•
•
参考译文
同本次评测汉英新闻翻译项目的参考集
评测流程
• 本次评测采用了网上评测的方式,流程如下: • • • • • 8月31日 评测组织方发放各个项目的训练数据 10月8日 评测组织方发放新闻翻译项目的测试数据 10月10日 参评单位提交新闻翻译项目的测试运行结果和系统描述 10月13日 评测组织方发放英汉科技翻译项目的测试数据 10月15日 各参评单位提交英汉科技翻译项目的测试运行结果和系统 描述 • 10月20日 评测组织方发放汉英系统融合项目的测试数据 • (即机器翻译项目参评单位提交的运行结果的汇总) • 10月22日 各参评单位提交汉英系统融合项目的测试运行结果和系统 描述
BLEU vs. BLEU-SBP
• 两者的最大区别在于bp ( brevity penalty)部分
•
请参考Decomposability of Translation Metrics for Improved Evaluation and
Efficient Algorithms, David Chiang, et.al, EMNLP2008
汉英新闻主系统BLEU结果
汉 英 新 闻 主 系 统 1 2 3 4 5 6 7 8
0.2275 0.2264 0.2188 0.2809 0.2390 1 2 3 5 9 11 4 6 7 8 10 12 汉 英 新 闻 主 系 统
0.2809 0.2390 0.2275 0.2188 0.1773 0.1539 0.2264 0.2051 0.2033 0.1838 不 受 限
评测方法: BLEU-SBP
汉英新闻12个参评主系统BLEU4与BLEU-SBP结果对比
0.3 0.25 0.2 0.15 0.1 0.05 0 1 2 3 4 5 6 7 8 9 10 11 12 BLEU4 BLEU4-SBP
评测方法
• 符号检验:
• 在BLEU-SBP的基础上,针对各主系统的翻译结果,进行 了结果之间差异的显著性检验---符号检验 (Collins et al.,2005) • 做法:分别以每个主系统为基准系统,测试了所有其它主 系统与基准系统结果差异的显著性程度,以此构造了所有 主系统翻译结果的差异显著性矩阵。
不受限 不受限 不受限 受限 不受限 受限 不受限 受限 受限 不受限 不受限
1 2 3 4 5 6 7 8 9 10 11
英汉新闻主系统BLEU结果
英 汉 新 闻 主 系 统
1 2
3 0.3263 0.3157 0.297 0.2622 0.2611 0.2532 0.2413 0.2408
1 2 3 5 7 10 11 4 6 8 9
评测结果:汉英新闻主系统
受限情况 不受限 不受限 不受限 受限 不受限 受限 受限 受限 不受限 受限 不受限 受限 单位 1 2 3 4 5 6 7 8 9 10 11 12 BLEU 4 0.2809 0.2390 0.2275 0.2264 0.2188 0.2051 0.2033 0.1838 0.1773 0.1686 0.1539 0.0968 BLEU4SBP 0.2631 0.2233 0.2193 0.2122 0.2126 0.2037 0.1901 0.1700 0.1767 0.1643 0.1529 0.0932 NIST5 7.5235 7.8401 7.9180 7.6426 7.8713 7.3550 7.2819 6.8184 7.0795 7.2578 6.8468 5.9160 GTM 0.7238 0.7039 0.7101 0.7128 0.7140 0.7207 0.6836 0.6596 0.7096 0.6907 0.6752 0.5733 mWER 0.6824 0.7178 0.7209 0.7307 0.7321 0.7225 0.7262 0.7884 0.7121 0.7564 0.7394 0.8216 mPER 0.5050 0.5086 0.5085 0.5164 0.5102 0.5070 0.5274 0.5676 0.5176 0.5432 0.5393 0.6179 ICT 0.3805 0.3388 0.3262 0.3352 0.3108 0.2631 0.3220 0.2752 0.2423 0.2814 0.2438 0.2211
Contrast
Better(%)
Worse(%)
置信度
Significant
A B A B
B A B A
72.07 68.6 61.6 32.6
27.53 31.2 38.0 67.0
0.01
Yes No
0.01 0.01
Yes Yes
解决:采用BLEU-SBP指标 (David Chiang et al., 2008)
– 带编码(如 utf-8 )的文件在 Windows 下复制到剪贴板上时(包括使用写字版和 UltraEdit),很多符号如引号和连字符等都会被转换成默认的编码方式(如ANSI 编码),从而出现乱码。 – 不能采用utf-8、无BOM编码:因其不识别英镑符号£
评测方法
评测方法
• 格式预处理:
– 各系统翻译的结果首先需要转换为评测软件能够处理的内部格式;
– 此次评测的内部格式更加接近NIST评测格式;
– 部分单位提交的结果格式不符合要求;
• 解决办法:下次评测提供格式检测程序! • 10月22日收到提交结果后开始进行自动评测,10月28日全部完成。 • 体会:评测中最麻烦的问题莫过于格式和编码
0.1964 0.2622 0.2532 0.2408 0.2369 0.2129 0.2413 0.2611
英 汉 新 闻 主 系 统
0.3263 0.3157 0.297
不 受 限
4 5 6 7 8 9
10
0.2369
0.2129 0.1964 0.15 0.20 0.25 0.30 0.35
受
参评单位和系统数量
项目 受限 单位 不受限 合计
系统 单位 系统 单位 系统
汉英新闻翻译
汉英新闻系统融合 英汉新闻翻译 英汉科技翻译
7
13
7
10
12
6
wenku.baidu.com
23
10 20 20
4 4
9 10
8 6
11 10
11 9
合计
15
73
评测语料
机器翻语译料 • 训练语料: 新闻、科技公共训练语料:868,947句对; 科技独有训练语料: 620,985句对 其中, 万方数据:320,985句对 中信所语料:300,000句对。 • 6家单位参加了万方数据论文摘要句对齐语料的校对 • 测试语料:新闻语料按照分割日期规定均采自国内外新闻网站; 所有测试集中均混入了3倍的干扰集,真实测试集规模:
15个参评单位
●
● ● ● ●
2个语种方向(汉英、英汉)
两种领域(新闻、科技),其中科技翻译为新增项目 新增了汉英新闻系统融合项目 新增了WoodPecker评测 新增了BLEU-SBP参考指标
参评单位
● 厦门大学人工智能研究所 ● 中国软件与技术服务股份有限公司 ● 东北大学自然语言处理实验室 ● 中科院自动化研究所系统1 ● 中科院自动化研究所系统2 ● 北京迈创语通软件有限公司 ● 北京赛迪翻译技术有限公司 ● 中国科学院软件研究所 ● 西安汇申软件有限公司 ● 中科院计算技术研究所多语言交互技术研究室 ● 北京航空航天大学计算机学院智能信息处理研究所 ● 微软亚洲研究院 ● 北京工业大学 ● 哈尔滨工业大学机器智能与翻译研究室 ● SYSTRAN Software, Inc
受限情况 单位 BLEU5 0.3263 0.3157 0.2970 0.2622 0.2611 0.2532 0.2413 0.2408 0.2369 0.2129 0.1964 BLEU5-SBP 0.3113 0.3070 0.2847 0.2526 0.2579 0.2417 0.2354 0.2353 0.2233 0.2084 0.1947 BLEU6 0.2652 0.2542 0.2349 0.2045 0.2029 0.1946 0.1867 0.1838 0.1818 0.1615 0.1482 NIST6 9.2769 9.5048 8.9366 8.2371 8.8019 8.2184 8.2081 7.5465 7.9624 7.8425 7.4316 NIST7 9.2869 9.5143 8.9430 8.2434 8.8083 8.2237 8.2135 7.5504 7.9670 7.8460 7.4359 GTM 0.7582 0.7754 0.7556 0.7137 0.7753 0.7110 0.7283 0.7101 0.7013 0.6958 0.7173 mWER 0.6485 0.6468 0.6728 0.6928 0.6698 0.7215 0.7133 0.6851 0.7184 0.7395 0.7215 mPER 0.4008 0.4048 0.4087 0.4416 0.4139 0.4491 0.4621 0.4566 0.4735 0.4842 0.4771 ICT 0.3941 0.3603 0.3865 0.3473 0.3120 0.3146 0.2810 0.3564 0.3174 0.2559 0.2434
机器翻译评测语料
汉英新闻翻译汉语语料 英汉新闻翻译英语语料 英汉科技翻译英语语料
句数
1006 1000 1008
汉字数/单词数
41042 21767 21339
制作单位
计算所 计算所 中信所
评测语料
• 参考译文
每句4个参考译文 4个以目标语言为母语的翻译者独立翻译 新闻的参考译文由计算所制作,科技的参考译文由中信所提供 系统融合语料
11
限
0.35
0.15
0.20
BLEU-5
0.25 0.30 BLEU-5
评测结果:英汉科技主系统
受限情况 不受限 不受限 受限 受限 单位 1 2 3 4 BLEU5 0.4879 0.4718 0.4618 0.4026 BLEU5SBP 0.4811 0.4551 0.4533 0.3853 BLEU6 0.4319 0.4223 0.4028 0.3392 NIST6 11.3272 10.9460 11.0845 10.3247 NIST7 11.3514 10.9676 11.1053 10.3379 GTM 0.8588 0.8204 0.8497 0.8220 mWER 0.5185 0.5665 0.5440 0.5981 mPER 0.2980 0.3191 0.3105 0.3550 ICT 0.4864 0.4749 0.4692 0.4380
• 评测指标:
本次评测采用多种自动评价指标,包括: BLEU、 NIST、GTM、mWER、mPER、ICT
• 参考指标:
BLEU-SBP:采用修改bp的BLEU WoodPecker:提供基于检测点的评测结果 以上指标均为: – 大小写敏感的 – 中文的评测是基于字的,而不是基于词的
评测方法: BLEU-SBP
0.2051 0.2033
0.1838 0.1773 0.1686 0.1539 0.0968
受
9 10 11
12 0.05
0.1686
0.0968
限
0.10
0.15 0.20 BLEU-4
0.25
0.30
0.05 0.10 0.15 0.20 0.25 0.30 BLEU-4
评测结果:英汉新闻主系统
CWMT2008机器翻译评测 总结报告
中科院计算所 机器翻译评测组 赵红梅 谢军 吕雅娟 刘群 2008年11月
提纲
●
●
● ●
●
● ● ●
概述 参评单位和参评系统 评测语料 评测流程 评测方法 评测结果 评测结果分析 总结和展望
概述
●
机器翻译核心技术的评测
● 目的: 推进机器翻译技术的交流和发展 ●
•
•
训练语料
SSMT2007汉英新闻测试集、参考集和本次评测中10家参评单位提 交的17个系统在SSMT2007汉英新闻真实测试语料上的翻译结果 (共1,002句对)
•
•
•
测试语料
以上17个系统在CWMT2008汉英新闻测试集上的翻译结果。
其中,12个系统提交了n-best结果,5个系统提交了1-best结果。
• •
•
我们发现了BLEU本身存在的问题:
将测试结果中2%的句子缩短为只有1-2个单词,BLEU值不变!
用BLEU进行A、B两个结果的显著性差异的符号检验,发现:
评测方法: BLEU-SBP
Base
BLEU of the base system 0.1964 0.2407 0.1947 0.2353
•
•
参考译文
同本次评测汉英新闻翻译项目的参考集
评测流程
• 本次评测采用了网上评测的方式,流程如下: • • • • • 8月31日 评测组织方发放各个项目的训练数据 10月8日 评测组织方发放新闻翻译项目的测试数据 10月10日 参评单位提交新闻翻译项目的测试运行结果和系统描述 10月13日 评测组织方发放英汉科技翻译项目的测试数据 10月15日 各参评单位提交英汉科技翻译项目的测试运行结果和系统 描述 • 10月20日 评测组织方发放汉英系统融合项目的测试数据 • (即机器翻译项目参评单位提交的运行结果的汇总) • 10月22日 各参评单位提交汉英系统融合项目的测试运行结果和系统 描述
BLEU vs. BLEU-SBP
• 两者的最大区别在于bp ( brevity penalty)部分
•
请参考Decomposability of Translation Metrics for Improved Evaluation and
Efficient Algorithms, David Chiang, et.al, EMNLP2008
汉英新闻主系统BLEU结果
汉 英 新 闻 主 系 统 1 2 3 4 5 6 7 8
0.2275 0.2264 0.2188 0.2809 0.2390 1 2 3 5 9 11 4 6 7 8 10 12 汉 英 新 闻 主 系 统
0.2809 0.2390 0.2275 0.2188 0.1773 0.1539 0.2264 0.2051 0.2033 0.1838 不 受 限
评测方法: BLEU-SBP
汉英新闻12个参评主系统BLEU4与BLEU-SBP结果对比
0.3 0.25 0.2 0.15 0.1 0.05 0 1 2 3 4 5 6 7 8 9 10 11 12 BLEU4 BLEU4-SBP
评测方法
• 符号检验:
• 在BLEU-SBP的基础上,针对各主系统的翻译结果,进行 了结果之间差异的显著性检验---符号检验 (Collins et al.,2005) • 做法:分别以每个主系统为基准系统,测试了所有其它主 系统与基准系统结果差异的显著性程度,以此构造了所有 主系统翻译结果的差异显著性矩阵。
不受限 不受限 不受限 受限 不受限 受限 不受限 受限 受限 不受限 不受限
1 2 3 4 5 6 7 8 9 10 11
英汉新闻主系统BLEU结果
英 汉 新 闻 主 系 统
1 2
3 0.3263 0.3157 0.297 0.2622 0.2611 0.2532 0.2413 0.2408
1 2 3 5 7 10 11 4 6 8 9
评测结果:汉英新闻主系统
受限情况 不受限 不受限 不受限 受限 不受限 受限 受限 受限 不受限 受限 不受限 受限 单位 1 2 3 4 5 6 7 8 9 10 11 12 BLEU 4 0.2809 0.2390 0.2275 0.2264 0.2188 0.2051 0.2033 0.1838 0.1773 0.1686 0.1539 0.0968 BLEU4SBP 0.2631 0.2233 0.2193 0.2122 0.2126 0.2037 0.1901 0.1700 0.1767 0.1643 0.1529 0.0932 NIST5 7.5235 7.8401 7.9180 7.6426 7.8713 7.3550 7.2819 6.8184 7.0795 7.2578 6.8468 5.9160 GTM 0.7238 0.7039 0.7101 0.7128 0.7140 0.7207 0.6836 0.6596 0.7096 0.6907 0.6752 0.5733 mWER 0.6824 0.7178 0.7209 0.7307 0.7321 0.7225 0.7262 0.7884 0.7121 0.7564 0.7394 0.8216 mPER 0.5050 0.5086 0.5085 0.5164 0.5102 0.5070 0.5274 0.5676 0.5176 0.5432 0.5393 0.6179 ICT 0.3805 0.3388 0.3262 0.3352 0.3108 0.2631 0.3220 0.2752 0.2423 0.2814 0.2438 0.2211
Contrast
Better(%)
Worse(%)
置信度
Significant
A B A B
B A B A
72.07 68.6 61.6 32.6
27.53 31.2 38.0 67.0
0.01
Yes No
0.01 0.01
Yes Yes
解决:采用BLEU-SBP指标 (David Chiang et al., 2008)