中文版-中科院计算所自然语言处理研究组-中国科学院计算技术研究所
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
评测方法: BLEU-SBP
汉英新闻12个参评主系统BLEU4与BLEU-SBP结果对比
0.3 0.25 0.2 0.15 0.1 0.05 0 1 2 3 4 5 6 7 8 9 10 11 12 BLEU4 BLEU4-SBP
评测方法
• 符号检验:
机器翻译评测语料
汉英新闻翻译汉语语料 英汉新闻翻译英语语料 英汉科技翻译英语语料
句数
1006 1000 1008
汉字数/单词数
41042 21767 21339
制作单位
计算所 计算所 中信所
评测语料
• 参考译文
每句4个参考译文 4个以目标语言为母语的翻译者独立翻译 新闻的参考译文由计算所制作,科技的参考译文由中信所提供 系统融合语料
•
•
参考译文
同本次评测汉英新闻翻译项目的参考集
评测流程
• 本次评测采用了网上评测的方式,流程如下: • • • • • 8月31日 评测组织方发放各个项目的训练数据 10月8日 评测组织方发放新闻翻译项目的测试数据 10月10日 参评单位提交新闻翻译项目的测试运行结果和系统描述 10月13日 评测组织方发放英汉科技翻译项目的测试数据 10月15日 各参评单位提交英汉科技翻译项目的测试运行结果和系统 描述 • 10月20日 评测组织方发放汉英系统融合项目的测试数据 • (即机器翻译项目参评单位提交的运行结果的汇总) • 10月22日 各参评单位提交汉英系统融合项目的测试运行结果和系统 描述
CWMT2008机器翻译评测 总结报告
中科院计算所 机器翻译评测组 赵红梅 谢军 吕雅娟 刘群 2008年11月
提纲
●
●
● ●
●
● ● ●
概述 参评单位和参评系统 评测语料 评测流程 评测方法 评测结果 评测结果分析 总结和展望
概述
●
机器翻译核心技术的评测
● 目的: 推进机器翻译技术的交流和发展 ●
参评单位和系统数量
项目 受限 单位 不受限 合计
来自百度文库
系统 单位 系统 单位 系统
汉英新闻翻译
汉英新闻系统融合 英汉新闻翻译 英汉科技翻译
7
13
7
10
12
6
23
10 20 20
4 4
9 10
8 6
11 10
11 9
合计
15
73
评测语料
机器翻语译料 • 训练语料: 新闻、科技公共训练语料:868,947句对; 科技独有训练语料: 620,985句对 其中, 万方数据:320,985句对 中信所语料:300,000句对。 • 6家单位参加了万方数据论文摘要句对齐语料的校对 • 测试语料:新闻语料按照分割日期规定均采自国内外新闻网站; 所有测试集中均混入了3倍的干扰集,真实测试集规模:
评测方法
• 格式预处理:
– 各系统翻译的结果首先需要转换为评测软件能够处理的内部格式;
– 此次评测的内部格式更加接近NIST评测格式;
– 部分单位提交的结果格式不符合要求;
• 解决办法:下次评测提供格式检测程序! • 10月22日收到提交结果后开始进行自动评测,10月28日全部完成。 • 体会:评测中最麻烦的问题莫过于格式和编码
Contrast
Better(%)
Worse(%)
置信度
Significant
A B A B
B A B A
72.07 68.6 61.6 32.6
27.53 31.2 38.0 67.0
0.01
Yes No
0.01 0.01
Yes Yes
解决:采用BLEU-SBP指标 (David Chiang et al., 2008)
• •
•
我们发现了BLEU本身存在的问题:
将测试结果中2%的句子缩短为只有1-2个单词,BLEU值不变!
用BLEU进行A、B两个结果的显著性差异的符号检验,发现:
评测方法: BLEU-SBP
Base
BLEU of the base system 0.1964 0.2407 0.1947 0.2353
BLEU vs. BLEU-SBP
• 两者的最大区别在于bp ( brevity penalty)部分
•
请参考Decomposability of Translation Metrics for Improved Evaluation and
Efficient Algorithms, David Chiang, et.al, EMNLP2008
15个参评单位
●
● ● ● ●
2个语种方向(汉英、英汉)
两种领域(新闻、科技),其中科技翻译为新增项目 新增了汉英新闻系统融合项目 新增了WoodPecker评测 新增了BLEU-SBP参考指标
参评单位
● 厦门大学人工智能研究所 ● 中国软件与技术服务股份有限公司 ● 东北大学自然语言处理实验室 ● 中科院自动化研究所系统1 ● 中科院自动化研究所系统2 ● 北京迈创语通软件有限公司 ● 北京赛迪翻译技术有限公司 ● 中国科学院软件研究所 ● 西安汇申软件有限公司 ● 中科院计算技术研究所多语言交互技术研究室 ● 北京航空航天大学计算机学院智能信息处理研究所 ● 微软亚洲研究院 ● 北京工业大学 ● 哈尔滨工业大学机器智能与翻译研究室 ● SYSTRAN Software, Inc
– 统一采用UTF-8编码,但是:
– 带编码(如 utf-8 )的文件在 Windows 下复制到剪贴板上时(包括使用写字版和 UltraEdit),很多符号如引号和连字符等都会被转换成默认的编码方式(如ANSI 编码),从而出现乱码。 – 不能采用utf-8、无BOM编码:因其不识别英镑符号£
评测方法
•
•
训练语料
SSMT2007汉英新闻测试集、参考集和本次评测中10家参评单位提 交的17个系统在SSMT2007汉英新闻真实测试语料上的翻译结果 (共1,002句对)
•
•
•
测试语料
以上17个系统在CWMT2008汉英新闻测试集上的翻译结果。
其中,12个系统提交了n-best结果,5个系统提交了1-best结果。
• 评测指标:
本次评测采用多种自动评价指标,包括: BLEU、 NIST、GTM、mWER、mPER、ICT
• 参考指标:
BLEU-SBP:采用修改bp的BLEU WoodPecker:提供基于检测点的评测结果 以上指标均为: – 大小写敏感的 – 中文的评测是基于字的,而不是基于词的
评测方法: BLEU-SBP