藏汉翻译系统实验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
测试集(1250)
短语表3G
51.11
30.31
实验结果:不管在开发和测试集上都降低了,说明去除尾部标点的方法对于藏语不适合。
2藏汉新老开发集的对比实验
系统Chiero
开发集(650)
测试集(1250)
老的开发集(650)
52.02
31.62
新开发集(1259)
60.86
32.56
实验结果:在使用新开发集进行调参的情况下,开发集和测试集性能都提升了。由于之前开发集650句,不能很好的覆盖语料中的情况,新的开发集具有更好的覆盖。
人名:
<不久前阿诺德向艾丽斯求婚。
---
>不久前阿诺德向艾丽斯求婚。
地名:
<佛罗伦萨是文艺复兴的圣地。
---
>佛罗伦萨是文艺复兴的圣地。
成语:
<忠言逆耳,良药苦口
---
>忠言逆耳,良药苦口
对于翻译系统的影响,目前正在进行相关的实验。
4 GIZA工具不同版本对比
系统版本
开发集(650)
测试集(500)
目前采用
50.72
37.28
Moses Giza
52.80
41.12
实验结果:使用目前版本的GIZA降低了翻译系统的性能,测试集约降了4个点,开发集降了2.1个点。Moses Giza效果要更好一些。
5服务器版本chiero和12月ict-chiero对比
系统版本
开发集(650)
测试集(500)
服务器版本
ICTCHIERO
wk.baidu.com52.80
41.12
实验结果:上一次蔡洽吴做过实验,并无差别,只是时间快慢的差别。
6利用命名实体词典修正ICTCLAS分词
大约7000句/秒,效率是O(10n).
如果随着词典规模的增大,可以很好的弥补ICTCLAS对于命名实体的分词上的不足。
藏汉翻译系统实验
1藏汉双语语料标点处理
双引号、单引号、尾部连续标点以及开头不合法标点的处理
系统Chiero
开发集
测试集(1250)
短语表3.6G
52.02
31.62(0.2↑)
实验结果:测试集上升了0.2个点,说明对于语料的细节处理提升了翻译系统的性能。
尾部非成对标点删除进行实验
系统Chiero
开发集(650)
3重现孙萌2012年12月藏汉翻译系统
系统Chiero
开发集(650)
测试集(500)
未过滤(12月)
58.41
41.16
过滤后
52.80
41.12
实验说明:开发集有34.9%的在训练集中出现,过滤后因此降低了5.6个点。由于赵老师的测试集没有进行测试,据李响统计,测试集和训练集有重合,因此12月份的结果偏高。
短语表3G
51.11
30.31
实验结果:不管在开发和测试集上都降低了,说明去除尾部标点的方法对于藏语不适合。
2藏汉新老开发集的对比实验
系统Chiero
开发集(650)
测试集(1250)
老的开发集(650)
52.02
31.62
新开发集(1259)
60.86
32.56
实验结果:在使用新开发集进行调参的情况下,开发集和测试集性能都提升了。由于之前开发集650句,不能很好的覆盖语料中的情况,新的开发集具有更好的覆盖。
人名:
<不久前阿诺德向艾丽斯求婚。
---
>不久前阿诺德向艾丽斯求婚。
地名:
<佛罗伦萨是文艺复兴的圣地。
---
>佛罗伦萨是文艺复兴的圣地。
成语:
<忠言逆耳,良药苦口
---
>忠言逆耳,良药苦口
对于翻译系统的影响,目前正在进行相关的实验。
4 GIZA工具不同版本对比
系统版本
开发集(650)
测试集(500)
目前采用
50.72
37.28
Moses Giza
52.80
41.12
实验结果:使用目前版本的GIZA降低了翻译系统的性能,测试集约降了4个点,开发集降了2.1个点。Moses Giza效果要更好一些。
5服务器版本chiero和12月ict-chiero对比
系统版本
开发集(650)
测试集(500)
服务器版本
ICTCHIERO
wk.baidu.com52.80
41.12
实验结果:上一次蔡洽吴做过实验,并无差别,只是时间快慢的差别。
6利用命名实体词典修正ICTCLAS分词
大约7000句/秒,效率是O(10n).
如果随着词典规模的增大,可以很好的弥补ICTCLAS对于命名实体的分词上的不足。
藏汉翻译系统实验
1藏汉双语语料标点处理
双引号、单引号、尾部连续标点以及开头不合法标点的处理
系统Chiero
开发集
测试集(1250)
短语表3.6G
52.02
31.62(0.2↑)
实验结果:测试集上升了0.2个点,说明对于语料的细节处理提升了翻译系统的性能。
尾部非成对标点删除进行实验
系统Chiero
开发集(650)
3重现孙萌2012年12月藏汉翻译系统
系统Chiero
开发集(650)
测试集(500)
未过滤(12月)
58.41
41.16
过滤后
52.80
41.12
实验说明:开发集有34.9%的在训练集中出现,过滤后因此降低了5.6个点。由于赵老师的测试集没有进行测试,据李响统计,测试集和训练集有重合,因此12月份的结果偏高。