关于本地构建机器翻译系统
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
i-rewrite-decoder-r1.0.0a
中文txt分词 采用中科院分词系统ICTCLAS003
英文txt添加<s> </s>识别标签
训练语料库:汉英10000
实现操作系统 VMware下的Ubuntu 13.04
具体操作步骤:
1.构建语言模型
english.txt放在CMU-Cam_Toolkit_v2/bin下
执行 ./text2wfre <english.txt> english.wfre 生成 english.wfre
执行 ./wfre2vocab <english.wfre> english.vocab 生成english.vocab
更换root身份
执行 ./text2idngram -vocab english.vocab -buffer 5 <english.txt> english.idngram 生成 english.idngram
添加 s 内容如下:
<s>
</s>
执行 ./idngram2lm -idngram english.idngram -vocab english.vocab -context s -binary english.binlm
生成english.binlm (二进制文件)
2.构建翻译模型
进入mkcls-v2目录下,把10000句的英文和中文对照语料库拷贝到该目录下。 执行如下命令:
./mkcls -c80 -n10 -pchinese.txt -Vchinese.vcb.classes opt
./mkcls -c80 -n10 -penglish.txt -Venglish.vcb.classes opt
这个时间比较长!
进入GIZA++-v2目录下,把10000句的英文和中文txt对照语料库拷贝到该目录下。
./plain2snt.out chinese.txt english.txt
成功运行后将会生成以下四个文件:
chinese.vcb, chinese_english.snt, english.vcb, english_chinese.snt
在GIZA++-v2目录下建立一个test子目录,把刚才生成的四个文件和mkcls生成的四个类文件,再加上编译后的可执行文件GIZA++一同拷贝到该子目录下即可编译运行.这样生成后的文件全都在这个目录下