关于本地构建机器翻译系统

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

i-rewrite-decoder-r1.0.0a

中文txt分词 采用中科院分词系统ICTCLAS003

英文txt添加<s> </s>识别标签

训练语料库:汉英10000

实现操作系统 VMware下的Ubuntu 13.04

具体操作步骤:

1.构建语言模型

english.txt放在CMU-Cam_Toolkit_v2/bin下

执行 ./text2wfre <english.txt> english.wfre 生成 english.wfre

执行 ./wfre2vocab <english.wfre> english.vocab 生成english.vocab

更换root身份

执行 ./text2idngram -vocab english.vocab -buffer 5 <english.txt> english.idngram 生成 english.idngram

添加 s 内容如下:

<s>

</s>

执行 ./idngram2lm -idngram english.idngram -vocab english.vocab -context s -binary english.binlm

生成english.binlm (二进制文件)

2.构建翻译模型

进入mkcls-v2目录下,把10000句的英文和中文对照语料库拷贝到该目录下。 执行如下命令:

./mkcls -c80 -n10 -pchinese.txt -Vchinese.vcb.classes opt

./mkcls -c80 -n10 -penglish.txt -Venglish.vcb.classes opt

这个时间比较长!



进入GIZA++-v2目录下,把10000句的英文和中文txt对照语料库拷贝到该目录下。

./plain2snt.out chinese.txt english.txt

成功运行后将会生成以下四个文件:

chinese.vcb, chinese_english.snt, english.vcb, english_chinese.snt



在GIZA++-v2目录下建立一个test子目录,把刚才生成的四个文件和mkcls生成的四个类文件,再加上编译后的可执行文件GIZA++一同拷贝到该子目录下即可编译运行.这样生成后的文件全都在这个目录下

相关文档
最新文档