语料库整理要求及方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、需整理的多是ppt语料,也有些word文档的语料(见Boston Consulting-需做库-12.10文件夹)。整理要求如下:
1、利用Align Assist工具将ppt中原文译文提取出来,并根据中英文内容一句句对齐。如图:
2、利用Align Assist工具对ppt中的内容进行提取时,软件会遗漏部分内容。因此需要在对齐之后将软件自动提取后遗漏的句对逐句复制补充进去。
3、对齐完成后,将对齐结果分别保存为tmx格式及aares格式,tmx为最终需要的语料格式,但无法修改且预览不便。aares为临时语料文件,可修改,可即时预览。因此,请大家对齐时两种格式都保存下来。保存方法见第二部分。
二、整理方法:
1、安装Align Assist语料对齐工具(安装程序见AlignAssist_Setup_1.5.1文件夹)。双击AlignAssist_Setup_1.5.1.exe的程序进行安装。语言选择为english。
2、双击运行。将要对齐的原文文件和译文文件分别添加进去。
注意原文和译文语言方向。根据文件夹要求确定英文、中文何为原文,何为译文。
例:project1-中到英,则中文文件为source file,英文文件为target file。
源文本和译文本添加完成后,点击Align。进入如下界面。
3、注意split、merge、delete、swap的用法。
(1)split:将一句话断开为两句
随意举例:将第六句原文“当前全球经济正经历深度调整,各国需联手培育新的经济增长点和竞争优势。”断为:“当前全球经济正经历深度调整,”及“各国需联手培育新的经济增长点和竞争优势。”选中第六句原文,边框变黑。
单击上方菜单split。
进入下图界面。将第二小句内容剪切粘贴到cell 2部分,然后单击ok。
即分句完成。
(2)merge:将同侧两句话合为一句
随意举例:再将上面分开的两个小短句合为一句。
选中要合并的句子。背景色变蓝。
单击菜单栏merge,及合并成功。
(3)delete:删除句子,可一次删掉同侧多句话,也可删左右两侧多句话。
通过拖击鼠标选中要删除的句子,按下菜单栏delete。
(4)swap:同侧上下两句话替换位置。
拖击鼠标选中要替换位置的两句话。点击菜单栏swap。即完成替换。
4、可通过键盘、鼠标对原文、译文内容进行编辑、复制、剪切、粘贴等操作。
撤销上一步操作即点击Actions-Undo。
5、对齐完成后,保存内容,选择Save。Save Immediate Results保存可编辑的aares临时语料文件。Save TMX Memory保存tmx语料文件。两种格式都要保存。
6、如果此次对齐工作只做了一半,只保存aares临时语料文件,有时间再做时,再打开。
单击File,选择Open。找到aares文件保存位置,打开重新进入对齐界面。