平行语料库的构建
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
谢谢!
--Alignment
Βιβλιοθήκη Baidu
File—Export Corpus Files
加 Head
<Text_head> <author>unknown</author>
<Source>路透社</Source>
<Time> 2011-12</Time> <Topic>culture-entertainment</Topic> <Id>chn0026.txt</Id>
句对齐平行语料库的构建
冯超
流程: 原始语料搜集 校对去噪后的clean text 标有对齐界定标志的语料(简 称:标seg) 分词后的中文语料 平行后的语料 加题头/尾
1.语料采集
语料采集常见方式: 人工输入 扫描输入(OCR软件将扫描图片或PDF转换成word格 式文档) 现有电子文本的利用(TXT,PDF,DOC) 校对(错别字,乱码,杂质)very important!
删除冗余信息(前言、后记、注释、版权页等)
语料保存为TXT格式
1. 采集+去噪(文本处理器 & Emeditor)
P.S.按一定标准归类、合并、命名文档 如:新闻类、文化类、政治类等 按月份合并文本 去噪 (1.去除一切间隔,英文单词之前的间隔要保留; 2.标点符号:中文 全角;英文 半角Emeditor; 3.人工检查小错误)
重要:起始和结尾处的标志需手动添加!
6,句级平行对齐
对齐软件:ParaConc 平行过程中的语料保存(保存为workspace或导出)
平行完成后的语料保存
Paraconc
步骤: File—Load Corpus File
Add 中英对照的txt文本
File—View Corpus Alignment
中文语料分词/标注
为什么要对中文进行分词? ParaConc及AntConc不识别未经切分的中文 中国科学院计算机技术研究所的汉语词法分析系统 ICTCLAS
添加对齐界定标志(加seg)(Emeditor)
以句号为例
英: 查找\. 替换.</seg>\n<seg> 汉: 查找\._w 替换._w</seg>\n<seg>
</Text_head>
<Body> <Title> NBA球星科比与妻子申请离婚</Title>
正文部分
</Body>
*去除噪音
噪音:多余的空格、空行、回车(可在校对时一并完成) 去噪软件:文本处理器 EmEditor(支持正则表达式) 常用正则表达式 1)消除回车和空行:\n\s*\r——空 2)消除多余空格: 英文语料 查找\s+ 替换为空格 中文语料 查找\s* 替换为空