语料库采集的原则
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语料库采集的原则
1. 语料库的性质:应确定语料库的性质,如收集的文本是口头语言,还是书面语言,是否是交际语言,或者是法律文件、新闻报道等。
2. 语料库的数量:要根据需求,确定所需数量,以保证质量。
3. 关注细节:采集时要关注语料库内容的质量和细节,考虑来源、日期、内容类型等。
4. 关注隐私保护:一定要按照相关法律规定,尽量避免出现人名、电话等隐私信息,以免侵犯他人隐私权。
5. 尽可能仔细地进行手工标注:审查标注结果,以保证其准确性及完整性。