英国国家语料库简介
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语料加工
标注
1.作者信息 2.停顿等外部信息 whether or not we fill those (pause) and transfer
3.语言本体,如词和句的处理通过颜色对词性以及 句子成分进行标注
检索方法
1.单个单词检索直接输入单词原形,如want-want。 2.若加上“[]”、“*”、“﹖”、“=”等符号,则检索出 单词其他各种形式和相关词。*代表任意多个字母,?代 表一个字母。如:un*ly检索出的内容为un*ly unlikely, u nusually 3.不同词性和词形有不同表示方法,如: vvg表示动词-ing形式,v表示动词,vvd表示各种动词的 过去式 4.若word(s)和collocates一起检索,则word(s)里输入 检索的单词,而collocates中的三项,第一项输入需要检 索的项目,如词性。二三项的数字表示所需检索的项目的 数目。如图:
检索项目:
检索结果:
优点及缺陷
1.该语料库对语料的标注采用的是国际通用标准化标注体系 SGML,这种方法使标注错误率由3%减少到1%。
2.基于该语料库所做的研究所得的数据可靠性大。 3.然而标注的程度不够深,只进行简单和外部的标注。
英国国家语料库 British National Corpus
综述
1.语料搜集来源广泛 2.集口语和书面语为一体 3.20世纪后期英式英语的一个横截面 4.收词量—1亿 5.版本—BNC XML版,2007年
性质
1搜集
语料分布
书面语(90%): 1.地方和全国性报纸 2.专业杂志和期刊 3.学术专著和通俗小说 4.发表和未发表的信件和备忘录 5.学院和综合性大学的论文 6.许多其他类型的文本 口语(10%): 1.经过正确转写的非正式谈话 2在不同语境中收集的口语语言