语料库

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
树库。这个项目由 Pennsylvania 大学计算机系的 M. Marcus主持,到 1993 年已经完成了 300
万词的英语句子的深加工,进行了句法结构标注。
在美国 Pennsylvania 大学还建立了 LDC 语言数据联合会 (Linguistic data Consortium),
是一个 100多万词的书面英语语料库,涵盖我国中学生、大学英语 4级和 6 级、英语专业低
年级和高年级的学习内容,并对所有的语料作了语法标注和言语失误标注。根据这个语料库
得到了词频排列表、拼写失误表、词目表、词频分布表、语法标注频数表、言语失误表等,
还把这些数据与一些英语本族语语料库(如 BROWN,LOB,FROWN,FLOB)进行了某
中国的语料库: 英汉双语语料库
? 北大计算语言学研究所的双语语料库,英汉对齐的句子已有5万多对,并开发了相应的对齐工具和双语语料库管理软件。正在此基础上做汉英对照短语库,预计规模将达数十万条。
? 哈尔滨工业大学的英汉双语语料库:1998年有3万句子对,已经进行了词性标注,正在扩充为40-50万句子对,在句子、短语、词汇三级实现双语对齐。
从 1979 年以来,中国就开始进行机器可读语料库(machine-readable corpus)的建设,
早期在中国建立的主要的机器可读语料库有:
汉语现代文学作品语料库(1979 年),527 万字,武汉大学。
现代汉语语料库(1983 年),2000 万字,北京航天航空大学。
中学语文教材语料库(1983 年),106 万 8 千字,北京师范大学。
现代汉语词频统计语料库(1983 年),182 万字,北京语言学院。
习英语。规模为 2000 万词次。
由于这些语料库可直接用于词典编纂,在商业上获得了成功,语料库语言学的研究开始
从纯学术走向实用,词典编纂是语料库语言学发展的推动力之一。
80 年代末 90 年代初,美国 Pennsylvania 大学开始建立“树库”(Tree bank),对百万词
级的语料进行句法和语义标注,把线性的文本语料库加工成为表示句子的句法和语义结构的
ACL/DCI美国计算语言学学会数据采集计划:美国计算语言学学会(The
association for Computational Linguistics, ACL)倡议的数据采集计划(Data Collection Initiative, DCI),其宗旨是向非赢利的学术团体提供语料,以免除费用和版权的困扰,用标准通用置标语言SGML统一置标,以便于数据交换。
些比较。这个语料库为词典编纂、教材编写和语言测试提供了必要的资源。目前上海交通大
学正在建设大学英语学习者口语英语语料库。
国外的主要语料库有:
现在,美国Brown大学建立了BROWN语料库(布朗语料库),这是世界上第一个根据系统性原则采集样本的标准语料库,规模为 100 万词次,是一个代表当代美国英语的语料库。英国Lancaster大学与挪威Oslo大学与Bergen大学联合建立了 LOB 语料库,规模与 Brown语料库相当,这是一个代表当代英国英语的语料库。欧美各国学者利用这两个语料库开展了大规模的研究,其中最引人注目的是对语料库进行语法标注的研究。他们设计了 CLAWS 系统来给 LOB 语料库的100万词的语料作自动标注,根据统计信息来建立算法,自动标注正确率达 96%。还有:
实行会员制,有 163 个语料库 (包括文本的以及口语的)参加,共享语言资源。2000 年,
LDC 世界上第一个中文的树库,可
惜的是规模比较小。
AHI语料库:美国Heritage出版社为编纂Heritage词典而建立,有400万词。
这个语料库,通过语料比较、统计、筛选等方法为中国大学英语教学提供通用词汇和技术词
汇的应用信息,为确定大学英语教学大纲的词表提供了可靠的量化依据。这个语料库也在英
语语言研究中发挥了作用,支持基于语料库的英语语法的频率特征、语料库驱动的词语搭配
等项研究。2003 年,中国学习者英语语料库由上海外语教育出版社正式发行。这个语料库
20 世纪 80 年代还建立了 Longman 语料库,也应用于词典编纂。这个语料库由 LLELC
(Longman Lancaster英语语料库)、LSC (Longman 口语语料库)和 LCLE (Longman 英
语学习语料库)等三个语料库组成。这个语料库主要用于编纂英语学习词典,帮助外国人学
20世纪70年代,London-Lund口语语料库:1975年建成,收篇目87篇,每篇5000词,共为43.4万词,有详细的韵律标注(prosodic marking)。
20 世纪 80 年代以后,陆续建立了一些以词典编纂为应用背景的大规模语料库。
COBUILD语料库(Collins Birmingham University International Language
Database,首字母缩写就是 COBUILD)。1987 年,Collins 出版社出版了建立在 COBUILD
语料库基础上的英语词典,词条选目、用法说明和释义都直接来自真实的语料。2003 年这个语料库的规模已经达到 5 亿词次,其中包含 1500万词次的口语语料库。这个大
规模的 COBUILD语料库,又可以叫做“英语银行”(Bank of English)。
? 东北大学的英汉双语语段库:在双语语料库基础上,建造双语语段库,1999年构造了10万双语语段库,进行了基于语段的英汉机器翻译实验,正在以“机获人校”的办法建造100万双语语段库,拟扩充到500万双语语段库,进一步建造具有1000万语段的大容量网上英汉语段电子词典,研究电子词典中搭配短语获取算法,建造大容量网上电子英汉搭配词典。
OTA牛津文本档案库(Oxford Text Archive):英国牛津大学计算中心建立,有10亿字节。
BNC英国国家语料库(British National Corpus):1995年正式发布,使用TEI编码(Text Encoding Initiative)和SGML通用标准置标语言的国际标准(The Standard Generalized Mark up Language, ISO 8879, 1986年公布)。
在编纂或修订过程中,不同程度地使用语料库或电子文档收集词语数据,用于收词、释义、
例句、属性标注等。南京大学近年来开发了 NULEXID 语料库暨双语词典编纂系统,涉及英汉
两种语言,在《新时代英汉大词典》的编纂过程中起了重要作用。
把语料库用于语言教学的一个例子是上海交通大学的 JDEST 英语语料库,利用
LDC语言数据联合会 (Linguistic data Consortium): 设在美国宾州大学,实行会员制,有163 个语料库 (包括Text的以及 speech的),共享语言资源。
RWC日语语料库:日本新情报处理开发机构RWCP研制,包括《每日新闻》4年的全文语料,语素标注量达1亿条。
亚洲各语种对译作文语料库:日本国立国语研究所研制,中野洋主持,北京外国语大学参加。
相关文档
最新文档