语料库和知识库的研究现状

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

语料库和知识库研究现状
2015-12-9
摘要：语料库是语料库语言学研究的基础资源，也是经验主义语言研究方法的主要资源，它与自然语言处理有着相辅相成的关系，是用统计语言模型的方法处理自然语言的基础资源。

知识库广泛应用于信息检索、机器问答系统、自动文摘、文本分类等领域，为进行大规模的真实性文本的语义分析提供了有利的支持，它也成为自然语言处理不可或缺的基础资源。

由于语料库和知识库的广泛应用，如今国内外对语料库和知识库的研究给与高度的重视，经过过去几十年的发展，各国在语料库和知识库的建设和应用方面都取得了不少成果。

本文通过对语料库与知识库相关文献资料的搜索整理，重点介绍目前国内外在语料库和知识库方面的研究现状。

关键词：语料库；知识库；研究现状
1前言
语料库是指按照一定的语言学原则，运用随机抽样的方法，收集自然出现的连续的语言文本或者说话片段而建成的具有一定容量的大规模电子文本库[1]。

而知识库是知识工程中结构化、易操作使用，全面有组织的知识集群，是针对某一（或某些）领域问题求解的需要，采用某种（或若干）知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。

语料库和知识库在传统语言研究、词典编纂、语言教学、自然语言处理等领域有重要作用，所以自从20世纪60年代第一个现代意义上的语料库——美国布朗语料库(Brown Corpus)诞生开始，大批国内外的专家学者致力于语料库和知识库的研究，近年来国内外对于语料库知识库的研究取得了重大的突破，形成了规模不一的各种语料库和知识库，并且涌现了众多有关语料库和知识库的专着、论文等。

对于语料库和知识库发展现状的总结研究，不仅可以帮助人们清楚的了解语料库和知识库当前发展的形势，对今后语料库知识库的发展具有一定的指导作用，而且对于应用语料库知识库发展自然语言处理等领域具有重要意义。

2研究意义
从现代意义上第一个语料库出现以来,语料库在国内外的发展均有长足的进步,不但其规模越来越大,加工深度越来越深,而且有关语料库的应用也越来越广泛[2]。

语料库的迅速发展对语言学研究领域和应用语言学领域产生了巨大的作用。

在语言学研究领域,语料库为语言研究者和使用者提供了丰富而全面的研究素材,有助于研究者根据大量的语言素材实际得出客观正确的结论。

另外，语料库的现代化使得语言学家可以利用语料库分析软件实现语料检索和频率统计，帮助人们观察和把握语言事实，更为准确的得出结论。

在应用语言学领域，语料库技术与应用语言学的结合也产生了大量的实用成果。

比如，应用语料库产生一系列基于语料库的词典，应用语料库确定语言教学的教材提纲，提供外语教学与研究的良好平台等。

而知识库尤其是语言知识库，是帮助计算机了解人类语言的一个媒介和手段，也是让计算机逐渐智能起来的物质前提[3]。

知识库的构建对于自然语言处理的发展具有重要作用，可以满足其对语言句子语义知识的要求，在信息检索、机器问答系统、信息提取、机器翻译、文本分类、自动文摘等方面得到了广泛的应用。

鉴于以上介绍的语料库和知识库在当今研究中的重要作用，对于语料库和知识库发展现状的研究总结，可以帮助人们更好地了解语料库和知识库的现今已取得发展成果和尚未解决的问题，可以为人们对语料库知识库的进一步研究和应用提供一定的指导作用。

3国内发展现状
语料库的发展与现状
自1979年中国开始建立机器可读的语料库以来,国内语料库发展迅速，取得了相当一部分的成就。

（1）早期语料库
早期在中国建立的机器可读语料库主要包括：1979年武汉大学建立的汉语现代文学作品语料库（527万字）、1983年北京航天航空大学建立的现代汉语语料库（2000
万字）、1983年北京师范大学建立的中学语文教材语料库（106万8千字）以及1983年北京语言学院建立的现代汉语词频统计语料库（182万字）。

早期形成的这些语料库，基本都是手工方式建立的，成本高、效率低。

另外，在早期建立语料库时，只形成了初步的国家语料库的建立标准，在语料库建立的统一规范方面问题比较突出。

（2）国家级大型汉语语料库
在1991年，为了推进汉语的词法、句法、语义和语用的研究，中国国家语言文字工作委员会开始建立计划规模达7000万汉字的国家级大型汉语语料库。

虽然该语料库当时在汉语语料库系统开发技术上具有国际领先水平，而且在语料的可靠和标注的准确方面等享有权威性，但是该语料库依靠纯手工建立，在选材方面也受到了一定的限制。

目前，该语料库已经具有2000万字的核心语料，经过人们的加工处理，其正在完成从生语料库到熟语料库的过度。

（3）大规模真实文本语料库
随着技术的进一步发展，大规模真实文本语料库逐渐被建立起来。

研究大规模真实文本语料库的单位包括北京大学计算语言学研究所、清华大学、山西大学、哈尔滨工业大学、北京语言文化大学、东北大学、中科院软件研究所、中科院自动化研究所、香港城市大学以及台湾中央研究院等。

其中代表性成果有：北京大学计算语言学研究所从1992年开始开展对现代汉语语料库多级加工的研究，先后建成2600万字的1998年《人民日报》的标注语料库，2000万字汉字、1000多万英语单词的篇章级英汉对照双语语料库以及8000万字篇章级信息科学与技术领域的语料库等。

清华大学则在1998年建立了1亿汉字的语料库，它着重研究歧义切分的问题，如今建立的生语料库已达7-8亿字 [4]。

（4）双语语料库
在20世纪90年代前后，随着外语教学的普及，先后出现了各种不同的双语语料库，比如：北大计算语言学研究所的双语语料库、哈尔滨工业大学的英汉双语语料库、东北大学的英汉双语语段库等英汉双语语料库，北京外国语大学的北京日本学研究中心建立汉语和日语并行语料库、中国海洋大学语言文学院研制的《蝴蝶》德汉对照语料库以及复旦大学计算机系建立的汉日英分类熟语料库。

在该时期，中国语料库的发展进入到全新的蓬勃时期。

双语语料库的迅速发展为外语教学提供了丰富的可用资源，对于外语教学的发展起到了巨大的推动作用。

（5）少数民族语言语料库
由于我国民族众多，民族语言资源丰富，所以近年来，少数民族语言语料库的发展得到了大家的重视。

比如，新疆大学从2002年起开始建设现代维吾尔语语料库系统，目前已有生语料800万词；新疆师范大学建立了200万词的维吾尔语语料库，拟发展到300万词；中国社会科学院民族研究所建立了500万藏语字符的藏语语料库；内蒙古大学建立了带有初步切分和标注的蒙古语语料库[5]。

虽然由于少数民族语言的特殊性，少数民族语料库的建设还存在一系列问题，但是少数民族语言语料库的建立足以说明到目前为止我国语料库的发展已经达到了一个新的高度。

知识库的发展与现状
在国内，现今比较知名的知识库是HowNet（知网）、基于WordNet框架开发的中文概念词典（CCD）以及台湾中研院的Sinica Bow[6]等。

从上世纪末开始，董振东先生就带领一批专家学者开始建立知网（HowNet），它是一个以汉语和英语的词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。

知网的发展从1988年展开基础研究开始到2008年发布“知网在线”共经历了九个过程。

现如今，中国知网的发展比较成熟，已经成为中国知识资源的总库，提供了工业、农业等众多学科的知识。

它不仅为语言信息处理的研发提供了丰富的知识资源，而且提供了一个进行汉语言计算机处理的新思路，其在词义标注、词义消歧、信息过滤、词义相似度的计算等许多领域得到广泛的应用。

CCD是基于WordNet框架开发的，他不仅继承了WordNet的一部分方法技术，而且根据汉语的特点对WordNet进行了改进，经过多年的努力，CCD已包含十万左右的汉语同义词集[7]。

台湾中研院开发的Sinica Bow支持英汉双语查询；多重语义索引等，并且Sinica Bow还包括了不同层次的词汇知识，词汇的可用资源丰富而全面。

4国外发展现状
语料库的发展与现状
从20世纪60年代开始，语料库从第一代逐渐发展到如今的第三代，这么多年来，各国在语料库的发展方面都取得了不菲的成绩。

（1）第一代语料库
20世纪60年代Francis和Kucera在美国Brown大学建立美国布朗语料库(Brown Corpus)，它是世界上第一个根据系统性原则采集样本的标准语料库，主要代表当代美国英语的，具有100万词的规模。

70年代初，英国Lancaster大学、挪威Oslo大学与Bergen大学联合建立了与布朗语料库规模相当的 LOB 语料库，它主要代表当代英国英语。

LLC口语语料库(London-Lund Corpus of Spoken English)在1975年建成的，其规模为万词的并且带有详细的韵律标注。

总体来说，第一代语料库的规模比较小，基本采用系统的抽样方法并且基本都以语言研究为目的。

（2）第二代语料库
COBUILD语料库（Collins Birmingham University International Language Database，科林斯英语语料库）是从20世纪80年代开始由英国伯明翰（Birmingham）大学和柯林斯（Collins）出版社合作建立的主要应用于词典编撰的一个大规模语料库，目前它固定在亿词的规模，并且提供在线检索。

同样在20世纪80年代朗文语料库委员会还建立了应用于英语学习词典编纂的Longman语料库（朗文语料库），目前其规模达5000 万词次。

由于技术的进步，第二代语料库采用交心的光电符号识别技术，拜托了手工建立的麻烦，节省了语料库建立的时间和成本，而且第二代语料库的规模与第一代语料库相比均有大幅度提高。

（3）第三代语料库
美国计算机协会（ACL/DCI）倡议发起建立ACL/DCI语料库，其收集的语料来源广泛，而且采用了统一的标准通用标注语言和TEI文本编码倡议标准。

在20世纪80年代末90年代初，美国宾州大学开始对百万词级的语料进行句法和语义标注，把线性的文本语料库加工成为表示句子的句法和语义结构的树库，建立了宾州大学树库（PennTreeBank）。

到1993年已经完成了对300万词的英语句子进行了句法结构标注。

另外在2000年，其完成了约10万词、4185个句子的第一版中文树库。

随着发展，第三代语料库的语料从开始的单语种发展到多语种，规模从开始的百万级发展到亿级、万亿级，选取的文本从抽样发展到全文。

经过三个阶段，现如今除上述所列的语料库，国外还包括许多其他的语料库，总体来说，当今不仅中国的语料库发展迅速，在国外语料库也取得了巨大的发展成果。

知识库的发展与现状
国外知识库的发展过程中，形成了以描写聚合关系为主的WordNet，以描写组合关系为主的FrameNet[8]。

本文将着重介绍WordNet，对于FrameNet不做详细叙述。

为了解决词典中同义信息的组织问题，美国美国普林斯顿大学(Princeton University)认知科学实验室开发了WordNet[9]，它是在线词汇的语义资源。

其基本单元是同义词集合，而且单元和单元之间主要依靠包括上下文关系、反义关系、整体部分关系等的聚合关系来连接。

它包括95600个英语词条，其中51500个简单词，44100个搭配词，70100个同义词级集合。

其具体可以应用于词汇消歧，语义推理，语义理解等领域。

5存在问题及未来发展趋势
存在的问题
语料库的问题
虽然国内外语料库的建设发展迅速，但是在语料库的发展方面依旧存在不少的问题，主要包括：
（1）语料库建设的规范问题
语料库的规范问题主要是对语料加工而言的[10]。

虽然在语料库的发展过程中形成了《信息处理用字符集汉字部件规范》、TEI（Text Encoding Initiative，文本编码倡议，1998年）、CES（Corpus Encoding Standard，语料库编码标准）及国际标准SGML(Standard Generalized Markup Language，标准通用置标语言)等一系列约
束语料库的标准和规范，但是语料库中建设的规范问题依旧比较严重，存在分词的标准没有完全确定和统一，文本属性的规范未能完全成熟等问题。

（2）产权保护和国家语料库建设问题
在当今社会中，虽然人们广泛关注语料库的发展，重视国家语料库的建设，但是没有制定出台对于语料库知识产权保护的法律法规，以正式出版物为资源的语料库面临版权的问题，另外也没有将国家语料库的建设和保护上升到对于国家资源保护的高度。

（3）语料库的资源共享的问题
虽然近年来语料库资源在较大范围的共享已经成为了可能，但是在资源共享方面依然存在比较严重的问题。

一方面，由于建设语料库的目的不同，收集的语料信息也不同，这给资源的共享带来了一定的限制。

另一方面，许多语料库资源的共享是盈利性质的，这也限制了语料库资源的共享。

（4）语料库加工中统计垃圾的问题
当今社会，由于计算机的普及，电子文本得到普遍使用，用于生成语料库资源的越来越多，但是随着语料库容量的不断增大，语料统计中的数据稀疏现象会越来越严重[11]。

而在统计垃圾中可能会蕴藏着许多新的语言现象，所以应该正确的地对待统计垃圾，避免统计中的数据稀疏现象。

（5）语料库发展不平衡
随着语料库的发展，语料库在个领域发展不平衡的现象越来越严重。

以中国为例，某些语料库，比如英汉双语语料库，在当今得到了迅速的发展，形成的语料库规格各异、数量众多，但是在少数民族语言方面，形成的语料库数目少，规模小。

所以，我们应该着眼于全局，使得语料库可以得到全面均衡的发展。

知识库的问题
虽然知识库的建设各个国家的重视，但是知识库仍然存在以下的一些问题：
（1）知识获取问题
由于知识的提取技术不成熟，如果采用机器自动提取知识建立知识库会降低知识库的质量，而手工建立知识库虽然保证了质量但是效率低、成本高。

因此，知识的获取是阻碍知识库发展的一个瓶颈。

（2）维护困难
由于知识的动态性，使得知识库需要经常的进行维护[12]，当知识库规模非常大时，它的维护工作难以进行。

未来发展趋势
虽然语料库和知识库的发展存在上述的一些问题，但是经过近几十年的发展，无论是在语料库知识库的利用还是研究方法上都取得了长足的进步。

而且随着知识经济的发展，计算机语言学和自然语言处理在学界也越来越受到重视[13]，这也意味着作为其发展基础的语料库和知识库也越来越得到人们的重视。

纵观当今现状，由于计算机技术的迅速发展，建设语料库的语料资源越来越丰富，越来越多的语言研究者按照自身需求建立语料库，这使得语料库的建设趋于多样性、应用趋于多样化。

另外，学习者语料库、口语语料库、平行语料库等应用性比较强的语料库种类的发展趋势可能更为乐观。

而知识库则会出现本体化和多语化的大趋势，它们将从不同方面弥补词汇语义知识库在知识共享和知识交流上的不足，使其更好地为自然语言处理服务[8]。

总之，语料库和知识库在今后相当长的时间内都拥有广阔的发展空间。

6总结
语料库主要用来研究语言的特征，随着技术的现代化，语料库在语言学研究中占据着越来越重要的地位。

而语言知识库则是自然语言处理的基础，在机器问答系统、信息检索等方面发挥着重要的作用。

本文概要介绍了语料库和知识库的基本概念, 研究语料库和知识库的意义、语料库和知识库当前存在的一些问题以及对语料库和知识库未来发展的展望，另外，本文着重介绍了国内外语料库以及知识库的发展现状。

7参考文献
[1] 刘美良.语料库语言学综述[J].科技信息,2010,21期(21):280-281.
[2] 常宝宝,俞士汶.语料库技术及其应用[J].外语研究,2009,(5).
[3] 刘金凤.面向自然语言处理的汉语句子语义知识库构建研究[D].鲁东大学, 2009.
[4] 宗成庆,高庆狮.中国语言技术进展[J].中国计算机学会通讯.2008(8).
[5] 彭刚,刘岩.语料库研究与应用综述[J].黑龙江科技信息,2010,26期(26):215-215.
[6] Huang Chu-Ren, Chang Ru-Yng. Shiang Bin Lee Sinica BOW(Bilingual Ontological Wordnet):Integration of Bilingual WordNet and SUMO 2004.
[7] Yu Jiangsheng, Yu Shiwen. Introduction to Chinese Concept Dictionary[J]. Journal of Chinese Information Processing. 2001(4).
[8] 朱虹,刘扬.词汇语义知识库的研究现状与发展趋势[J].情报学报,2008, 27(6):870-877.
[9] Fellbaum C. WordNet-An Electronic Lexical Database 1998
[10] 施秀川.语料库在外国文学研究中的应用[J].剑南文学：经典教苑,2013, (08).
[11] 冯志伟,中国语料库研究的历史与现状，国际会议 ICCC2001 主题报告（新加坡），Proceedings of ICCC2001, 1-24.
[12] 汤赛丽.常识知识问答系统中知识库构建的研究与设计[D].河南大学,2005.
[13] 俞士汶,朱学锋.综合型语言知识库及其在语言教学中的应用[J].北华大学学报：社会科学版,2014,15(03):4-9.。