国家语委十五科研重大项目-现代汉语语料库的建设及深加
中文基准语料库-概述说明以及解释
中文基准语料库-概述说明以及解释1.引言1.1 概述中文基准语料库是指一种包含大量中文文本的语料库,它被广泛用作语言研究、自然语言处理、机器翻译等领域的标准参考。
中文基准语料库的建立旨在提供一个覆盖广泛的文本资源,使研究人员能够进行准确和全面的中文语言分析。
中文基准语料库的构建是一个复杂而耗时的过程。
通常,它涉及对大量现代和古代中文文本的收集、整理和标注。
这些文本可以包括各种文学作品、新闻报道、社交媒体内容等。
通过对这些文本进行语言学和语义分析,研究人员可以得到有关中文语言规律和特点的重要信息。
中文基准语料库具有重要的研究价值和实际意义。
首先,它为中文语言研究提供了全面的材料基础,可以帮助研究人员深入了解中文的语法、词汇和语义结构。
其次,它为自然语言处理和人工智能领域的技术开发提供了必要的训练和评估数据。
通过大规模的中文基准语料库,研究人员可以构建和改进各种中文文本处理模型和算法。
中文基准语料库在许多应用领域都发挥着重要的作用。
例如,在机器翻译领域,中文基准语料库可以用来训练和改进机器翻译系统,提高系统的翻译质量和准确性。
在文本分类和信息检索领域,中文基准语料库可以用来构建文本分类模型和搜索引擎,帮助用户更快捷地找到需要的信息。
此外,中文基准语料库还可以在教育、语言学习和文化研究等方面发挥重要的作用。
总之,中文基准语料库是中文语言研究和自然语言处理领域不可或缺的资源,它为各种语言分析和技术应用提供了基础和支持。
随着技术的不断发展和语料库的不断壮大,中文基准语料库将持续发挥重要的作用,并为未来的研究和应用提供更多可能性。
1.2 文章结构:本文主要分为引言、正文和结论三个部分。
在引言中,首先对中文基准语料库进行概述,介绍其定义、重要性以及应用领域。
然后说明文章结构,即引言、正文和结论的内容安排,并提出文章的目的。
接下来是正文部分,主要包括三个子部分。
首先介绍中文基准语料库的定义,包括其所指的内容范围和构建标准。
国内语料库研究综述
国内语料库研究综述摘要本文旨在回顾国内语料库研究的发展历程、现状,并探讨未来研究方向。
通过分析相关文献资料,文章总结了国内语料库研究的主要成果、不足之处,并提出了针对性的建议。
本文旨在为语料库研究领域的学者提供参考,以推动国内语料库研究的发展。
关键词:语料库、国内研究、发展历程、现状、未来研究方向引言语料库是指为语言研究而收集的、有一定规模的、有代表性的语言材料集合。
自20世纪中期以来,语料库在国外得到了广泛应用,并在多个领域取得了显著的成果。
近年来,随着国内语言学、计算语言学等学科的快速发展,语料库在国内的研究和应用也逐渐受到重视。
本文将重点探讨国内语料库研究的现状、成果及未来研究方向。
研究现状1.国内语料库的发展历程和现状自20世纪80年代起,国内开始出现一些小型语料库的建设和研究,如国家语委现代汉语通用词库等。
随着计算机技术的不断发展,90年代中后期以来,国内开始大力推进语料库的建设和研究,涉及的领域也日益广泛。
目前,国内已经建立了一系列不同规模、不同类型的语料库,如中国传媒大学的中国广播电视媒体语言语料库、上海交通大学的中文文本分类语料库等。
2.基于不同领域语料库的研究成果和不足语料库在多个领域得到了广泛应用,如语言教学、词典编纂、语言政策研究等。
在语言教学领域,语料库可以提供真实的语言材料和语境,有助于提高语言学习者的兴趣和理解能力。
在词典编纂领域,语料库可以提供大量的实例和用法,有助于提高词典的准确性和实用性。
在语言政策研究领域,语料库可以提供真实的语言使用情况和发展趋势,有助于制定科学的语言政策和发展规划。
然而,国内基于不同领域语料库的研究成果尚不够丰富,且在某些领域还存在着研究空白。
例如,针对特定领域的语料库建设和研究尚不够深入,部分领域的语料库仍存在着规模较小、代表性不足等问题。
此外,针对语料库在二语习得、语言演化等领域的研究尚不够充分。
3.国内语料库在语言教学中的应用语料库在语言教学中的应用已经得到了广泛的认可。
人工智能视角下汉语语音语料库的建设
人工智能视角下汉语语音语料库的建设摘要随着人工智能时代的到来,语料库研究得到越来越多的关注和重视。
在大数据时代的今天,语音小助手无处不在,发微信语音,语音可以即时转换为文字,方便大家在不能听语音的时也能即时收到信息;在开车时,可以使用车载语音,拨打电话或者打开蓝牙连接手机,随时听歌,减少因开车时手持电话而造成的安全事故;使用地图软件上的麦克风功能,可以不用手动输入就能搜索到想要去的地方,而且一路上可以播报语音,随时通知路况,提醒道路违章等等;总之,语音合成可以应用于多中场景中。
比如应用于智能客服,帮助企业提升用户体验,促进营销效果转化;可以应用于有声读物,解放双眼,降低有声内容创作门槛;也可以应用于教育教学,准确高效的把文字转为悦耳的声音,提高孩子学习效率,降低企业的录制成本。
由此可见,语音智能已经深深地融入到我们的生产生活实践中了。
那么,如何让机器听懂我们的声音,更好的为我们所用?这就需要依靠语音识别技术。
而语音识别技术的形成的最重要的基础就是语音语料库的建设,语音语料库的建设则需要大量的人工去标注除这些“说出的话”所对应的“文字”,从而训练模型,让机器学会这些语音,最后再一点点修正语音和文字转换之间的误差,这就是语音标注。
本论文主要研究的就是中文语音语料库的建设,语音语料库建设的基础就是中文语音语料的标注,然后在一定的语料基础上训练出语音模型,最后在语音模型的再进行语料库建设程序的编写,最后形成语音语料库。
关键词:语音语料库,语音标注,语言学,语音识别一、语音语料库建设现状概述以“语音语料库建设”为主题在中国知网搜索之后发现,语音语料库建设的相关论文仅有12篇,其中有两篇论文是同一篇文章在不同的刊物上发表的,而且发表时间比较早,所以,实际上数据库中与该主题相关的论文仅有10篇。
以2022年1月1日为界,其中有4篇论文是在十年前发表的,仅有6篇是在近十年内发表的,在这其中,仅有2篇是在近五年内发表的,而近三年内,没有任何相关论文发表。
专业语料库建设
专业语料库建设随着信息技术的不断发展和应用,语料库建设逐渐成为语言学和应用语言学研究中的重要领域。
专业语料库是指针对特定领域或专业培训需求而构建的语言资源库。
本文将讨论专业语料库建设的重要性、方法和应用。
一、专业语料库的重要性专业语料库在多个领域中发挥着重要作用。
首先,它为语言学研究提供了有效的数据源。
研究人员可以通过专业语料库对特定领域中的语言现象进行深入研究,揭示其中的规律和特点。
同时,专业语料库也为应用语言学提供了强大的支持。
通过分析该领域的实际语言使用情况,可以为专业培训和语言教学提供参考,提高语言学习者的语言能力和专业素养。
二、专业语料库的建设方法1. 语料收集和筛选专业语料库的建设首先需要收集大量的相关语料,并加以筛选。
语料可以来源于不同的文本类型,例如专业书籍、学术论文、专业新闻等。
筛选时需要考虑语料的质量和代表性,确保语料库能够准确反映该领域的语言使用情况。
2. 数据标记和标注在构建专业语料库时,常常需要进行数据标记和标注。
数据标记是指对语料进行分词、词性标注等处理,以便后续的分析和应用。
标注是指对语料进行添加注释或标记,用于特定任务的需求,如命名实体识别、语法分析等。
数据标记和标注的准确性和一致性对于语料库的质量至关重要。
3. 数据存储和管理专业语料库的建设还需要进行数据存储和管理。
为了方便使用和检索,语料库的数据应该结构化存储,并建立合适的索引和标签。
同时,为了保护语料的版权和隐私,需要制定相应的数据使用政策和权限管理措施。
三、专业语料库的应用专业语料库的建设和应用有助于多个领域的发展。
首先,它在专业培训中起到了重要作用。
通过分析专业领域的语料,可以制定详细的培训计划和教学内容,提高学习者的专业知识和语言能力。
其次,专业语料库可以支持翻译和文本处理任务。
通过对大规模语料的处理和分析,可以提高机器翻译和文本自动处理系统的性能和效果。
此外,专业语料库还有助于学术研究和语言技术的发展,为相关领域的创新提供支持。
《国家语委语料库》课件
语料库的共享机制和平台
添加 标题
国家语委语料库的共享机制:介绍语料库的共 享机制,包括共享方式、共享范围、共享内容 等。
添加 标题
国家语委语料库的合作平台:介绍语料库的合 作平台,包括合作方式、合作内容、合作对象 等。
添加 标题
国家语委语料库的共享和合作的意义:介绍语 料库的共享和合作的意义,包括促进语言研究、 推动语言教育、促进文化交流等。
• 案例3:国家语委语料库在语言规划中的应用 • 提供数据支持,为国家制定语言政策提供科学依据。 • 促进语言的规范化、标准化,提高语言的交际效率。 • 推动语言的健康发展,促进社会的和谐稳定。 案例4:国家语委语料库在文化传承中的应用
• 案例4:国家语委语料库在文化传承中的应用 • 保存和传承文化遗产,为后人留下宝贵的文化遗产。 • 促进文化的交流与传播,推动文化的多元化发展。 • 推动文化的创新与发展,为现代社会注入新的文化元素。
添加 标题
国家语委语料库的未来发展:介绍语料库的未 来发展,包括扩大语料库规模、提高语料库质 量、加强语料库应用等。
语料库的合作模式和案例
• 合作模式:国家语委语料库与高校、研究机构等合作,共同开展语言研究、教学等工作。 • 案例:国家语委语料库与某高校合作,共同开展汉语词汇研究,为汉语教学提供支持。 语料库的共享和合作
数字化语料库的建设和发展
数字化语料库的背 景和意义
数字化语料库的建 设过程
数字化语料库的智 能化发展
数字化语料库的应智能化语料库的定义和特 点
智能化语料库的应用场景
智能化语料库的发展趋势
智能化语料库的未来展望
未来数字化和智能化语料库的趋势
添加标题
数字化语料库的全面升级:随着技术的不断发展,数字化语料库将更加全面、高效地升级, 实现更加精准、快速的数据检索和分析。
中国语料库研究的历史与现状
中国语料库研究的历史与现状推荐文章•汉语社会中识字社群的汉字字形思维例析热度:•结构主义语言学及其源流热度:•我国汉字识别研究的新进展热度:•关于汉语词汇层的研究热度:•“语法化”问题热度:中国语料库研究的历史与现状语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。
传统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种枯燥无味、费力费时的工作。
计算机出现后,人们可以把这些工作交给计算机去作,大大地减轻了人们的劳动。
后来,在这种工作中逐渐创造了一整套完整的理论和方法,形成了一门新的学科——语料库语言学(corpus linguistics),并成为了自然语言处理的一个分支学科。
语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。
多年来,机器翻译和自然语言理解的研究中, 分析语言的主要方法是句法语义分析。
因此,在很长一段时间内,许多系统都是基于规则的,而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来,这样,这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言(sub- language)中获得一定的成功。
为了摆脱困境,自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计,以便采用一种基于统计的模型来处理大量的非受限语言。
不言而喻,语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论,从而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。
本文首先简要介绍国外语料库的发展情况,然后,比较详细地介绍中国语料库的发展情况和主要的成绩,使我们对于语料库研究得到一个鸟瞰式的认识。
语料库简介及国内的语料库建设
语料库简介及国内的语料库建设摘要:语料库作为一种随着计算机技术发展而广泛应用的新兴的语言研究工具,在语言的定量分析上有极大的作用。
本文正是基于语料库的这种重要性,对国内外的语料库建设发展进行了简介,并且分析了国内语料库建设的不足。
关键词:语料库;国内语料库;语料库语言学1、语料库发展综述语料库通常指为一个或多个语言研究目标而专门收集的、有一定结构的、具有一定规模的、用电子形式保存的、可以被计算机程序检索的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。
人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。
语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。
下面对语料库发展的四个时期进行分别介绍。
1.1手工语料库时期18世纪开始到20世纪50年代,语料的研究都是手工进行的,由人工收集,将需要的词或句子写在纸条上,然后整理成卡片进行检索。
涉及到了圣经与文学研究、词典编纂、语言教育研究、语法研究和方言研究、儿童语言习得和语言比较的研究中。
他们使用大规模语言资料来进行语言研究的工作,是具有开创性的。
但这些语料库都是手工建立的,研究者们假定自然语言的句子是有限的。
这些有限的句子可以收藏和列举,语料库可以作为语言研究的唯一可靠的数据来源,这样的看法难免由片面的地方。
他们使用的语言材料都不是机器可读的,所以还不能算成是真正意义上的语料库。
代表人物是伦敦大学的奎克,他提出了英语用法调查语料库,代表了使用手工方法建立的语料库的最高水平。
1.2 第一代电子语料库时期20世纪五十年代到80年代,出现了机器可读的语料库。
语料库来到了电子或电脑化的时代。
在这个时期建立了布朗语料库、LOB语料库、LLC语料库等影响十分大的语料库。
语料均为书面语,缺乏口语和手稿。
这些语料库的规模都比较小,布朗语料库和LOB语料库都只有100万词左右。
这些小规模的语料库只能用来考察常用语言现象的频率,无法展示语言的全貌。
北京大学现代汉语语料库基本加工规范
北京大学现代汉语语料库基本加工规范俞士汶段慧明朱学锋孙斌(北京大学计算机系,北京大学计算语言学研究所北京 100871)摘要:北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。
加工项目除词语切分和词性标注外,还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。
这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。
发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉,更广泛地向专家、同行征询意见,以便进一步修订。
关键词:现代汉语;语料库;词语切分;词性标注;规范中图分类号:TP391The Basic Processing of Contemporary Chinese Corpus at Peking UniversitySPECIFICATIONYU Shi-wen DUAN Hui-ming ZHU Xue-feng Bing SWEN(Institute of Computational Linguistics, Peking University, Beijing, 100871) Abstract: The Institute of Computational Linguistics, Peking University has completed the basic processing of a contemporary Chinese corpus that has 27 million Chinese Characters. In addition to word segmentation and part-of-speech tagging, the processing involves the tagging of proper nouns (person names, place names, organization names and so on), morpheme subcategories and the special usages of verbs and adjectives. The success of this large-scale language engineering is attributed to the SPECIFICATION, which had been made beforehand and was being perfected while in use. We are hereby making an introduction to the SPECIFICA TION through this publication, thus inviting the comments from all the experts and our colleagues for the improvement of it.Keywords: contemporary Chinese; corpus; word segmentation; part-of-speech tagging; specification⒈前言关于汉语语料库的全面情况,冯志伟教授的文章已有详细介绍[1]。
国家语委语料库
国家语委现代汉语语料库是一个大型的通用的语料库,以语言文字的信息处理、语言文
字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务目
标。国家语委现代汉语语料库作为国家级语料库,在汉语语料库系统开发技术上具有国际领
先水平,在语料可靠、标注准确等方面具有权威性。国家语委现代汉语语料库面向国内外的
b)切分结果层次(结构)化:
8
切分结果层次(结构)化使得语料库能够更好地满足不同研究应用需要。
2.机助人校的语料校对工具软件
校对软件界面:
..校对者可与后台词典交互,直接获取词和词类信息
..软件自动通过色彩标识出语料校对信息
..严格的自动格式检查,防止用户误操作等带来的错误
经完成词语切分和标注加工的约5000万字语料是语料库中1919~1992时间段的大部分语料
以及1992~2002时间段的部分语料。
二、国家语委语料库建设与深加工
1.主要科研成果
国家语委现代汉语语料库建设已经完成的主要内容是:
2
1)完成 5000万字语料词语切分和词性标注加工。词语切分校对精度达到万分之五,词
a14 本版印数
a15 总印数
a16 总页数
a17 开本
a18 选择方式
a19 起止页数
a20 样本字数
a21 样本总字数
a22 文章总字数
a23 简繁体
a24 抽样文章
国家语委现代汉语语料库的数据量包括新增的 1000万字新语料已经达到了 1亿字,已
“大规模”和“真实”这两个特点,因此是最理想的语言知识资源,是直接服务于语言文字
专业的语料库建设
专业的语料库建设语料库是指用来进行语言学研究和自然语言处理的文本集合。
它是一种大规模的语言现象数据,可用于分析语言的结构、语义和语用等方面。
专业的语料库建设是一个艰巨且复杂的任务,需要精心策划和高质量的文本资源。
本文将论述语料库建设的重要性,介绍语料库建设的步骤和方法,并探讨如何提高语料库的质量和可用性。
一、语料库建设的重要性语料库作为语言学研究和自然语言处理的基础,具有重要的学术和应用价值。
它可以为语言学家提供大量的实证数据,帮助他们研究语言的规律和变化。
同时,语料库还可以用于机器翻译、信息检索、语音识别、情感分析等多个领域。
因此,专业的语料库建设对于促进语言学科的发展和推动自然语言处理技术的应用具有重要意义。
二、语料库建设的步骤和方法1. 确定建设目标:在开始语料库建设之前,需要明确建设的目标。
这包括选择特定领域或特定类型的语料,以及确定所需的文本数量和种类。
2. 收集语料数据:收集语料数据是语料库建设的核心步骤。
可以通过网络爬虫、人工收集和专门采集等方式获取文本数据。
为了保证数据的质量,需要选择权威可靠的信息源,如学术论文、新闻报道和书籍等。
3. 清洗和预处理:收集到的原始文本需要经过清洗和预处理的过程,以去除无关信息和冗余内容。
这包括去除标点符号、停用词、HTML标签等,同时还需进行词性标注、分词、去重等预处理操作。
4. 建立索引和查询系统:为了方便用户使用和检索语料库数据,需要建立索引和查询系统。
这能够提高查询效率和准确性,并支持基于词汇、语义和结构等多种检索方式。
三、提高语料库质量和可用性的方法1. 多样化语料来源:为了提高语料库的质量和可用性,需要从不同的来源获取语料数据。
这包括收集来自不同地区、不同年代和不同语言等多样化的文本资源。
这样可以更好地反映语言的变化和多样性。
2. 定期更新和维护:语言是一个动态的系统,不断变化着。
为了保持语料库的时效性和准确性,应定期进行更新和维护工作。
国家语委_通用语料库_核心库_的词表提取及词汇构成分析_苏新春
一 、从真实语料中提取词表的意义与价值
说到词表 , 人们就会想到词典的词目 , 其实 , 词典的词目与来自语言生活中的词表是很不一样 的 。 词典的词目重在继承 , 多来源于前面一代代 的辞书 , 更重要的是它看重的是 “考释性 ”, 愈是 人们不懂 , 需要查考的 , 愈是它的收录对象 , 而于 “见字明义 ”的词则是不屑一顾的 。 因此 , 从词典 的词目来看一个时代的词汇面貌也就打上了许多 的折扣 。 人们开始重视 从真实语言材 料中来提 取词 表 , 而对断代词汇整体面貌的了解则是人们孜孜 以求的目标 。 人们作过许多尝试 , 从专书研究时 代起 , 就有过通过选取代表作品 、 代表作家来窥探 断代语言面貌的做法 。 到了计算机语料库时代 , 从众多的作品 、海量的语料中来概括断代语言面 貌则成为一种普遍的做法 。 从百万字级容量的语 料库 , 直至千万级 、 亿级 , 甚至若干 G 级的都出现 了 ,仅 《 人民日报 》 从创刊起至当下 , 容量就逾十 亿字 。 这时新的问题又出来了 , 人们发现语料库 并不是愈大愈好 , 超大语料库所反映的语言规律
由于选材原则是经几次专家论证确定的核心语料库的语料筛选工作在语料分科年限划分比例字数等方面基本上仍依照选材原则进行只是结合核心语料库的用途特点在语料筛选上突出年以后的新语料注意选用内容通俗通用性强的普及性语料因而不同年限和门类的语料比例和字数均有小的调整
DO I 牶 牨 牥 牣 牨 牫 牫 牨 牱 牤 j牣 cnki 牣 jdskxb牣 牪 牥 牥 牱 牣 牥 牨 牣 牥 牨 牱 2007 年 1 月 江 苏 大 学 学 报 (社 会 科 学 版 ) 第 9卷 第 1 期 Journal o f Jiangsu Unive rsity(Socia l Sc ience Edition)
国家语委现代汉语语料库介绍
样例 分词和词性标注语料
样例 词类标记集
样例 句法树库标记集(1)
(一)短语功能分类
样例 句法树库标记集(2)
(二)短语结构分类
综合类
应用文 难于归类的语料
人文与社会科学类
人文与社会科学类划分为8个大类和30个小类:
政法:哲学、政治、宗教、法律; 历史:历史、考古、民族; 社会:社会学、心理、语言文字、教育、文艺理论、新闻、
民俗; 经济:工业经济、农业经济、政治经济、财贸经济; 艺术:音乐、美术、舞蹈、戏剧; 文学:小说、散文、传记、报告文学、科幻、口语; 军体:军事、体育; 生活。
人文与社会科学类约占语料总量的50%
自然科学类
自然科学划分为6类:
数理 生化 天文地理 海洋气象 农林 医药卫生
自然科学类约占语料总量的30%,
综合类
综合类语料由应用文和难于归类的其他语料两部分组成。 应用文主要包括以下6类:
行政公文:请示、报告、批复、命令、指示、布告、纪要、 通知等;
语料抽样数量
书籍
抽样数量一般占全书字数的3~5%,字数最多不超过 10000字。样本容量2000字,允许±500字。
报纸
采用整版(4版或8版)选用的方式。不同的报纸选用不 同的月份,以免内容重复。
报纸上的广告、启事等归在应用文类,不在报刊类语料 的统计之列。
刊物
每本刊物上所选的总字数原则上不超过5000字。样本容 量2000字,允许±500字。
近十年国内语料库语言学研究综述
近十年国内语料库语言学研究综述一、本文概述近年来,随着信息技术的飞速发展和大数据时代的来临,语料库语言学在国内语言学界的影响力逐渐增强。
本文旨在全面梳理近十年国内语料库语言学研究的发展脉络,总结研究成果,分析存在的问题,并展望未来的发展趋势。
本文将从语料库的建设、语料库语言学理论、语料库在语言教学和研究中的应用等方面展开综述,以期为国内语料库语言学的研究者提供一个清晰的研究全景和参考框架。
通过对近十年国内语料库语言学研究的系统回顾,本文旨在推动语料库语言学在国内的深入发展,为语言学研究的创新提供新的视角和方法。
二、语料库建设与研究近十年,我国语料库语言学在语料库建设方面取得了显著进展。
语料库作为语言学研究的基础资源,其规模和质量直接影响到研究的深度和广度。
在这一时期,我国学者和机构积极投入语料库的建设工作,不仅扩充了语料库的种类和数量,还提高了语料的质量和标注精度。
在语料库种类方面,除了传统的通用语料库外,还出现了专门针对某一领域或语体的语料库,如法律语料库、医学语料库、社交媒体语料库等。
这些专业语料库为相关领域的研究提供了丰富的数据支持。
在语料库规模方面,随着大数据技术的发展,语料库的规模不断扩大。
大型语料库如“国家语委现代汉语语料库”“古代汉语语料库”等,为语言学研究提供了海量的语料资源。
在语料质量方面,我国语料库建设注重语料的真实性和代表性。
通过严格的语料采集和筛选流程,确保语料的质量和准确性。
同时,采用自动化和半自动化的方法对语料进行预处理和标注,提高了语料的处理效率和质量。
在语料库研究方面,我国学者充分利用语料库资源进行各种语言学研究。
通过语料库的统计分析,揭示语言现象的本质和规律。
还利用语料库进行语言对比研究、语言演变研究、语言教学研究等,推动了语言学研究的深入发展。
近十年我国语料库语言学在语料库建设与研究方面取得了显著成就。
语料库的规模和质量不断提升,为语言学研究提供了强大的数据支持。
近十年国内语料库语言学研究综述
近十年国内语料库语言学研究综述一、概述近十年来,语料库语言学在国内的研究取得了显著的发展和突破。
随着信息技术的飞速进步和大数据时代的到来,语料库语言学在语言学研究中的地位日益凸显。
它基于大规模真实文本数据,运用统计学和计算机技术,对语言现象进行定量和定性的分析,为语言学研究提供了全新的视角和方法。
国内语料库语言学的研究范围广泛,涉及语言结构、语言变异、语言使用、语言教学等多个领域。
研究者们利用语料库资源,深入探讨了词汇、语法、语义、语用等层面的语言问题,揭示了语言现象的内在规律和特点。
同时,随着语料库建设的不断完善,语料库语言学在国内的应用也愈加广泛,为自然语言处理、机器翻译、信息检索等领域提供了强大的数据支持和技术基础。
近十年内,国内语料库语言学的研究呈现出以下几个特点:一是研究方法的多样化,不仅注重传统的统计分析方法,还引入了机器学习、深度学习等先进技术二是研究领域的拓展,语料库语言学不再局限于传统的语言结构研究,而是向语言教学、语言规划等应用领域延伸三是语料库资源的不断丰富,各类专题语料库、多语种语料库等不断涌现,为语料库语言学的研究提供了更为丰富和多样的数据来源。
总体而言,近十年国内语料库语言学的研究取得了丰硕的成果,不仅推动了语言学理论的发展,也为语言实践提供了有力的支持。
未来,随着技术的不断进步和语料库资源的日益丰富,语料库语言学在国内的研究将更加深入和广泛,为语言学研究和社会应用带来更多的创新和突破。
1. 语料库语言学的定义与重要性语料库语言学,作为一种独特的语言学研究方法,主要依赖于大规模、结构化的语言数据集合,即语料库,来进行语言分析和研究。
它通过对真实语料进行定量和定性的分析,旨在揭示语言的实际使用情况和内在规律。
近十年来,随着信息技术的飞速发展和语料库规模的日益扩大,语料库语言学在国内语言学界的地位逐渐提升,其重要性也日益凸显。
语料库语言学的定义在于其研究方法和数据基础。
其研究方法强调实证和量化,通过计算机技术和统计手段对语料库中的语言数据进行处理和分析,进而揭示语言的实际使用情况。
国内汉语语料库概况
国内汉语语料库概况作者:郑萌来源:《科技视界》2014年第27期【摘要】本文概述了语料库的起源和发展的历史,着重从中国语料库的建设与发展出发,列举近二十年常用的大型语料库,并对中国语料库语言学研究存在的问题和发展趋势等方面进行了分析,为语料库的建设和语言学研究提供参考建议。
【关键词】汉语;语料库;语言学0 引言自20世纪60年代计算机问世,计算机技术就迅速应用到了以语料库为基础的语言学研究中,随着计算机技术的迅速发展,世界各国在语料库的建设上成绩显著。
不同语言、不同类型、不同规模的语料库越来越多。
语料库的广度越来越大,开发加工的深也日益加深。
语料库在语言学研究和自然语言处理中发挥的作用越来越大。
自第一代大型电子语料库BROWN建立至今,语料库语言学的研究已经有50多年的历史。
而国内的语料库研究也有30多年的历史,并在上世纪90年代得到飞速发展,语言学与计算机技术加速融合,不同的学者和专家秉着不同的出发点,在各种角度和各种层次上进行了大量实证研究,这使得我国的语料库语言学迅速发展繁荣。
1 语料库和语料库语言学1.1 语料库和语料库语言学的定义语料库(corpus 或corpora,corpuses[复]):是指按照一定的语言学原则,运用随机抽样方,收集自然出现的连续语言运用文本或话语片段而建成的具有一定容量的大型电子文本库。
语料库语言学:在文本语料的基础上进行语言研究的一门学科。
语料库语言学通过语言现象出现的概率对语言材料进行研究。
这里的语言材料是真实的、可观存在的,因此,通过概率统计手段在语料库语言学研究中得到的语言使用情况是真实客观的,排除掉了语言学家的主观性,研究结果更加真实可靠。
1.2 语料库在语言学研究领域的应用语料库应用对语言学研究的主要改进有:(1)保证了语料的客观真实性,排除了语言学家的主观性;(2)借助计算机的储存能力,提高了研究的广度和深度;(3)提高了工作效率,减少了人工误差;(4)使语料资源具有共享性。
国家语委现代汉语通用平衡语料库 标注语料库数据及使用说明
国家语委现代汉语通用平衡语料库标注语料库数据及使用说明肖航教育部语言文字应用研究所1. 国家语委现代汉语通用平衡语料库1.1 语料库全库国家语委现代汉语通用平衡语料库全库约为1亿字符,其中1997年以前的语料约7000万字符,均为手工录入印刷版语料;1997之后的语料约为3000万字符,手工录入和取自电子文本各半。
语料库的通用性和平衡性通过语料样本的广泛分布和比例控制实现。
语料库类别分布如下所示:1.2 标注语料库标注语料库为国家语委现代汉语通用平衡语料库全库的子集,约5000万字符。
标注是指分词和词类标注,已经经过3次人工校对,准确率大于>98%。
语料库全库按照预先设计的选材原则进行平衡抽样,以期达到更好的代表性。
标注语料库在样本分布方面近似于全库,不破坏语料选材的平衡原则。
标注语料库类别分布如下所示:标注语料库与全库的样本分布比较如下所示:(蓝色曲线为语料库全库;红色曲线为标注语料库)2. 国家语委现代汉语通用平衡语料库语料选材与样本分布2.1 选材原则依据材料内容,选材大体作如下分类:(下文字数为建库时数据)2.1.1 教材大中小学教材单作一类,约2000万字。
2.1.2 人文与社会科学的语言材料约占全库的60%,共3000万字,包括:·政法(含哲学、政治、宗教、法律等);·历史(含民族等)·社会(含社会学、心理、语言、教育、文艺理论、新闻学、民俗学等);·经济;·艺术(含音乐、美术、舞蹈、戏剧等);·文学(含口语);·军体;·生活(含衣食住行等方面的普及读物)。
2.1.3 自然科学(含农业、医学、工程与技术)的语言材料,应涉及其发展的各个领域。
拟从大、中、小学教材和科普读物中选取。
其中,科普读物约占6%,共300万字。
教材字数另计。
2.1.4 报刊。
以1949年以后正式出版的由国家、省、市及各个部委主办的报纸和综合性刊物为主,兼顾1949年以前的报纸和综合性刊物。
语料库与语料库建设
语料库和语料库建设一、什么叫语料库1、定义语料库,通俗意义上指的是语言材料库。
严格意义上的语料库(corpus)是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。
目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。
阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。
赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。
我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。
语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。
而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。
语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。
2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。
语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。
国家语言资源监测与研究教育教材中心简介
国家语言资源监测与研究教育教材中心简介厦门大学国家语言资源监测与研究教育教材中心为国家语言文字工作委员会“十五”期间建设的首批五个科研机构之一,由教育部语言文字信息管理司与厦门大学共建,是集科学研究、人才培养、学术交流、资政服务于一体的科研中心,目前正处在第3期共建期,2020年1月正式纳入“国家语言文字智库建设试点单位”。
中心遵循“探索教材语言世界,建设特色语言资源,提升国民语言能力,服务国家语言战略”的宗旨,设立基础教育教材语言研究、汉语国际教育教材语言研究、语言政策与台湾语言文字研究三个研究室,开展以教育教材语言为核心的科研探索,同时肩负四大工作任务:⑴建设教育教材语言资源库,对教育教材语言应用状况进行监测和研究;⑵探索教育教材语言性质、规律、特点及语言学习规律;⑶完成国家语委专项任务,提供咨询,为语言文字规范标准制定与实施提供依据;⑷研究台湾语言文字使用状况及语言政策,促进两岸语言文字界交流与合作。
中心17年来科研探索屡创佳绩,围绕“教育教材语言”“台湾语言文字”获批多项重大、重点课题,形成了教育教材语言及台湾语言文字研究从理论到实践、从内涵到外延、从微观到宏观、从国内到国际的系列化研究群。
多项研究成果获得福建省哲学社会科学奖。
中心建设了20世纪新中国成立以来语文教材语料库、台湾大中小学生语言使用状况语料库等,开发了校对系列软件、数据类型转换软件辅助统计软件、术语及语义处理软件、查询工具软件、文本整理工具等,形成教育教材语言研究的方法论及工具集。
中心团队注重资政服务,为有关部门的决策提供专业报告。
20多项成果被中央办公厅、教育部、福建省政府等部门采用。
中心每年承担教育部和国家语委《语情信息》的报送任务,每年参与《中国语言生活状况报告》(中国语言生活绿皮书)的编纂,并负责“领域篇”的组稿、编辑工作。
2020年中心承担《台湾语文资料》复刊的任务,每月向主管部门及相关研究机构报送台湾语文动态。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
国家语委十五科研重大项目-现代汉语语料库的建设及深加工国家语委语料库科研成果简介教育部语言文字应用研究所计算语言学研究室一、国家语委现代汉语语料库介绍语料库是存储于计算机中并可利用计算机进行检索、查询、分析的语言素材的总体。
基于语料库的分析方法是对传统的基于规则的分析语言的方法的一个重要补充。
语料库具有“大规模”和“真实”这两个特点,因此是最理想的语言知识资源,是直接服务于语言文字信息处理等领域的基础工程。
近十几年来,美、英、法、德、日等国家都投入巨资,相继建立了大规模的语料库,如英国国家语料库BNC等。
我国从1990年开始由国家语言文字工作委员会主持,组织了语言学界和计算机界的专家学者共同建立了大型的国家级语料库,即国家语委现代汉语语料库。
国家语委现代汉语语料库是一个大型的通用的语料库,以语言文字的信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务目标。
国家语委现代汉语语料库作为国家级语料库,在汉语语料库系统开发技术上具有国际领先水平,在语料可靠、标注准确等方面具有权威性。
国家语委现代汉语语料库面向国内外的长远需要,选材有足够的时间跨度,语料抽样合理、分布均匀、比例适当,能够比较科学地反映现代汉语全貌。
国家语委现代汉语语料库由人文与社会科学、自然科学及综合三个大类约40个小类组成。
具体类别如下:1.人文与社会科学类划分为8个大类和30个小类:(1)政法:哲学、政治、宗教、法律;(2)历史:历史、考古、民族;(3)社会:社会学、心理、语言文字、教育、文艺理论、新闻、民俗;(4)经济:工业经济、农业经济、政治经济、财贸经济;(5)艺术:音乐、美术、舞蹈、戏剧;(6)文学:小说、散文、传记、报告文学、科幻、口语;(7)军体:军事、体育;(8)生活。
2.自然科学划分为6类:数理、生化、天文地理、海洋气象、农林、医药卫生。
3.综合类语料由应用文和难于归类的其他语料两部分组成。
应用文使用很广泛,主要涉及以下6类:(1)行政公文:请示、报告、批复、命令、指示、布告、纪要、通知等;(2)章程法规:章程、条例、细则、制度、公约、办法、法律条文等;(3)司法文书:诉讼、辩护词、控告信、委托书等;(4)商业文告:说明、广告、调查报告、经济合同等;(5)礼仪辞令:欢迎词、贺电、讣告、唁电、慰问信、祝酒词等;(6)实用文书:请假条、检讨、申请书、请愿书等。
国家语委语料库的语料样本包括24个详细信息:数据项 名称a1 总号a2 分类号a3 样本名称 a4 类别a5 作者a6 写作时间 a7 书刊名称 a8 编著者a9 出版社a10 所在省a11 出版日期 a12 期号 a13 版次(初版印数) a14 本版印数a15 总印数a16 总页数a17 开本a18 选择方式a19 起止页数a20 样本字数a21 样本总字数a22 文章总字数a23 简繁体a24 抽样文章国家语委现代汉语语料库的数据量包括新增的1000万字新语料已经达到了1亿字,已经完成词语切分和标注加工的约5000万字语料是语料库中1919~1992时间段的大部分语料以及1992~2002时间段的部分语料。
二、国家语委语料库建设与深加工1.主要科研成果国家语委现代汉语语料库建设已经完成的主要内容是:1)完成5000万字语料词语切分和词性标注加工。
词语切分校对精度达到万分之五,词性标注精度达到千分之五。
在语料库加工过程中研发了语料库加工、词类标记集等规范和词语切分和词性标注、语料库校对、语料库管理、语料检索、查询统计等一整套的计算机软件工具,功能齐全,用户界面友好。
2)100万字(5万句)句法树库建设完成。
在句法树库建设过程中研发了树库加工规范和树库句法分析器、树库校对工具等计算机软件。
3)按规则补充了新语料,国家语委语料库总字数达到1亿字。
国家语委语料库建设的主要科研成果如下:1)5000万字带有分词和词性标注的汉语语料2)语料库加工规范3)1000万字新语料,语料库总规模达到1亿字4)词语切分和词性标注软件5)100万字(5万句)句法树库6)树库加工规范8)树库标记集规范9)语料库词语切分和词性标注软件10)语料库校对加工工具软件11)语料库质量检查工具软件12)语料库例句检索工具软件13)语料查询与统计工具软件14)语料库管理工具软件15)树库句法分析器软件16)树库校对软件17)相关研究论文2.语料库的加工标注标注语料库达5000万字,在规模、加工精度、平衡性、加工技术等多方面都达到了国内外领先水平。
1)语料库规模总字符数达5000万(包括汉字、数字、西文字母、标点符号等等)。
2)语料时间分布时间跨度为1919年~2002年,以近20年的语料为主。
国家语委语料库语料样本的时间分布:年份3)语料领域分布分13个大类,40多个小类,100多个详细分类。
国家语委语料库语料样本的领域分布:4)标注加工国家语委现代汉语语料库加工遵循国内外信息处理领域通用的语料库加工路线,重视为语言学研究服务,采用机助人校的加工方式,通过开发语料库切分标注、校对、质量检查等软件工具来提高校对精度和控制加工质量。
在加工过程中制定了《信息处理用词类标记集规范》等语料库建设规范。
为兼容不同词语颗粒度,专门建立了层次化结构化的分词词表,分词词表的词条数量超过88000条。
国家语委语料库结构化词表示例:序号 词 主要词类 结构1 工具 n 工具/n2 工具包 n [工具/n 包/n]/n3 工具栏 n [工具/n 栏/n]/n4 工具书 n [工具/n 书/n]/n5 工具箱 n [工具/n 箱/n]/n6 工科 n 工科/n7 工矿 jn 工矿/jn8 工矿企业 n [工矿/jn 企业/n]/n9 工联 jn 工联/jn10 工龄 n 工龄/n11 工贸 jn 工贸/jn12 工贸结合 n [工贸/jn 结合/v]/v13 工农 jn 工农/jn14 工农兵 jn 工农兵/jn15 工农红军 n [工农/jn 红军/n]/n16 工农联盟 n [工农/jn 联盟/n]/n17 工农业 jn 工农业/jn18 工棚 n 工棚/n19 工期 n 工期/n20 工钱 n 工钱/n标注语料库主要词类分布频率表:5)国家语委语料库标注语料样例3.句法树库的加工标注在标注语料库的基础上,项目还完成了100万字(5万句)的句法树库建设。
句法树库是一项重要资源,它将为汉语语言研究和信息处理提供数据平台,推动理论和应用的发展。
1)句法标注作为分词、词性标注和语义标注的中间环节,有着承上启下的重要作用。
一个好的句法树库将为下一步的语义标注工作打下良好基础。
2)句法树库蕴涵丰富的句法信息,它为研究者提供带有句法标记的汉语真实文本素材,使之能够从中获得有关句法的各种信息。
例如从词类入手,可以考察某一特定类别词语的句法功能(在真实文本中所处的句法环境);从短语功能类型入手,可以考察某一特定类型短语的内部构造模式,等等。
3)句法树库可以进行数据统计、例句抽取等工作,为汉语教学科研、信息处理、词典编纂等领域的研究提供高质量资源。
句法树生成软件综合了现代汉语的词类、句法功能、句法结构等方面的信息以及一些规则,可以对输入的汉语句子做初步的句法分析,得到带有词性标记、短语功能标记和短语结构标记的句法树。
三、国家语委语料库建设计算机软件系统1.语料库词语切分和词类标注工具软件输入:语料文本输出:词语切分和词类标注语料a)语料切分标注词语切分和词类标注:大规模语料的切分标注:b)切分结果层次(结构)化:切分结果层次(结构)化使得语料库能够更好地满足不同研究应用需要。
2.机助人校的语料校对工具软件校对软件界面:¾校对者可与后台词典交互,直接获取词和词类信息¾软件自动通过色彩标识出语料校对信息¾严格的自动格式检查,防止用户误操作等带来的错误¾查找和替换提供快捷操作¾限制用户的编辑,提供局部有效的自由编辑模式¾校对文件多备份,最大限度防止数据丢失校对软件还记录校对者的所有操作,并反馈给后台切分标注软件,切分标注软件根据校对信息自动学习,提高切分标注精度。
3.语料库校对质量检查软件输入:词语切分和词类标注语料输出:词语切分和词类标注语料,质量检查结果,语料校对记录 质量检查软件主要完成语料抽样检查和人校机助的辅助工作,通过随机抽样来检查语料校对加工的质量。
4.切分标注语料库的定制输出输入:语料文本输出:定制的语料文本定制输出是指根据用户需求,对词语按照不同的颗粒度输出。
语料库定制通过层次化(结构化)的切分词表实现。
可定制的范围由词表的加工程度决定。
5.语料库例句检索软件语料库例句检索软件可以根据用户要求从语料库中提取相应的语句。
例句提取软件还可以提供例句的出处、作者、时间等详细信息。
6.语料库查询统计软件语料库查询统计软件可以根据用户的要求按时间、类别、作者、出版社等项目检索语料库,并进行字频、词频、词类使用频率等方面的统计。
软件提供时间、作者、类别、出版社等项目供用户对语料进行查询定制。
统计项目目前包括字频、词频、词类频率统计等。
7.句法树库树库句法分析器,分析器自动标注语句的内部结构和外部功能。
句法树库校对工具软件提供多样化的句法树形式为提高树库校对的效率和质量提供了保障。
四、国家语委语料库的应用目前,国家语委语料库已经为国家语委规范汉字表、汉字属性库项目和科技部863计划课题智能中文信息处理平台、中文信息处理应用基础研究项目以及973计划课题中文语音语言资源联盟项目等多个科研项目提供了支持,为北京大学、北京师范大学、首都师范大学、厦门大学、中科院自动化研究所、中科院心理研究所等多个高校和科研院所提供了服务,也为东芝(中国)研发中心、富士通研究院等企业提供了高质量的汉语语料资源。
国家语委语料库可以提供的服务:1.语料库(标注语料库、生语料库)使用权;2.分词词表;3.句法树库(100万字);4.语料库相关软件;5.根据用户需要提供检索、统计、查询、测试等服务。
国家语委语料提供服务主要通过四种方式:1.通过签订使用权许可协议向对方有偿提供语料库用于科研;2.利用语料库的相关技术提供数据、技术支持等有偿服务;3.国家语委、语用所科研项目内部提供的无偿服务;4.为从事汉语教学科研的学生学者提供无偿服务。
四、发表的相关研究论文1)靳光瑾等编著,《中文信息处理若干重要问题》,科学出版社,20032)靳光瑾,谈语料库建设与规范标准问题,《中文信息处理若干重要问题》,科学出版社,20033)靳光瑾,肖航,富丽,章云帆,《语料库建设-标准制订和质量检查》,第3届语言文字应用研讨会论文集,2003年11月4)靳光瑾,郭曙纶,肖航,章云帆,语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》,《语言文字应用》2003年第4期5)肖航,靳光瑾,《现代汉语词语切分歧义数据库构建》,第3届语言文字应用研讨会论文集,2003年11月6)靳光瑾,基于语料库的辞书编纂平台的应用,对外汉语学习词典学国际研讨会论文集,(2005年7月,香港城市大学出版社出版)7)富丽,对外汉语词典的规范性检查,对外汉语学习词典学国际研讨会论文集,(2005年7月,香港城市大学出版社出版)8)靳光瑾,肖航,富丽,章云帆,国家语委十五重大项目《语料库建设及深加工》研究成果汇报,《语言文字应用》2005年第2期。