国家语委现代汉语语料库介绍
语料库

国家语委现代汉语语料库介绍国家语委现代汉语语料库是一个大型的通用的语料库,以语言文字的信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务目标。
国家语委现代汉语语料库作为国家级语料库,在汉语语料库系统开发技术上具有国际领先水平,在语料可靠、标注准确等方面具有权威性。
国家语委现代汉语语料库面向国内外的长远需要,选材有足够的时间跨度,语料抽样合理、分布均匀、比例适当,能够比较科学地反映现代汉语全貌。
一、国家语委语料库的组成国家语委现代汉语语料库由人文与社会科学、自然科学及综合三个大类约40个小类组成。
具体类别如下:1.人文与社会科学类划分为8个大类和30个小类:(1)政法:哲学、政治、宗教、法律。
(2)历史:历史、考古、民族。
(3)社会:社会学、心理、语言文字、教育、文艺理论、新闻、民俗。
(4)经济:工业经济、农业经济、政治经济、财贸经济。
(5)艺术:音乐、美术、舞蹈、戏剧。
(6)文学:小说、散文、传记、报告文学、科幻、口语。
(7)军体:军事、体育。
(8)生活2.自然科学划分为6类:数理、生化、天文地理、海洋气象、农林、医药卫生。
3.综合类语料由应用文和难于归类的其他语料两部分组成。
应用文使用很广泛,主要及以下6类:(1)行政公文:请示、报告、批复、命令、指示、布告、纪要、通知等(2)章程法规:章程、条例、细则、制度、公约、办法、法律条文等(3)司法文书:诉讼、辩护词、控告信、委托书等(4)商业文告:说明、广告、调查报告、经济合同等(5)礼仪辞令:欢迎词、贺电、讣告、唁电、慰问信、祝酒词等(6)实用文书:请假条、检讨、申请书、请愿书等。
国家语委现代汉语语料库的数据量包括新增的1000万字新语料已经达到了1亿字,已经完成词语切分和标注加工的约5000万字语料是语料库中1919~1992时间段的大部分语料以及1992~2002时间段的部分语料。
二、国家语委语料库建设的主要科研成果如下:1)5000万字带有分词和词性标注的汉语语料2)语料库加工规范3)1000万字新语料,语料库总规模达到1亿字4)词语切分和词性标注软件5)100万字(5万句)句法树库6)树库加工规范8)树库标记集规范9)语料库词语切分和词性标注软件10)语料库校对加工工具软件11)语料库质量检查工具软件12)语料库例句检索工具软件13)语料查询与统计工具软件14)语料库管理工具软件15)树库句法分析器软件16)树库校对软件17)相关研究论文三、国家语委语料库的应用目前,国家语委语料库已经为国家语委规范汉字表、汉字属性库项目和科技部863计划课题智能中文信息处理平台、中文信息处理应用基础研究项目以及973计划课题中文语音语言资源联盟项目等多个科研项目提供了支持,为北京大学、北京师范大学、首都师范大学、厦门大学、中科院自动化研究所、中科院心理研究所等多个高校和科研院所提供了服务,也为东芝(中国)研发中心、富士通研究院等企业提供了高质量的汉语语料资源。
《国家语委语料库》课件

语料库的共享机制和平台
添加 标题
国家语委语料库的共享机制:介绍语料库的共 享机制,包括共享方式、共享范围、共享内容 等。
添加 标题
国家语委语料库的合作平台:介绍语料库的合 作平台,包括合作方式、合作内容、合作对象 等。
添加 标题
国家语委语料库的共享和合作的意义:介绍语 料库的共享和合作的意义,包括促进语言研究、 推动语言教育、促进文化交流等。
• 案例3:国家语委语料库在语言规划中的应用 • 提供数据支持,为国家制定语言政策提供科学依据。 • 促进语言的规范化、标准化,提高语言的交际效率。 • 推动语言的健康发展,促进社会的和谐稳定。 案例4:国家语委语料库在文化传承中的应用
• 案例4:国家语委语料库在文化传承中的应用 • 保存和传承文化遗产,为后人留下宝贵的文化遗产。 • 促进文化的交流与传播,推动文化的多元化发展。 • 推动文化的创新与发展,为现代社会注入新的文化元素。
添加 标题
国家语委语料库的未来发展:介绍语料库的未 来发展,包括扩大语料库规模、提高语料库质 量、加强语料库应用等。
语料库的合作模式和案例
• 合作模式:国家语委语料库与高校、研究机构等合作,共同开展语言研究、教学等工作。 • 案例:国家语委语料库与某高校合作,共同开展汉语词汇研究,为汉语教学提供支持。 语料库的共享和合作
数字化语料库的建设和发展
数字化语料库的背 景和意义
数字化语料库的建 设过程
数字化语料库的智 能化发展
数字化语料库的应智能化语料库的定义和特 点
智能化语料库的应用场景
智能化语料库的发展趋势
智能化语料库的未来展望
未来数字化和智能化语料库的趋势
添加标题
数字化语料库的全面升级:随着技术的不断发展,数字化语料库将更加全面、高效地升级, 实现更加精准、快速的数据检索和分析。
国家语言资源监测语料库介绍

国家语言资源监测语料库介绍何婷婷杨尔弘侯敏华中师范大学计算机科学系国家语言资源监测与研究中心网络媒体语言分中心北京语言文化大学国家语言资源监测与研究中心平面媒体语言分中心中国传媒大学国家语言资源监测与研究中心有声媒体语言分中心2005年,教育部语言文字信息管理司开始和国内若干高校陆续联合建设语言资源监测中心,其中包括与北京语言文化大学共建的平面媒体语言分中心、与中国传媒大学共建的有声媒体语言分中心、与华中师范大学共建的平面媒体语言分中心。
这三个分中心分别建设了平面媒体动态流通语料库、有声媒体监测语料库、网络媒体监测语料库,它们共同构成国家语言资源监测语料库。
语料库包括网页、纯文本,并采用中科院自动化所的自动分词工具做了自动分词。
欢迎各界同仁共同开发、建设使用该语料库。
1、语料库现状1.1 平面媒体动态流通语料库(DCC)平面媒体语言分中心自2001年以来,每年根据“发行量、发行地域、发行周期、媒体价值、阅读率”等因素,选择15种网络版报纸的内容,作为平面媒体动态流通语料库的语料采集内容,目前,已经形成了近30亿字的语料库。
语料进行了元数据的标注、自动分词标注,语料库提供了生语料、分词标注语料的检索功能,并能够历时地查询词语使用的情况。
网址/。
根据网页栏目的分类体系,所有语料进行了分类。
类别包括15类:娱乐,游戏,文艺,体育,时政新闻_社会,时政新闻_军事,时政新闻_国内,时政新闻_国际,生活男女,汽车,旅游,科技,经济,教育,房产。
为实现语料库中的文本分类,建立了60万个文本的训练语料,语料规模约6亿字次。
1.2有声媒体监测语料库有声媒体语言分中心自2001年开始语料库的建设。
到目前为止,已建起一个多功能的、跨媒体的汉语传媒有声语言语料库。
每年以收视率为基本条件,综合考虑了“传播媒介(广播、电视)、媒体级别(中央、地方)、播出时间(黄金时间、非黄金时间)、节目样态(独白、对话、综合)、文本现存(是否有转写好的文本)”五个因素,采集了电台、电视台播出的有声节目的录音或录像及由其转写成的文本语料。
现代汉语语料库建设及深加工项目总结报告

a6写作时间;a7书刊名称;a8编著者; a9出版社; a10所在省;
a11出版日期;a12期号; a13版次(初版印数); a14本版印数;
a15总印数; a16总页数; a17开本;
a18选择方式;
a19起止页数;a20样本字数;a21样本总字数;a22文章总字数;
a23简繁体; a24抽样文章。
科研成果在多个方面体现了创新性和 先进性
该语料库样本的平衡性,体现在历时的时间平 衡和共时的分布平衡等方面;
该语料库是目前最大规模的现代汉语标注语料 库,时间跨度最大、类别分布最广;
语料库加工、检索、统计、管理形成了一整套 完整的软件系统,等等。
国家语委现代汉语语料库加工遵循国内外信息 处理领域通用的语料库加工路线,重视为语言 学研究服务,采用机助人校的加工方式,通过 开发语料库切分标注、校对、质量检查等软件 工具来提高校对精度和控制加工质量。
在加工过程中制定了《信息处理用词类标记集 规范》等语料库建设规范。为兼容不同词语颗 粒度,专门建立了层次化结构化的分词词表, 分词词表的词条数量超过88000条。
结构化词表示例:
标注语料库主要词类分布频率表:
6000000 5000000 4000000 3000000 2000000 1000000
语料库应用设想
1) 网络有偿或无偿使用,提供语言学、计算语言学、 对外汉语教学等研究者和外国留学生作各种常规查询, 包括字、词搭配、例句抽取、句型、句法结构、某种历 时的研究。
2) 提供计算语言学研究的各种统计数据,例如字频、 词频、句型句法结构统计、人名地名用字统计。
根据各种中文信息处理的方法和流派的不同,研究 相适应的评测标准,提供标准测试集。充分发挥语用所 在资源(国家级)、标准、规范上的权威性和协调作用, 体现公允性、引导性和先进性。
语料库基础知识

/yingyong/courses/corpusbase.htm语料库研究与应用综述语料库研究与应用综述 一 概述 语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。
经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。
人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。
语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。
语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。
有人曾经把语料库分成四种类型:(1)异质的(Heterogeneous ):没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的(Homogeneous ):只收集同一类内容的语料;(3)系统的(Systematic ):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的(Specialized ):只收集用于某一特定用途的语料。
除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual )、双语的(Bilingual )和多语的(Multilingual )。
按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。
双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。
语料库建设中涉及的主要问题包括:(1) 设计和规划:主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。
(2) 语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、文本描述,以及各类语料的比例以保持平衡性等。
(3) 语料的加工:包括标注项目(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加工方式。
语料库和词典结构

规模较大的通用语料库,其选材字数拟定在5000万 字左右,包括抽样材料和整篇材料。教材字数另计。
语料的通用性原则和描述性原则
语料的通用性原则 作为通用型语料库,现代汉语语料库应真实地反映现代汉语在 文字、词汇、语法、语义等方面的全貌。 现代汉语语料库在语料的选择上,应当具有区别性特征。 有别于专业性。 有别于地域性。 有别于纯口语性。 为确保5000万字语料的质量,尽可能地提高所选语料在采字、 采词、采句和采义等方面的涵盖量,选材不仅要考虑到语料的 时间层次、文化层次和社会使用面层次,还应采取“抓住中心, 其他补充”的方式。 时间层次。 文化层次。以具有高中文化程度的人能够阅读的语料为主, 其他文化程度为辅。 社会使用面层次。以社会使用面较为广泛的语料为主,其他 语料为辅进行补充;以人文与社会科学为主,自然科学为辅; 以门类为主,以语体为辅,对门类进行补充。
Sogou搜狗语料库
说明: 语料库数据包括:
[1] 用于分类的新闻语料,按照
SOGOU-T网页语料库格式整理
[2] 分类体系说明
[3] 数据集合统计信息
数据下载声明见“SogouLab 数据使用许 可证” Please read the “License for Use of Sogou Lab Data” carefully before downloading.
Sogou搜狗语料库
介绍: 文本分类语料库来源于Sohu新闻 网站保存的大量经过编辑手工整理与分 类的新闻语料与对应的分类信息。其分 类体系包括几十个分类节点,网页规模 约为十万篇文档。
语料库统计的意义:提供一个较大规模 的标准中文文本分类测试平台。
应用案例:中文文本分类,主题跟踪与 检测等。
国家语委语料库
国家语委现代汉语语料库介绍

应用文 难于归类的语料
人文与社会科学类
人文与社会科学类划分为8个大类和30个小类:
政法:哲学、政治、宗教、法律; 历史:历史、考古、民族; 社会:社会学、心理、语言文字、教育、文艺理论、新闻、
民俗; 经济:工业经济、农业经济、政治经济、财贸经济; 艺术:音乐、美术、舞蹈、戏剧; 文学:小说、散文、传记、报告文学、科幻、口语; 军体:军事、体育; 生活。
章程法规:章程、条例、细则、制度、公约、办法、法律条 文等;
司法文书:诉讼、辩护词、控告信、委托书等; 商业文告:说明、广告、调查报告、经济合同等; 礼仪辞令:欢迎词、贺电、讣告、唁电、慰问信、祝酒词等; 实用文书:请假条、检讨、申请书、请愿书等。
综合类约占语料总量的20%
样例 语料分类
信息处理用现代汉语词类标记集规范
基本词类体系 基本词类体系的标记代码 《规范》的制定
在国家社科基金“九五”重大项目《信息处理用现代汉语词汇研 究》的子项目“信息处理用现代汉语词类标记集规范的基础上完 成
得到国家语委“九五”重大项目《现代汉语语料库建设》子课题 “国家语委核心语料分词及词性标注加工”的支持。
样例 语料库查询统计工具
样例 句法树库的信息检索
样例 基于互联网的语料库例句检索
样例 语料库全文检索
语料库的管理
国家语委语料库由国家语委委托语言文字应用 研究所负责建设和管理
国家语委语料库可以提供的服务
语料库使用权许可 检索、查询、统计等数据服务 软件开发等其他服务
语料库提供服务的方式
语料库选材
人文与社会科学类
以1919年为上限,选取五四以来的语言材料。 对五四以来各个历史时期的语料采取不等密度选用的方式。
语料库——精选推荐

语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。
传统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种枯燥无味、费力费时的工作。
计算机出现后,人们可以把这些工作交给计算机去作,大大地减轻了人们的劳动。
后来,在这种工作中逐渐创造了一整套完整的理论和方法,形成了一门新的学科——语料库语言学(corpus linguistics),并成为了自然语言处理的一个分支学科。
语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。
多年来,机器翻译和自然语言理解的研究中, 分析语言的主要方法是句法语义分析。
因此,在很长一段时间内,许多系统都是基于规则的,而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来,这样,这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言(sub-language)中获得一定的成功。
为了摆脱困境,自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计,以便采用一种基于统计的模型来处理大量的非受限语言。
不言而喻,语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论,从而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。
本文首先简要介绍国外语料库的发展情况,然后,比较详细地介绍中国语料库的发展情况和主要的成绩,使我们对于语料库研究得到一个鸟瞰式的认识。
一、国外语料库概况现在,美国Brown大学建立了BROWN语料库(布朗语料库),英国Lancaster大学与挪威Oslo大学与Bergen大学联合建立了LOB 语料库。
欧美各国学者利用这两个语料库开展了大规模的研究,其中最引人注目的是对语料库进行语法标注的研究。
国内语料库研究综述

国内语料库研究综述摘要本文旨在回顾国内语料库研究的发展历程、现状,并探讨未来研究方向。
通过分析相关文献资料,文章总结了国内语料库研究的主要成果、不足之处,并提出了针对性的建议。
本文旨在为语料库研究领域的学者提供参考,以推动国内语料库研究的发展。
关键词:语料库、国内研究、发展历程、现状、未来研究方向引言语料库是指为语言研究而收集的、有一定规模的、有代表性的语言材料集合。
自20世纪中期以来,语料库在国外得到了广泛应用,并在多个领域取得了显著的成果。
近年来,随着国内语言学、计算语言学等学科的快速发展,语料库在国内的研究和应用也逐渐受到重视。
本文将重点探讨国内语料库研究的现状、成果及未来研究方向。
研究现状1.国内语料库的发展历程和现状自20世纪80年代起,国内开始出现一些小型语料库的建设和研究,如国家语委现代汉语通用词库等。
随着计算机技术的不断发展,90年代中后期以来,国内开始大力推进语料库的建设和研究,涉及的领域也日益广泛。
目前,国内已经建立了一系列不同规模、不同类型的语料库,如中国传媒大学的中国广播电视媒体语言语料库、上海交通大学的中文文本分类语料库等。
2.基于不同领域语料库的研究成果和不足语料库在多个领域得到了广泛应用,如语言教学、词典编纂、语言政策研究等。
在语言教学领域,语料库可以提供真实的语言材料和语境,有助于提高语言学习者的兴趣和理解能力。
在词典编纂领域,语料库可以提供大量的实例和用法,有助于提高词典的准确性和实用性。
在语言政策研究领域,语料库可以提供真实的语言使用情况和发展趋势,有助于制定科学的语言政策和发展规划。
然而,国内基于不同领域语料库的研究成果尚不够丰富,且在某些领域还存在着研究空白。
例如,针对特定领域的语料库建设和研究尚不够深入,部分领域的语料库仍存在着规模较小、代表性不足等问题。
此外,针对语料库在二语习得、语言演化等领域的研究尚不够充分。
3.国内语料库在语言教学中的应用语料库在语言教学中的应用已经得到了广泛的认可。
语料库简介及国内的语料库建设

语料库简介及国内的语料库建设摘要:语料库作为一种随着计算机技术发展而广泛应用的新兴的语言研究工具,在语言的定量分析上有极大的作用。
本文正是基于语料库的这种重要性,对国内外的语料库建设发展进行了简介,并且分析了国内语料库建设的不足。
关键词:语料库;国内语料库;语料库语言学1、语料库发展综述语料库通常指为一个或多个语言研究目标而专门收集的、有一定结构的、具有一定规模的、用电子形式保存的、可以被计算机程序检索的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。
人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。
语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。
下面对语料库发展的四个时期进行分别介绍。
1.1手工语料库时期18世纪开始到20世纪50年代,语料的研究都是手工进行的,由人工收集,将需要的词或句子写在纸条上,然后整理成卡片进行检索。
涉及到了圣经与文学研究、词典编纂、语言教育研究、语法研究和方言研究、儿童语言习得和语言比较的研究中。
他们使用大规模语言资料来进行语言研究的工作,是具有开创性的。
但这些语料库都是手工建立的,研究者们假定自然语言的句子是有限的。
这些有限的句子可以收藏和列举,语料库可以作为语言研究的唯一可靠的数据来源,这样的看法难免由片面的地方。
他们使用的语言材料都不是机器可读的,所以还不能算成是真正意义上的语料库。
代表人物是伦敦大学的奎克,他提出了英语用法调查语料库,代表了使用手工方法建立的语料库的最高水平。
1.2 第一代电子语料库时期20世纪五十年代到80年代,出现了机器可读的语料库。
语料库来到了电子或电脑化的时代。
在这个时期建立了布朗语料库、LOB语料库、LLC语料库等影响十分大的语料库。
语料均为书面语,缺乏口语和手稿。
这些语料库的规模都比较小,布朗语料库和LOB语料库都只有100万词左右。
这些小规模的语料库只能用来考察常用语言现象的频率,无法展示语言的全貌。
国家语委语料库

国家语委现代汉语语料库是一个大型的通用的语料库,以语言文字的信息处理、语言文
字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务目
标。国家语委现代汉语语料库作为国家级语料库,在汉语语料库系统开发技术上具有国际领
先水平,在语料可靠、标注准确等方面具有权威性。国家语委现代汉语语料库面向国内外的
b)切分结果层次(结构)化:
8
切分结果层次(结构)化使得语料库能够更好地满足不同研究应用需要。
2.机助人校的语料校对工具软件
校对软件界面:
..校对者可与后台词典交互,直接获取词和词类信息
..软件自动通过色彩标识出语料校对信息
..严格的自动格式检查,防止用户误操作等带来的错误
经完成词语切分和标注加工的约5000万字语料是语料库中1919~1992时间段的大部分语料
以及1992~2002时间段的部分语料。
二、国家语委语料库建设与深加工
1.主要科研成果
国家语委现代汉语语料库建设已经完成的主要内容是:
2
1)完成 5000万字语料词语切分和词性标注加工。词语切分校对精度达到万分之五,词
a14 本版印数
a15 总印数
a16 总页数
a17 开本
a18 选择方式
a19 起止页数
a20 样本字数
a21 样本总字数
a22 文章总字数
a23 简繁体
a24 抽样文章
国家语委现代汉语语料库的数据量包括新增的 1000万字新语料已经达到了 1亿字,已
“大规模”和“真实”这两个特点,因此是最理想的语言知识资源,是直接服务于语言文字
国家语委_通用语料库_核心库_的词表提取及词汇构成分析_苏新春

一 、从真实语料中提取词表的意义与价值
说到词表 , 人们就会想到词典的词目 , 其实 , 词典的词目与来自语言生活中的词表是很不一样 的 。 词典的词目重在继承 , 多来源于前面一代代 的辞书 , 更重要的是它看重的是 “考释性 ”, 愈是 人们不懂 , 需要查考的 , 愈是它的收录对象 , 而于 “见字明义 ”的词则是不屑一顾的 。 因此 , 从词典 的词目来看一个时代的词汇面貌也就打上了许多 的折扣 。 人们开始重视 从真实语言材 料中来提 取词 表 , 而对断代词汇整体面貌的了解则是人们孜孜 以求的目标 。 人们作过许多尝试 , 从专书研究时 代起 , 就有过通过选取代表作品 、 代表作家来窥探 断代语言面貌的做法 。 到了计算机语料库时代 , 从众多的作品 、海量的语料中来概括断代语言面 貌则成为一种普遍的做法 。 从百万字级容量的语 料库 , 直至千万级 、 亿级 , 甚至若干 G 级的都出现 了 ,仅 《 人民日报 》 从创刊起至当下 , 容量就逾十 亿字 。 这时新的问题又出来了 , 人们发现语料库 并不是愈大愈好 , 超大语料库所反映的语言规律
由于选材原则是经几次专家论证确定的核心语料库的语料筛选工作在语料分科年限划分比例字数等方面基本上仍依照选材原则进行只是结合核心语料库的用途特点在语料筛选上突出年以后的新语料注意选用内容通俗通用性强的普及性语料因而不同年限和门类的语料比例和字数均有小的调整
DO I 牶 牨 牥 牣 牨 牫 牫 牨 牱 牤 j牣 cnki 牣 jdskxb牣 牪 牥 牥 牱 牣 牥 牨 牣 牥 牨 牱 2007 年 1 月 江 苏 大 学 学 报 (社 会 科 学 版 ) 第 9卷 第 1 期 Journal o f Jiangsu Unive rsity(Socia l Sc ience Edition)
国内汉语语料库概况

时的区别遥 我们选取了我校 2011 级医学影像技术 1101-02 班作为实 验班袁影像 1103-04 班作为对照班袁研究者以高考英语成绩作为分组 标准袁把实验班的学生分成十个小组袁每组由 5 到 6 人组成袁分别来自 高分段袁中分段和低分段袁保证其组间同质袁组内异质袁同时把对照班 的学生随机分成十个小组袁对这两个班级进行同一内容的教学渊董亚 芬主编叶大学英语曳第二册第二单元袁上海外语教育出版社出版冤遥 单元 测试的结果显示实验班的平均成绩渊78.3冤要高于控制班的平均成绩 渊72.5冤袁这说明由不同英语水平的学生构成的小组获得了更好的学习 效果遥
. Al语l言材R料i是gh真t实s的尧可Re观s存e在r的v袁e因d此.袁通过概率统计手段在语料库语 言学研究中得到的语言使用情况是真实客观的袁排除掉了语言学家的 主观性袁研究结果更加真实可靠遥 员援圆 语料库在语言学研究领域的应用 语料库应用对语言学研究的主要改进有院 渊1冤保证了语料的客观真实性袁排除了语言学家的主观性曰渊2冤借 助计算机的储存能力袁 提高了研究的广度和深度曰渊3冤 提高了工作效 率袁减少了人工误差曰渊4冤使语料资源具有共享性遥 语料库在语言学研究中主要的应用领域有: 渊1冤词典编纂曰渊2冤语言统计曰渊3冤语言监控袁包括新词尧新用法的发 现曰渊4冤语言教学曰渊5冤语言信息处理曰渊6冤语法尧语义尧词汇尧语音等各种 语言问题的研究曰渊7冤方言研究等等遥
揖关键词铱汉语曰语料库曰语言学
0 引言
自 20 世纪 60 年代计算机问世袁计算机技术就迅速应用到了以语 料库为基础的语言学研究中袁随着计算机技术的迅速发展袁世界各国 在语料库的建设上成绩显著遥 不同语言尧不同类型尧不同规模的语料库 越来越多遥语料库的广度越来越大袁开发加工的深也日益加深遥语料库 在语言学研究和自然语言处理中发挥的作用越来越大遥
汉语语料库对对外汉语教学中语法研究的作用

汉语语料库对对外汉语教学中语法研究的作用汉语语料库对对外汉语教学中语法研究的作用语料库是存放语言素材或语料文本的仓库,是按照语域分类收集并经过特殊编码的自然语篇总集,编码即对词语进行类别和功能的定义以及对以小句为单位的文法结构进行分析。
这些由大量实际使用的语言信息组成的真实材料,是语言统计的基础,是分析和研究语言规律和特征,开发软件,编纂辞书的可靠依据,更是语言教学中绝好的第一手资料。
对外汉语教学是将汉语作为外语或第二语言的教学,是一门新兴的边缘交叉学科,需要不断地从相关学科中汲取研究方法和应用成果以丰富自身的学科理论,促进学科发展。
由于计算机技术的飞速发展,其存储容量越来越大,速度也越来越快。
在这种条件下,以计算机存储的语料为基础的语言研究方法,便成为当今语言学任何分支学科研究的一种自然的、现代化的、甚至是不可或缺的辅助方法。
语法教学是对外汉语教学中的重点和难点,也是留学生如何把已知的词、词组组成句子、篇章的关键。
本文着重探讨这种将语料库作为主要信息来源,用统计来获取语言中的规律的方法对对外汉语教学中语法研究的作用和意义。
一、为对外汉语语法教材的编写提供真实的语言素材和科学的参考依据教材是教学过程中的重要依据,是教学和学习的资源,教材的内容要符合学习者的认知规律和学习需要。
20世纪80年代中期以前,现代汉语语法研究基本上或主要是对汉语语法现象、语法规则的描写说明,为了说明规则是什么而编写例句,甚至有些例子是编者依靠经验,按照语法规则演绎编造出来的。
英国语言学家Quirk曾说:从这些自己编写的例证出发,把材料仅仅当作例证来使用,用来证明先验的,或者是语法学传统规定的、甚至是凭直觉认定的某些语法上的区别和结构,而不是从大量自然语言材料中归纳的这些语法上的差别,这只能是一种很不令人满意的权宜之计。
基于语料库中大量口头和书面语的真实语言素材,要求语法研究更注重对语法现象、语法规则的解释,说明例句为什么这么说。
国家语委现代汉语语料库介绍-cssn

语料库选材的历时性
以人文与社会科学类为例
1919 - 1925年, 约占5%。 五四时期的白话文仍留有文言痕迹,选用少量的影响较大的代表性作品。 被选用的作品在行文上要尽量符合现代汉语的规范。
1926 - 1949年, 约占15%。 白话文逐步脱离文言痕迹,现代汉语日趋成熟的时期。
1950 - 1965年, 约占25%。 新中国的成立给社会文化生活带来巨大变化,新词新语大量涌现。
语料库选材
人文与社会科学类
以1919年为上限,选取五四以来的语言材料。 对五四以来各个历史时期的语料采取不等密度选用的方式。
自然科学类
比较通用的中、小学各科教材。 比较通用的具有通论性质的大学各科基础必修课程的教材。 涉及自然科学各个门类的科普读物。
教材
选取当时通用的教材为建库的语言材料。 中小学课本所选内容涉及的各个学科的基本知识 一般为典范的现代汉语作品,应具有相当的普及性、代表性。
国家语委现代汉语语料库介绍
肖航 教育部语言文字应用研究所
2012
语料库建设
国家语委语料库建设 1991年12月国家语言文字工作委员会提出立项; 1992年4月召开现代汉语语料库选材原则专家论证会; 1993年1月制订《现代汉语语料库选材原则》; 1993年9月召开现代汉语语料库选材专家审定会; 1998年底建成 7000万字的生语料库; 目前已完成1亿字生语料和5000万字标注语料; 语料库建设和加工工作还在继续进行。
尽可能地提高所选语料在采字、采词、采句和采义等方面的广度, 要考虑到语料的时间层次、文化层次和社会使用面等层次。 时间层次。 文化层次。以具有高中文化程度的人能够阅读的语料为主。 社会使用面层次。 以社会使用面较为广泛的语料为主,其他语料为辅;以人文 与社会科学为主,自然科学为辅;以门类为主,以语体为辅。
【译界】21个国内外权威语料库

【译界】21个国内外权威语料库翻译圈的小伙伴对语料库并不陌生,语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。
经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。
今天译世界就来给大家推荐21个国内外优质语料库资源,链接亲测有效,都get起来!拿走不谢~~国内语料库资源01国家语委现代汉语语料库现代汉语通用平衡语料库现在重新开放网络查询了。
重开后的在线检索速度更快,功能更强,同时提供检索结果下载。
现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。
02北京大学“《人民日报》标注语料库”《人民日报》标注语料库中一半的语料(1998年上半年)共1300万字已经通过《人民日报》新闻信息中心公开提供许可使用权。
其中一个月的语料(1998年1月)近200万字在互联网上公布,供自由下载。
03北大语料库——北京大学中国语言学研究中心北大语料库由“现代汉语语料库”、“古代汉语语料库”、“汉英双语语料库”三个语料库组成。
其中,北大计算语言学研究所的双语语料库,英汉对齐的句子已有5万多对,并开发了相应的对齐工具和双语语料库管理软件。
正在此基础上做汉英对照短语库,预计规模将达数十万条。
04北京语言大学高翻学院的“高翻记忆库”05中央研究院“现代汉语平衡语料库”专门针对语言分析而设计的,每个文句都依词断开,并标示词类。
语料的搜集也尽量做到现代汉语分配在不同的主题和语式上,是现代汉语无穷多的语句中一个代表性的样本。
现有语料库主要针对语言分析而设计,由中央研究院信息所、语言所词库小组完成,内含有简介、使用说明,现行的语料库是4.0的版本。
06中央研究院“近代汉语标记语料库”07中央研究院汉籍电子文献(瀚典全文检索系统)包含整部25史整部阮刻13经、超过2000万字的台湾史料、1000万字的大正藏以及其他典籍。
国家语委现代汉语语料库

国家语委现代汉语语料库
国家语委现代汉语语料库是国家语言文字工作委员会社会科学部
于20XX年创办的在线语料库,是中国唯一官方公开出版的现代汉语语
料库,也是世界上首个发布现代汉语语料库。
这个语料库收录了大量来自社会和文化各领域的信息,如报纸,
杂志等,这些信息其语言类型涉及白话文,俗话,文言文,广播,口
语等。
此外,语料库也收录了从2012年至今的所有现代汉语信息,充
实系统庞大的语料库。
语料库的成立极大地丰富了中国语言文学研究的数据来源,也帮
助语言研究者们发现和探索大量的语言风格变化。
因此,它已成为不
少语言学家、翻译人员、语言教育者、学者等有参考价值的资源。
语料库所收录的信息,其鉴别特点特殊,完全符合国际上对现代
汉语语料的最新要求。
它保证了语料库的翻译文本的精确性和可读性,使得语料库的最终使用能够达到国际质量水准。
国家语委现代汉语语料库的出现不仅使中国研究者有了方便实用
的工具,同时也为世界范围内研究中文语言文字提供了一个规范、全面、客观、准确的科学参考资料。
它对现代汉语的普及和发展具有极
大的促进作用,是中国现代语言文学研究的宝贵财富。
国家语委现代汉语通用平衡语料库 标注语料库数据及使用说明

国家语委现代汉语通用平衡语料库标注语料库数据及使用说明肖航教育部语言文字应用研究所1. 国家语委现代汉语通用平衡语料库1.1 语料库全库国家语委现代汉语通用平衡语料库全库约为1亿字符,其中1997年以前的语料约7000万字符,均为手工录入印刷版语料;1997之后的语料约为3000万字符,手工录入和取自电子文本各半。
语料库的通用性和平衡性通过语料样本的广泛分布和比例控制实现。
语料库类别分布如下所示:1.2 标注语料库标注语料库为国家语委现代汉语通用平衡语料库全库的子集,约5000万字符。
标注是指分词和词类标注,已经经过3次人工校对,准确率大于>98%。
语料库全库按照预先设计的选材原则进行平衡抽样,以期达到更好的代表性。
标注语料库在样本分布方面近似于全库,不破坏语料选材的平衡原则。
标注语料库类别分布如下所示:标注语料库与全库的样本分布比较如下所示:(蓝色曲线为语料库全库;红色曲线为标注语料库)2. 国家语委现代汉语通用平衡语料库语料选材与样本分布2.1 选材原则依据材料内容,选材大体作如下分类:(下文字数为建库时数据)2.1.1 教材大中小学教材单作一类,约2000万字。
2.1.2 人文与社会科学的语言材料约占全库的60%,共3000万字,包括:·政法(含哲学、政治、宗教、法律等);·历史(含民族等)·社会(含社会学、心理、语言、教育、文艺理论、新闻学、民俗学等);·经济;·艺术(含音乐、美术、舞蹈、戏剧等);·文学(含口语);·军体;·生活(含衣食住行等方面的普及读物)。
2.1.3 自然科学(含农业、医学、工程与技术)的语言材料,应涉及其发展的各个领域。
拟从大、中、小学教材和科普读物中选取。
其中,科普读物约占6%,共300万字。
教材字数另计。
2.1.4 报刊。
以1949年以后正式出版的由国家、省、市及各个部委主办的报纸和综合性刊物为主,兼顾1949年以前的报纸和综合性刊物。
语料库概念与语料库语言学基础知识

语料库概念与语料库语言学基础知识语料库语言学是以语料库为基础的语言学研究方法。
语料库指的是大量真实语言使用情况的集合,可以包含各种类型的语言材料,例如口语、书面语和专业语言等。
语料库语言学主要涉及以下几个方面:1、语言描述和分析:通过对语料库中的语言数据进行收集、注释和分析,得到关于语言结构和功能的描述和分析。
2、语言学习和教育:通过语料库分析和应用,为语言学习者提供更真实、生动和有效的语言学习材料,同时也可以开发出更优质的语言教学软件。
3、自然语言处理:语料库作为自然语言处理技术的基础数据,能够为机器翻译、文本分类、信息检索等领域提供重要支持。
4、语言变化研究:通过比较不同时间段、地区和社会群体的语料库,可以研究语言变化的规律和特点。
在实际应用中,语料库语言学能够促进语言技术的发展,提高语言学研究的精度和可靠性,同时也给我们带来了更深入的语言理解和认知。
标题:语料库语言学研究的重要性一、语料库语言学的概念及发展历程语料库语言学,是指使用语料库进行研究的语言学分支,其研究对象是自然语言。
语料库是一个按照某种原则建立的、用于语言研究的庞大数据集合。
语料库语言学的理论基础是结构主义语言学、生成语法和实证语言学。
随着计算机技术的飞速发展,语料库规模越来越大,语料质量也越来越高,语料库语言学得以迅速发展。
二、语料库语言学的重要性1、提高语言教学效果语料库语言学可以通过收集大量语言数据来提高语音、词汇、语法和语用的教学效果。
比如,通过语料库分析来确定常见的语言错误类型,帮助学生避免这些错误;通过语料库调查来了解实际使用情况,让教学更接近实际使用。
2、推动语言研究发展语料库语言学以语料为基础,通过数据驱动的方法对语言进行分析,可以帮助我们更好地理解语言的本质和变化规律。
语料库语言学可以帮助我们更好地研究语音、词汇、句法和语用等多个方面,也能够关注不同社会群体间语言使用的差异,因此为语言研究提供了新的视角。
3、促进跨学科研究语料库语言学的方法论在不同领域都有应用。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语料库选材
人文与社会科学类
以1919年为上限,选取五四以来的语言材料。 对五四以来各个历史时期的语料采取不等密度选用的方式。
自然科学类
比较通用的中、小学各科教材。 比较通用的具有通论性质的大学各科基础必修课程的教材。 涉及自然科学各个门类的科普读物。
教材
选取当时通用的教材为建库的语言材料。 中小学课本所选内容涉及的各个学科的基本知识 一般为典范的现代汉语作品,应具有相当的普及性、代表性。
样例 句法树
样例 结构化词表
语料库应用软件
语料切分和标注软件 树库标注软件 语料库校对加工软件 语料检索工具软件 语料库查询与统计工具软件 基于互联网的语料库例句检索 语料库全文检索软件
样例 语料切分和标注软件
样例 语料库校对和质量检查
样例 语料库例句检索
样例 语料库例句检索 2
国家语委现代汉语语料库介绍
教育部语言文字应用研究所 2009
语料库建设
国家语委语料库建设 1991年12月国家语言文字工作委员会提出立项; 1992年4月召开现代汉语语料库选材原则专家论证会; 1993年1月制订《现代汉语语料库选材原则》; 1993年9月召开现代汉语语料库选材专家审定会; 1998年底建成 7000万字的生语料库; 目前已完成1亿字生语料和5000万字标注语料; 语料库建设和加工工作还在继续进行。
1950 - 1965年, 约占25%。 新中国的成立给社会文化生活带来巨大变化,新词新语大量涌现。
1966 - 1976年, 约占5%。 文革时期的作品,其中许多仅作为历史词语存于现代汉语之中。
1977 - 至今, 占50%以上。 新时期的语料代表了现代汉语的新发展。
每年按选材原则增补300万字左右的语料
通过签订使用权许可协议,提供语料库的有偿使用
科研用途 商业用途
为从事汉语教学与研究的科研人员、教师、学生提供无偿 的检索统计等服务
语料检索、例句提取、字词频率统计等 检索的数量、范围有一定限制
为教育部、国家语委的相关科研项目提供数据支持
语料库、标注语料库、相关软件等
已有众多高校、公司和科研院所使用国家语委语料库进行 科学研究和产品开发
语料抽样数量
书籍
抽样数量一般占全书字数的3~5%,字数最多不超过 10000字。样本容量2000字,允许±500字。
报纸
采用整版(4版或8版)选用的方式。不同的报纸选用不 同的月份,以免内容重复。
报纸上的广告、启事等归在应用文类,不在报刊类语料 的统计之列。
刊物
每本刊物上所选的总字数原则上不超过5000字。样本容 量2000字,允许±500字。
句法树库
标注语料库
生语料库
语料库的主要用途
主要用途
语言文字的信息处理 语言文字规范和标准的制定 语言文字的学术研究 语文教育 语言文字的社会应用
语料来源
1993年以前的语料
以人工录入印刷版本的语料为主 约7000万字
1993~2002年的语料
部分采用人工录入印刷版本语料 约1500万字
人文与社会科学类约占语料总量的50%
自然科学类
自然科学划分为6类:
数理 生化 天文地理 海洋气象 农林 医药卫生
自然科学类约占语料总量的30%,
综合类
综合类语料由应用文和难于归类的其他语料两部分组成。 应用文主要包括以下6类:
行政公文:请示、报告、批复、命令、指示、布告、纪要、 通知等;
部分来源自网络电子文本 约1500万字
2002以后的语料
以网络电子文本为主 约1000万字
语料分类
三个主要类别
人文与社会科学类
包括政法、历史、社会、经济、文学、艺术等类别语言材料
自然科学类
自然科学的语言材料(含农业、工业、医学、电子、工程技 术等) ,涉及科学技术发展的各个领域。
2003年通过国家语委标准化委员会的审定 2006年成为国家标准,标准号GB/T 20532-2006 词类标记集规范的原则是有利于数据交换和资源共享
样例 分词和词性标注语料
样例 词类标记集
样例 句法树库标记集(1)
(一)短语功能分类
样例 句法树库标记集(2)
(二)短语结构分类
章程法规:章程、条例、细则、制度、公约、办法、法律条 文等;
司法文书:诉讼、辩护词、控告信、委托书等; 商业文告:说明、广告、调查报告、经济合同等; 礼仪辞令:欢迎词、贺电、讣告、唁电、慰问信、祝酒词等; 实用文书:请假条、检讨、申请书、请愿书等。
综合类约占语料总量的20%
样例 语料分类
语料的通用性原则
作为通用型语料库,应该比较真实地反映现代汉语在文字、词汇、 语法、语义等方面的全貌。 在语料的选择上,应当具有区别性特征。 有别于专业性 有别于地域性 有别于纯口语性
尽可能地提高所选语料在采字、采词、采句和采义等方面的广度, 要考虑到语料的时间层次、文化层次和社会使用面等层次。 时间层次。 文化层次。以具有高中文化程度的人能够阅读的语料为主。 社会使用面层次。 以社会使用面较为广泛的语料为主,其他语料为辅;以人文 与社会科学为主,自然科学为辅;以门类为主,以语体为辅。
信息处理用现代汉语词类标记集规范
基本词类体系 基本词类体系的标记代码 《规范》的制定
在国家社科基金“九五”重大项目《信息处理用现代汉语词汇研 究》的子项目“信息处理用现代汉语词类标记集规范的基础上完 成
得到国家语委“九五”重大项目《现代汉语语料库建设》子课题 “国家语委核心语料分词及词性标注加工”的支持。
综合类
应用文 难于归类的语料
人文与社会科学类
人文与社会科学类划分为8个大类和30个小类:
政法:哲学、政治、宗教、法律; 历史:历史、考古、民族; 社会:社会学、心理、语言文字、教育、文艺理论、新闻、
民俗; 经济:工业经济、农业经济、政治经济、财贸经济; 艺术:音乐、美术、舞蹈、戏剧; 文学:小说、散文、传记、报告文学、科幻、口语; 军体:军事、体育; 生活。
语料库建设规范。 采用机助人校的加工方式,通过开发专门软件工具来提
高加工质量。 为兼容不同词语颗粒度,专门建立了层次化结构化的分
词词表,可以提供不同颗粒度的语料。 语料库以每年增加约300万字的方式进行补充
语料库建设的主要成果
生语料库规模达到1亿字 可供使用的标注语料5000万字(分词和词性标注) 100万字(5万句)句法树库 现代汉语分词词表(88000词条) 语料切分标注加工规范 树库标记集规范 树库加工规范 语料切分和标注软件 树库标注软件 语料库校对加工软件 语料检索工具软件 语料统计工具软件 语料库管理软件
语料抽样原则
语言材料的多样性
选用政论性文章、新闻报道、各类文学艺术作品、科普 读物、通俗读物、学术专论及各种应用文语体等现代汉 语作品。
语言材料的完整性
2000字以下的文章原则上全篇采用。 报纸可采取整篇文章、整版和整张相结合的方式。
语言材料的遍历性
选材要注意各学科,各学科分支,各行各业,以及社会 生活各个领域的语言文字应用的代表性。
被列为国家语委“九五”、“十五”科研重大项目 得到国家科技部“863”、“973”计划多个项目的支持
“智能中文信息处理平台” “图像、语音和自然语言理解” “中文信息处理应用基础研究”
语料库的主要内容
未经标注加工的生语料库 标注语料库
词语切分 词类标注 句法树库 内部结构 外部功能 分词词表 88000词条 词性标注 频率信息 语料库加工标注规范 语料库软件工具
相关资料
国家语委语料库相关材料可以从网上下载
语料库在线
中 国 语 言 文 字 网
谢谢 !
肖航 exiaohang@
样例 语料库查询统计工具
样例 句法树库的信息检索
样例 基于互联网的语料库例句检索
样例 语料库全文检索
语料库的管理
国家语委语料库由国家语委委托语言文字应用 研究所负责建设和管理
国家语委语料库可以提供的服务
语料库使用权许可 检索、查询、统计等数据服务 软件开发等其他服务
语料库提供服务的方式
调整的理由、调整后的比例和字数当详细说明,并作为附件收于 清单之后。
语料样本信息
语料样本最多包含24个信息
样例 语料相关信息
语料库样本分布-类别
语料库样本分布-时间
标注语料的类别分布
语料库的建设和加工
遵循国内外信息处理领域通用的语料库加工方式,标注 分词和词性。
在面向信息处理的同时,重视为语言本体研究服务。 在加工过程中制定了《信息处理用词类标记集规范》等
语料库选材的历时性
以人文与社会科学类为例
1919 - 1925年, 约占5%。 五四时期的白话文仍留有文言痕迹,选用少量的影响较大的代表性作品。 被选用的作品在行文上要尽量符合现代汉语的规范。
1926 - 1949年, 约占15%。 白话文逐步脱离文言痕迹,现代汉语日趋成熟的时期。
语料抽样ቤተ መጻሕፍቲ ባይዱ其他原则
避免选取文言色彩较重的篇章作语料 例如鲁迅等作家的作品不宜用作语料。
避免选取诗歌作语料,剔除篇章中诗歌形式的内容。 大学教材门类以国家规定的大学基础必修课为准。 选材年限及密度的规定是着眼于科学的整体发展而制定的。
各个学科的发展在不同的年代并不是齐头并进的,可根据具体情 况适当调整依年限分布的比例、字数。