国内语料库建设一览表

合集下载

国内语料库建设一览表 宁静以致远~~ csdnblog

国内语料库建设一览表 宁静以致远~~ csdnblog

国内语料库建设一览表- 宁静以致远~~ - CSDNBlog 国内语料库建设一览表类型语料库名称及大小建设单位英语学习者语料库(书面语及口语)中国学习者语料库CLEC(100万)广外、上海交大大学英语学习者口语语料库COLSEC (5万)上海交大香港科技大学学习者语料库HKUST Learner Corpus香港科技大学中国英语专业语料库CEME(148万)南京大学中国英语学习者口语语料库SECCL (100万)南京大学国际外语学习者英语口语语料库中国部分LINSEI-China (10万)华南师大硕士写作语料库MWC(12万)华中科技大学平行语料库汉英平行语料库PCCE北外南大-国关平行语料库南京大学英汉文学作品语料库;外研社冯友兰《中国哲学史》汉英对照语料库李约瑟(JoselfNeedham)《中国科学技术史》英汉对照语料库计算机专业的双语语料库;国家语言文字工作委员会语言文字应用研究所柏拉图(Plato)哲学名著《理想国》的双语语料库英汉双语语料库(15万对)中科院软件所英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对中国科学院自动化研究所英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万)东北大学英汉双语语料库(40-50万句子对)哈尔滨工业大学双语语料库(5万多对)北京大学计算语言学研究所对比语料库LIVAC(Linguistic variety in Chinese communities)香港城市理工大学平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) 台湾特殊英语语料库中国英语(China English)语料库河南师范大学军事英语语料库(Corpusof Military Texts)解放军外语学院新视野大学英语教材语料库上海交通大学汉语语料库汉语现代文学作品语料库(1979年,527万字) 武汉大学现代汉语语料库(1983年,2000万字)北京航空航天大学中学语文教材语料库(1983年,106万8000字) 北京师范大学现代汉语词频统计语料库(1983年,182万字) 北京语言学院国家级大型汉语均衡语料库(2000万字) 国家语言文字工作委员会《人民日报》语料库(2700万字)北京大学计算机语言学研究所大型中文语料库(5亿字,10分库)北京语言文化大学现代汉语语料库(1亿字)清华大学汉语新闻语料库;(1988年,250万字) 山西大学标准语料库(2000年,70万字)生语料库(3000万字);《作家文摘》的标注语料库(100万字) 上海师范大学现代自然口语语料库中国社会科学院语言所旅游咨询口语对话语料库和旅馆预定口语对话语料库中国科学院自动化所。

国家语委语料库.

国家语委语料库.

设计样本分布

科 目
表一:人文与社会科学类
比 例 字 数 1919-1925 1926-1949 1950-1965 1966-1976 19775% 15% 37.5 37.5 37.5 37.5 37.5 225 37.5 25% 62.5 62.5 62.5 62.5 62.5 375 62.5 5% 12.5 12.5 12.5 12.5 12.5 75 12.5 50% 125 125 125 125 125 750 125
• 时间层次。 • 文化层次。以具有高中文化程度的人能够阅读的语料为主,其他文化程 度为辅。 • 社会使用面层次。以社会使用面较为广泛的语料为主,其他语料为辅进 行补充;以人文与社会科学为主,自然科学为辅;以门类为主,以语体 为辅,对门类进行补充。

语料的描述性原则
从现代汉语语料库建设的主要用途出发, 语料应在必要的人工干预的前提下,做 描述性选取,以便为语言文字的规范与 科研提供客观的科学依据。 为了保证现代汉语的字、词、句、义在 语料中具有合理的出现频率,语料的选 择应在控制比例的前提下,尽量做到采 样广泛。
现代汉语语料库的主要用途及选材规模
主要用途


语言文字的信息处理 语言文字规范和标准的制定 语言文字的学术研究 语文教育 语言文字的社会应用 规模较大的通用语料库,其选材字数拟定在 5000万字左右,包括抽样材料和整篇材料。 教材字数另计。

选材规模

ቤተ መጻሕፍቲ ባይዱ材的分类

依据材料内容,选材大体作如下分类:

语言材料的完整性


语言材料的遍历性

语料抽样

抽样的数量与方式

现代汉语语料库建设及深加工项目总结报告

现代汉语语料库建设及深加工项目总结报告

a6写作时间;a7书刊名称;a8编著者; a9出版社; a10所在省;
a11出版日期;a12期号; a13版次(初版印数); a14本版印数;
a15总印数; a16总页数; a17开本;
a18选择方式;
a19起止页数;a20样本字数;a21样本总字数;a22文章总字数;
a23简繁体; a24抽样文章。
科研成果在多个方面体现了创新性和 先进性
该语料库样本的平衡性,体现在历时的时间平 衡和共时的分布平衡等方面;
该语料库是目前最大规模的现代汉语标注语料 库,时间跨度最大、类别分布最广;
语料库加工、检索、统计、管理形成了一整套 完整的软件系统,等等。
国家语委现代汉语语料库加工遵循国内外信息 处理领域通用的语料库加工路线,重视为语言 学研究服务,采用机助人校的加工方式,通过 开发语料库切分标注、校对、质量检查等软件 工具来提高校对精度和控制加工质量。
在加工过程中制定了《信息处理用词类标记集 规范》等语料库建设规范。为兼容不同词语颗 粒度,专门建立了层次化结构化的分词词表, 分词词表的词条数量超过88000条。
结构化词表示例:
标注语料库主要词类分布频率表:
6000000 5000000 4000000 3000000 2000000 1000000
语料库应用设想
1) 网络有偿或无偿使用,提供语言学、计算语言学、 对外汉语教学等研究者和外国留学生作各种常规查询, 包括字、词搭配、例句抽取、句型、句法结构、某种历 时的研究。
2) 提供计算语言学研究的各种统计数据,例如字频、 词频、句型句法结构统计、人名地名用字统计。
根据各种中文信息处理的方法和流派的不同,研究 相适应的评测标准,提供标准测试集。充分发挥语用所 在资源(国家级)、标准、规范上的权威性和协调作用, 体现公允性、引导性和先进性。

词义消歧研究资源、方法与评测

词义消歧研究资源、方法与评测

《当代语言学》第11卷2009年第2期113-123页,北京词义消歧研究:资源、方法与评测3吴云芳 北京大学提要 词义消歧是计算语言学领域的基础性关键研究课题。

本文从语言资源建设、词义消歧方法和国际语义评测三个方面概要地介绍了词义消歧研究的现状:语言资源建设主要介绍了语义词典构建和词义标注语料库建设;词义消歧方法重点介绍了有指导的机器学习方法;语义评测主要介绍了国际语义竞赛Se mEval 。

以期了解词义消歧研究的前沿状态,促发从计算的角度来审视义项区分和词义描述,进而促进汉语词汇语义学的研究。

关键词 词义消歧 义项区分 词义标注语料库 有指导的机器学习方法 语义评测1.引言词义消歧(word sense disa mbiguati on,W S D )是计算机根据上下文语境来自动确定词语的意义。

词义消歧包含两个必要的步骤:(1)在词典中描述词语的意义;(2)在语料中进行词义自动消歧。

例如“仪表”在词典中描述有两个不同的意义:人的外表;测定温度、气压等的仪器。

对于下面两个语句:(1)贵族的仪表使人对人性产生了美丽的错觉。

(2)我国仪器仪表事业的创始人朱良漪。

在网络上进行信息检索时,计算机应该能自动将不同意义的“仪表”区别开来并分别显示。

在汉英机器翻译中,例(1)中“仪表”可译成appearance,而例(2)中“仪表”应译成meter 。

词义消歧是计算语言学领域的基础性关键研究课题,作为一个“中间任务”,直接关系到信息检索、机器翻译、文本分类、语音识别等语言处理应用系统的效率和成败。

W eaver (1949)论及机器翻译系统中必须进行词义消歧,这一点在Chan 等人(2007)的研究中得到了证明,其研究表明词义消歧可以显著提升机器翻译系统的准确率。

St okoe 等人(2003)证明高效的词义消歧技术可以显著提升信息检索的准确率。

然而,正如I de 和Ver onis (1998)所指出的那样,虽然历经半个多世纪的努力,词义消歧研究并没有取得突破性进展。

国家语委现代汉语语料库介绍

国家语委现代汉语语料库介绍
综合类
应用文 难于归类的语料
人文与社会科学类
人文与社会科学类划分为8个大类和30个小类:
政法:哲学、政治、宗教、法律; 历史:历史、考古、民族; 社会:社会学、心理、语言文字、教育、文艺理论、新闻、
民俗; 经济:工业经济、农业经济、政治经济、财贸经济; 艺术:音乐、美术、舞蹈、戏剧; 文学:小说、散文、传记、报告文学、科幻、口语; 军体:军事、体育; 生活。
章程法规:章程、条例、细则、制度、公约、办法、法律条 文等;
司法文书:诉讼、辩护词、控告信、委托书等; 商业文告:说明、广告、调查报告、经济合同等; 礼仪辞令:欢迎词、贺电、讣告、唁电、慰问信、祝酒词等; 实用文书:请假条、检讨、申请书、请愿书等。
综合类约占语料总量的20%
样例 语料分类
信息处理用现代汉语词类标记集规范
基本词类体系 基本词类体系的标记代码 《规范》的制定
在国家社科基金“九五”重大项目《信息处理用现代汉语词汇研 究》的子项目“信息处理用现代汉语词类标记集规范的基础上完 成
得到国家语委“九五”重大项目《现代汉语语料库建设》子课题 “国家语委核心语料分词及词性标注加工”的支持。
样例 语料库查询统计工具
样例 句法树库的信息检索
样例 基于互联网的语料库例句检索
样例 语料库全文检索
语料库的管理
国家语委语料库由国家语委委托语言文字应用 研究所负责建设和管理
国家语委语料库可以提供的服务
语料库使用权许可 检索、查询、统计等数据服务 软件开发等其他服务
语料库提供服务的方式
语料库选材
人文与社会科学类
以1919年为上限,选取五四以来的语言材料。 对五四以来各个历史时期的语料采取不等密度选用的方式。

CLEC中国英语学习者语料库

CLEC中国英语学习者语料库

CLEC中国英语学习者语料库CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。

其目的就是观察各类学生的英语特征和言语失误的情况,希望通过定量和定性的方法对中国学习者英语作出较为精确的描写,为我国学生的英语教学提供有用的反馈信息。

表1 CLEC语料分布类型词次ST2 208088ST3 209043ST4 212855ST5 214510ST6 226106总计 1070602言语失误标注原则1. 简单合理,易于系统操作。

参与标注的人比较多,分类表过于繁复,就难于掌握。

我们采取两级分类,第一级有11类:词形(fm)、动词短语(vp)、名词短语(np)、代词(pr)、形容词短语(aj)、副词(ad)、介词短语(pp)、连词(cj)、词汇(wd)、搭配(cc)、句子(sn)。

每一类里再用数目字细分。

如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等。

2. 分类表的类别要适中。

过粗容易统一,但信息太少,不利于分析学习者的失误/过细难以统一,容易把同一种失误归到不同类别。

目前我们采取的办法是对常见的失误从细(如vp和np都有9小类),对少见的失误从粗(如cj只有两小类)。

现在的分类表有61个失误码,是属于中等规模的分类表。

提供足够的失误信息(失误本身、失误类型和失误发生范围)。

例如In the past,[vp6, 4-] kind to each other…, 失误用方括号表示,放在失误people are 之后。

[vp6]为vp(动词)第6种(时态)失误,4-为失误发生的范围,-表示失误的位置,4表示失误前有4个词。

要联系这4个词,才能判断are这个词用错了。

开放性。

容许研究者根据需要对失误类型进行补充或进一步再分出细类。

例如[sn8]为句子结构有缺陷,研究者可以对这种失误再分为若干细类来研究。

翻译学概论(许钧翻译论丛)

翻译学概论(许钧翻译论丛)

第一节翻译学传统与语文学翻译研究 第二节翻译的语言学研究 第三节多元系统 第四节翻译研究的哲学途径 第五节翻译的文化研究
第一节比较翻译学概说 第二节中西翻译理论的总体比较 第三节中西翻译理论的相似性 第四节中西翻译理论的相异性 第五节中西翻译传统的文化烙印 第六节中西翻译理论比较的几点结论
第一节翻译的哲学研究 第二节翻译的美学研究 第三节翻译的认知思维研究 第四节翻译的解释学研究 第五节主体性与主体间性 第六节翻译的伦理道德研究 第七节翻译与意识形态
目录分析
翻译的价值是无可估 量的——“许钧翻译
论丛”总序
第一章概论
第二章当代中国翻译 理论研究
第三章当代西方翻译 理论
第四章中西翻译理论 比较
第五章哲学与翻译研 究
第六章语言学与翻译评 第九章翻译教学研究
第十章信息技术手段 与翻译
附表国内语料库建设 一览表
附录一本书参 1
考文献
附录二重要的 2
中外翻译理论 参考书目
3 附录三术语汉
英、英汉对照
4
再版后记
5
注释
第一节翻译的定义 第二节翻译本质的双重属性 第三节翻译的策略、方法与单位 第四节翻译的价值 第五节翻译学的缘起与体系 第六节翻译学的研究范围 第七节翻译与翻译学的区别 第八节翻译学与相关学科
第一节有关翻译学的讨论 第二节当前理论研究的范围 第三节翻译学的学科建设
第一节翻译批评的本质与价值 第二节翻译批评的主体 第三节翻译批评的原则 第四节翻译批评的标准
第一节翻译教学与教学翻译 第二节翻译教学的层次 第三节翻译教育的体系 第四节翻译专业人才培养模式 第五节翻译教学的主要方面 第六节翻译教师的培训与发展
第一节机器翻译概述 第二节语料库与翻译研究

语料库简介及国内的语料库建设

语料库简介及国内的语料库建设

语料库简介及国内的语料库建设摘要:语料库作为一种随着计算机技术发展而广泛应用的新兴的语言研究工具,在语言的定量分析上有极大的作用。

本文正是基于语料库的这种重要性,对国内外的语料库建设发展进行了简介,并且分析了国内语料库建设的不足。

关键词:语料库;国内语料库;语料库语言学1、语料库发展综述语料库通常指为一个或多个语言研究目标而专门收集的、有一定结构的、具有一定规模的、用电子形式保存的、可以被计算机程序检索的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。

人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。

语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。

下面对语料库发展的四个时期进行分别介绍。

1.1手工语料库时期18世纪开始到20世纪50年代,语料的研究都是手工进行的,由人工收集,将需要的词或句子写在纸条上,然后整理成卡片进行检索。

涉及到了圣经与文学研究、词典编纂、语言教育研究、语法研究和方言研究、儿童语言习得和语言比较的研究中。

他们使用大规模语言资料来进行语言研究的工作,是具有开创性的。

但这些语料库都是手工建立的,研究者们假定自然语言的句子是有限的。

这些有限的句子可以收藏和列举,语料库可以作为语言研究的唯一可靠的数据来源,这样的看法难免由片面的地方。

他们使用的语言材料都不是机器可读的,所以还不能算成是真正意义上的语料库。

代表人物是伦敦大学的奎克,他提出了英语用法调查语料库,代表了使用手工方法建立的语料库的最高水平。

1.2 第一代电子语料库时期20世纪五十年代到80年代,出现了机器可读的语料库。

语料库来到了电子或电脑化的时代。

在这个时期建立了布朗语料库、LOB语料库、LLC语料库等影响十分大的语料库。

语料均为书面语,缺乏口语和手稿。

这些语料库的规模都比较小,布朗语料库和LOB语料库都只有100万词左右。

这些小规模的语料库只能用来考察常用语言现象的频率,无法展示语言的全貌。

近十年汉语中介语语料库建设介绍

近十年汉语中介语语料库建设介绍

近十年汉语中介语语料库建设介绍作者:王丽会来源:《读与写·上旬刊》2015年第06期摘要:语料库是指一个由大量的语言实际使用的信息组成,可供语言研究的资料库。

目前为止,各国制作了许多语料库,除了文本语料外,还有语音语料,语料库的规模越来越大。

对语料库的研究也是涉及到方方面面,本文主要对近十年汉语中介语语料库的设想和建设情况作简单介绍。

关键词:汉语中介语语料库;建设;简介中图分类号:G648 文献标识码:B文章编号:1672-1578(2015)06-0001-01"语料库语言学已经成为语言研究的主流。

基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。

"这种观点不仅仅是语料库语言学家们的自誉,也正在成为整个语言学界的共识(丁信善,1998)。

语料库作为一种研究方法正在不断得到推进和改善,在某些方面发挥着传统研究方法无法比拟的作用。

随着语料库语言学的迅速发展和母语语料库的广泛建设,从上世纪90年代开始,中国大陆开始建设外国人学习汉语的中介语语料库。

经过20多年的发展,语料库建设已初具规模,语料库被广泛运用于二语习得,语言教学,对比语言学,词典编辑,句法学和语义学等各方面研究,并在对外汉语教学及相关研究领域发挥了重要的推动作用。

以往语料库的研究主要从建设和应用两大角度出发,而语料库的设想和建设是基于语料库的一系列研究的前提和基础,本文通过列举的方式主要对近十年汉语中介语语料库的设想和建设情况作简单介绍。

王韫佳,李吉梅(2001),该文拟建立的汉语中介语语音语料库以文本、语音和声学参数三种形式和用户见面,其中后两种形式是用户比较关心的,也会给研究带来很多方便。

该语料库的建立包括发音人和发音素材的确立、录音、数据库系统和数据库管理系统的建立、原始资料的登录、对部分录音的声学分析和声学参数的登录五部分,然后对汉字文本进行标音转写,并对声母和韵母,音节,节奏单元等进行标注。

国家语委语料库

国家语委语料库
家语委现代汉语语料库。
国家语委现代汉语语料库是一个大型的通用的语料库,以语言文字的信息处理、语言文
字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务目
标。国家语委现代汉语语料库作为国家级语料库,在汉语语料库系统开发技术上具有国际领
先水平,在语料可靠、标注准确等方面具有权威性。国家语委现代汉语语料库面向国内外的
b)切分结果层次(结构)化:
8
切分结果层次(结构)化使得语料库能够更好地满足不同研究应用需要。
2.机助人校的语料校对工具软件
校对软件界面:
..校对者可与后台词典交互,直接获取词和词类信息
..软件自动通过色彩标识出语料校对信息
..严格的自动格式检查,防止用户误操作等带来的错误
经完成词语切分和标注加工的约5000万字语料是语料库中1919~1992时间段的大部分语料
以及1992~2002时间段的部分语料。
二、国家语委语料库建设与深加工
1.主要科研成果
国家语委现代汉语语料库建设已经完成的主要内容是:
2
1)完成 5000万字语料词语切分和词性标注加工。词语切分校对精度达到万分之五,词
a14 本版印数
a15 总印数
a16 总页数
a17 开本
a18 选择方式
a19 起止页数
a20 样本字数
a21 样本总字数
a22 文章总字数
a23 简繁体
a24 抽样文章
国家语委现代汉语语料库的数据量包括新增的 1000万字新语料已经达到了 1亿字,已
“大规模”和“真实”这两个特点,因此是最理想的语言知识资源,是直接服务于语言文字

国内汉语语料库概况

国内汉语语料库概况
第一轮实验中袁我们比较了不同英语水平的学生在开展合作学习
时的区别遥 我们选取了我校 2011 级医学影像技术 1101-02 班作为实 验班袁影像 1103-04 班作为对照班袁研究者以高考英语成绩作为分组 标准袁把实验班的学生分成十个小组袁每组由 5 到 6 人组成袁分别来自 高分段袁中分段和低分段袁保证其组间同质袁组内异质袁同时把对照班 的学生随机分成十个小组袁对这两个班级进行同一内容的教学渊董亚 芬主编叶大学英语曳第二册第二单元袁上海外语教育出版社出版冤遥 单元 测试的结果显示实验班的平均成绩渊78.3冤要高于控制班的平均成绩 渊72.5冤袁这说明由不同英语水平的学生构成的小组获得了更好的学习 效果遥
. Al语l言材R料i是gh真t实s的尧可Re观s存e在r的v袁e因d此.袁通过概率统计手段在语料库语 言学研究中得到的语言使用情况是真实客观的袁排除掉了语言学家的 主观性袁研究结果更加真实可靠遥 员援圆 语料库在语言学研究领域的应用 语料库应用对语言学研究的主要改进有院 渊1冤保证了语料的客观真实性袁排除了语言学家的主观性曰渊2冤借 助计算机的储存能力袁 提高了研究的广度和深度曰渊3冤 提高了工作效 率袁减少了人工误差曰渊4冤使语料资源具有共享性遥 语料库在语言学研究中主要的应用领域有: 渊1冤词典编纂曰渊2冤语言统计曰渊3冤语言监控袁包括新词尧新用法的发 现曰渊4冤语言教学曰渊5冤语言信息处理曰渊6冤语法尧语义尧词汇尧语音等各种 语言问题的研究曰渊7冤方言研究等等遥
揖关键词铱汉语曰语料库曰语言学
0 引言
自 20 世纪 60 年代计算机问世袁计算机技术就迅速应用到了以语 料库为基础的语言学研究中袁随着计算机技术的迅速发展袁世界各国 在语料库的建设上成绩显著遥 不同语言尧不同类型尧不同规模的语料库 越来越多遥语料库的广度越来越大袁开发加工的深也日益加深遥语料库 在语言学研究和自然语言处理中发挥的作用越来越大遥

汉语中介语语料库介绍

汉语中介语语料库介绍
汉语中介语语料库简介
陈晨
精选ppt
1
目录
一 背景 二 语料库和语料库语言学 三 汉语语料库和汉语中介语语料库建设
北大语料库(现汉、古汉、英语) 四 常用中介语语料库
(一)北语HSK动态作文语料库 中介语口语语料库
(二)中山大学中介语语料库 (三)暨南大学中介语语料库 五 意义和局限 六 参考文献
精选ppt
试研究以及与对外汉语教学相关的汉语本体研究等等 。这对于提高汉语
教学 、汉语测试 、汉语本体研究等方面的水平都具有重要的意义 ,接
下来对常用的对全社会公开的语料精库选p进pt 行介绍。
7
四 常用中介语语料库
(一)北语HSK动态作文语料库 (二)中山大学中介语语料库 (三)暨南大学中介语语料库
精选ppt
汉英双语语料库目前规模已经超过100万句对。汉英双语语料库对 于汉英语言对比研究有直接的帮助。
北大语料库 :8080/ccl_corpus/index.jsp?dir=gudaigudai
精选ppt
5
精选ppt
6
三 汉语语料库和汉语中介语语料库建设
中介语的理论在 20世纪 80年代被引入到我国( 鲁健骥 1993) 之后,
使用该语料库,需要注册账号,填写自己的真实信息。注册后即可享
有查看和搜索全部语料的权利。
其中“字词句偏误标注版”做的较早,包含分词和词性标注预处理。 偏
误标注包括错别字、词汇、语法等各种偏误标注,大约44万字。
“汉字偏误标注版”是只有错别字标注的语料,但也可供用户进行一般 的
词汇语言搜索,同时可以供大家对汉字偏误进行分析研究。
“错字数据库”是该库一大重要特色。错字数据库中收集了语料库中 的所

国内主要语料库总汇

国内主要语料库总汇
中国科学院自动化研究所
英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万)
东北大学
英汉双语语料库(40-50万句子对)
哈尔滨工业大学
双语语料库(5万多对)
北京大学计算语言学研究所
对比语料库LIVAC(Linguistic variety in Chinese communities)
《人民日报》语料库(2700万字)
北京大学计算机语言学研究所
大型中文语料库(5亿字,10分库)
北京语言文化大学
现代汉语语料库(1亿字)
清华大学
汉语新闻语料库;(1988年,250万字)
山西大学
标准语料库(2000年,70万字)
生语料库(3000万字);《作家文摘》的标注语料库(100万字)
上海师范大学
现代自然口语语料库
中国社会科学院语言所
旅游咨询口语对话语料库和旅馆预定口语对话语料库
中国科学院自动化所
汉语现代文学作品语料库(1979年,527万字)
武汉大学
现代汉语语料库(1983年,2000万字)
北京航空航天大学
中学语文教材语料库(1983年,1083年,182万字)
北京语言学院
国家级大型汉语均衡语料库(2000万字)
国家语言文字工作委员会
李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库
计算机专业的双语语料库;
国家语言文字工作委员会语言文字应用研究所
柏拉图(Plato)哲学名著《理想国》的双语语料库
英汉双语语料库(15万对)
中科院软件所
英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对

三个汉语中介语语料库对比分析

三个汉语中介语语料库对比分析

三个汉语中介语语料库对比分析随着汉语在全球的普及和影响力的提升,汉语中介语语料库的发展也日益受到人们的。

中介语语料库是第二语言习得研究的重要工具,能够反映出第二语言学习者在习得过程中的语言使用情况和特点。

本文将对三个汉语中介语语料库——国家社科基金语料库、国家汉语水平考试中心语料库和北京大学汉语中介语语料库进行对比分析。

国家社科基金语料库是由北京语言大学牵头建设的大型汉语中介语语料库,涵盖了不同汉语水平的学习者在不同学习阶段所使用的语言材料。

该语料库包含了书面语和口语材料,其中书面材料包括作文、翻译、阅读等,口语材料包括口语表达、口语考试等。

该语料库的特色在于对不同水平的学习者进行了标注和分类,有利于针对不同水平的学习者进行深入研究。

国家汉语水平考试中心语料库是国家汉语水平考试中心建设的大型汉语中介语语料库,主要涵盖了中高级水平学习者的语言材料。

该语料库以测试和模拟试题为主,包括听力、阅读、写作等部分。

该语料库的特色在于其试题均来自国家汉语水平考试的真实考题,具有较高的真实性和可靠性。

北京大学汉语中介语语料库是由北京大学对外汉语教育学院建设的中级汉语学习者使用的中介语语料库,主要涵盖了中高级水平学习者的语言材料。

该语料库包含了各类写作材料,包括日记、作文、翻译等,同时也包括口语表达和口语考试等材料。

该语料库的特色在于对学习者的各类写作材料进行了细致的标注和分类,有利于针对不同类型的学习者进行深入研究。

国家社科基金语料库和国家汉语水平考试中心语料库均属于大型中介语语料库,但两者的语料来源和规模存在一定差异。

国家社科基金语料库的书面材料来源广泛,包括作文、翻译、阅读等,而国家汉语水平考试中心语料库则主要来源于真实的考试试题。

在规模方面,国家社科基金语料库的口语材料相对较多,而国家汉语水平考试中心语料库的书面材料则更为丰富。

北京大学汉语中介语语料库相对较小,但也有一定的代表性。

其材料来源相对较为集中,主要涵盖了中高级学习者的各类写作材料。

国家语委现代汉语语料库介绍-cssn

国家语委现代汉语语料库介绍-cssn

语料库选材的历时性
以人文与社会科学类为例
1919 - 1925年, 约占5%。 五四时期的白话文仍留有文言痕迹,选用少量的影响较大的代表性作品。 被选用的作品在行文上要尽量符合现代汉语的规范。
1926 - 1949年, 约占15%。 白话文逐步脱离文言痕迹,现代汉语日趋成熟的时期。
1950 - 1965年, 约占25%。 新中国的成立给社会文化生活带来巨大变化,新词新语大量涌现。
语料库选材
人文与社会科学类
以1919年为上限,选取五四以来的语言材料。 对五四以来各个历史时期的语料采取不等密度选用的方式。
自然科学类
比较通用的中、小学各科教材。 比较通用的具有通论性质的大学各科基础必修课程的教材。 涉及自然科学各个门类的科普读物。
教材
选取当时通用的教材为建库的语言材料。 中小学课本所选内容涉及的各个学科的基本知识 一般为典范的现代汉语作品,应具有相当的普及性、代表性。
国家语委现代汉语语料库介绍
肖航 教育部语言文字应用研究所
2012
语料库建设
国家语委语料库建设 1991年12月国家语言文字工作委员会提出立项; 1992年4月召开现代汉语语料库选材原则专家论证会; 1993年1月制订《现代汉语语料库选材原则》; 1993年9月召开现代汉语语料库选材专家审定会; 1998年底建成 7000万字的生语料库; 目前已完成1亿字生语料和5000万字标注语料; 语料库建设和加工工作还在继续进行。
尽可能地提高所选语料在采字、采词、采句和采义等方面的广度, 要考虑到语料的时间层次、文化层次和社会使用面等层次。 时间层次。 文化层次。以具有高中文化程度的人能够阅读的语料为主。 社会使用面层次。 以社会使用面较为广泛的语料为主,其他语料为辅;以人文 与社会科学为主,自然科学为辅;以门类为主,以语体为辅。

“中国英语”语料库建设路线图

“中国英语”语料库建设路线图

无人建立 “ 中国英语”语料库 ,而建设该语 料库具有重要 的作用和意义。 “ 中国英语”语料库的建设可 以借鉴
国际英 语 语 料 库 ( E)各 个 分 库 的 建 设 经验 。众 多 的 文 本来 源 使 建设 “ 国英 语 ”语 料库 成 为 可 能 。 I C 中 【 词 】中 国英 语 ;中 式英 语 ;中介 语 ;语 料 库 ;路 线 图 关键
维普资讯
第 1 3卷
第 2期
井 冈 山 医 专 学 报
J RN I OU AL OF JNGG ANGS HAN MEDIAL C L E C OL EG
V0.3 No2 11 . Ma .0 6 r o 2
20 0 6年 3月
‘ ‘ 中国英语 "语料库建设路线 图
11 “ 圈 ” 国家 包 括 所 有 的传 统 的 盎 格 鲁 一 克 逊 人 文 化 . 内 撒 圈 国 家 ,有 英 国 、美 国 、加拿 大 、澳 大 利 亚 、新 西 兰 、爱 尔
兰 等 国 家 。 “ 圈 ” 是 规 范 提 供 ( o - rvdn) 者 。 内 N r poi g m i “ 内圈 ”英 语 规 范 了各 种 英 语 的共 核 ( e cnnn cr) 但 t ol o oe 。 h l “ 圈 ” 英 语 的 口音 、语 法 、正 字 法 、标 点 符 号 使 用 法 、 词 内 汇 、 习 语 等 方 面 也 没 有 一 个 统 一 的 标 准 。 澳 大 利 亚 、加 拿 大 、新西 兰 等 国家 不 再 以英 美 的 英 语 为 规 范 ,如 澳 大 利 亚 编 写 了 反 映澳 洲 英 语 的 M q ai Dcinr。 aur it ay e o 1 “ 圈 ”国 家 是 把 英 语 当 作 官 方 语 言 或 官 方 语 言 之 一 , . 2 外 或 把 英 语 当作 辅 助 语言 或 第 二 语 言 ,如 印 度 、马 来 西 亚 、新

语言翻译必备:国内外23个语料库推荐

语言翻译必备:国内外23个语料库推荐

语言翻译必备:国内外23个语料库推荐语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。

经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。

下面推荐一些优质的语料库资源。

国内语料库资源1. 国家语委现代汉语语料库 现代汉语通用平衡语料库现在重新开放网络查询了。

重开后的在线检索速度更快,功能更强,同时提供检索结果下载。

现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。

2. 国家语委古代汉语语料库 网站现在还增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载。

同时,还提供了分词、词性标注软件、词频统计、字频统计软件,基于国家语委语料库的字频词频统计结果和发布的词表等,以供学习研究语言文字的老师同学使用。

3. 北京大学“《人民日报》标注语料库”4. 北大语料库——北京大学中国语言学研究中心 北大语料库由“现代汉语语料库”、“古代汉语语料库”、“汉英双语语料库”三个语料库组成。

其中,北大计算语言学研究所的双语语料库,英汉对齐的句子已有5万多对,并开发了相应的对齐工具和双语语料库管理软件。

正在此基础上做汉英对照短语库,预计规模将达数十万条。

(汉英双语语料库目前仅对北大校内用户开放)5. 北京语言大学高翻学院的“高翻记忆库”6. 清华大学汉语均衡语料库TH-ACorpus7. 中央研究院“现代汉语平衡语料库” 专门针对语言分析而设计的,每个文句都依词断开,并标示词类。

语料的搜集也尽量做到现代汉语分配在不同的主题和语式上,是现代汉语无穷多的语句中一个代表性的样本。

现有语料库主要针对语言分析而设计,由中央研究院信息所、语言所词库小组完成,内含有简介、使用说明,现行的语料库是4.0的版本。

8. 中央研究院“近代汉语标记语料库”9. 中央研究院汉籍电子文献(瀚典全文检索系统) 包含整部25史整部阮刻13经、超过2000万字的台湾史料、1000万字的大正藏以及其他典籍。

语块语料库的建设

语块语料库的建设
去年举行的自然语言学习国际会议(CONLL-2000)提出的语块共享任务(Chunking Shared Task)旨在开发出一个大规模的英语语块库,为基于统计的不同部分分析方法的探索 提供统一的训练和测试库。他们采用了 Abney 的语块描述框架,并对一些语块进行了分解
和细化,其中的一些差异可以从下面的例子中看出来(其中例句 1 采用了 Abney 的标注体 系):
本文介绍了我们在汉语语块标注体系设计和大规模语块库构建方面进行的一些初步探 索。下面的第 2 节比较详细地介绍了我们的语块描述体系,并与 CONLL-2000 的标注体系 进行了比较,分析了两者的不同之处。第 3 节介绍了我们的语块库构建工作,包括基础语料 库资源、语块标注规范和语块加工流程等,并给出了一些基本的语块库统计数据。第 4 节进 一步分析了语块与论元结构的关系以及语块与韵律结构的关系等。最后的第 5 节展望了在现 有的语块库上可以进一步进行的一些句法分析和知识获取研究设想。
为了保证标注结果的质量,我们设计了两级检查机制。首先,依据语块标注规范,开发 自动检查程序,发现大部分不合规范的标注语块,提供标注者进一步确认或修改。这个过程 重复数次后,可以大大减少标注“硬伤”。然后,对标注结果进行随机抽样检查,发现并改 正遗留的标注错误,直至最终标注质量达到要求为止。
3.4 语块库基本统计
平均词长 2.53 1.31 4.13 2.16 2.06 2.07 2.55 1.01 2.29
表 5 具有不同长度词语的语块的分布统计
语块 类别 主语 述语 宾语 兼语 状语 补语 独立 语气 合计
表 4 列出了现有语块库的基本统计数据,包括不同语块总数及语块中的词语分布。表 5 进一步计算了具有不同数目的词语的语块的分布特征,以 5 为界分为 4 个区间:1) 词数<5, 2) 5<=词数<10, 3) 10<=词数<15, 4) 15<=词数。从中可以看出不同语块的分布特点:

国内主要语料库总汇

国内主要语料库总汇

外研社
李约瑟(Joself Needham)《中国科学技 术史》英汉对照语料库
计算机专业的双语语料库;
柏拉图(Plato)哲学名著《理想国》的 双语语料库
国家语言 文字工作委员 会语言文字应 用研究所
中科院软

英汉双语语料库(15万对)
件所
行语料

英汉双语语料库:LDC香港新闻英汉 中国科学
双语对齐语料36294段以及香港法律英汉 院自动化研究
理工大学
平衡语料库(Sinica Corpus);树图语料 库(Sinica Treebank)
台湾
中国英语(China English)语料库
特 殊英语 语料库
Hale Waihona Puke 军事英语语料库(Corpus of Military Texts)
新视野大学英语教材语料库
河南师范 大学
解放军外 语学院
上海交通 大学
汉语现代文学作品语料库(1979 年,527万字)
北京大学 计算机语言学 研究所
北京语言 文化大学
现代汉语语料库(1亿字)
清华大学
汉语新闻语料库;(1988年,250万字) 标准语料库(2000年,70万字)
山西大学
生语料库(3000万字);《作家文摘》的 上海师范
标注语料库(100万字)
大学
现代自然口语语料库
中国社会 科学院语言所
旅游咨询口语对话语料库和旅馆预定 中国科学
双语对齐语料31万句子对

英汉双语语料库(100万),网上英汉语 段电子词典及网上电子英汉搭配词 典(1000万)
东北大学
英汉双语语料库(40-50万句子对)
哈尔滨工 业大学

国内汉语语料库概况

国内汉语语料库概况

国内汉语语料库概况作者:郑萌来源:《科技视界》2014年第27期【摘要】本文概述了语料库的起源和发展的历史,着重从中国语料库的建设与发展出发,列举近二十年常用的大型语料库,并对中国语料库语言学研究存在的问题和发展趋势等方面进行了分析,为语料库的建设和语言学研究提供参考建议。

【关键词】汉语;语料库;语言学0 引言自20世纪60年代计算机问世,计算机技术就迅速应用到了以语料库为基础的语言学研究中,随着计算机技术的迅速发展,世界各国在语料库的建设上成绩显著。

不同语言、不同类型、不同规模的语料库越来越多。

语料库的广度越来越大,开发加工的深也日益加深。

语料库在语言学研究和自然语言处理中发挥的作用越来越大。

自第一代大型电子语料库BROWN建立至今,语料库语言学的研究已经有50多年的历史。

而国内的语料库研究也有30多年的历史,并在上世纪90年代得到飞速发展,语言学与计算机技术加速融合,不同的学者和专家秉着不同的出发点,在各种角度和各种层次上进行了大量实证研究,这使得我国的语料库语言学迅速发展繁荣。

1 语料库和语料库语言学1.1 语料库和语料库语言学的定义语料库(corpus 或corpora,corpuses[复]):是指按照一定的语言学原则,运用随机抽样方,收集自然出现的连续语言运用文本或话语片段而建成的具有一定容量的大型电子文本库。

语料库语言学:在文本语料的基础上进行语言研究的一门学科。

语料库语言学通过语言现象出现的概率对语言材料进行研究。

这里的语言材料是真实的、可观存在的,因此,通过概率统计手段在语料库语言学研究中得到的语言使用情况是真实客观的,排除掉了语言学家的主观性,研究结果更加真实可靠。

1.2 语料库在语言学研究领域的应用语料库应用对语言学研究的主要改进有:(1)保证了语料的客观真实性,排除了语言学家的主观性;(2)借助计算机的储存能力,提高了研究的广度和深度;(3)提高了工作效率,减少了人工误差;(4)使语料资源具有共享性。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

国内语料库建设一览表
类型语料库名称及大小建设单位
英语学习者语料库(书面语及
口语)
中国学习者语料库CLEC(100万)广外、上海交大大学英语学习者口语语料库COLSEC (5万) 上海交大香港科技大学学习者语料库HKUST Learner Corpus 香港科技大学中国英语专业语料库CEME (148万) 南京大学中国英语学习者口语语料库SECCL (100万) 南京大学
国际外语学习者英语口语语料库中国部分LINSEI-China (10万) 华南师大硕士写作语料库MWC (12万) 华中科技大学
平行语料库
汉英平行语料库PCCE 北外
南大-国关平行语料库南京大学
英汉文学作品语料库;
外研社冯友兰《中国哲学史》汉英对照语料库
李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库
计算机专业的双语语料库;国家语言文字工作委员会语言文字应用研
究所柏拉图(Plato)哲学名著《理想国》的双语语料库
英汉双语语料库(15万对) 中科院软件所
英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语
料31万句子对
中国科学院自动化研究所英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万) 东北大学
英汉双语语料库(40-50万句子对) 哈尔滨工业大学
双语语料库(5万多对) 北京大学计算语言学研究所对比语料库LIVAC(Linguistic variety in Chinese communities) 香港城市理工大学平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) 台湾
特殊英语语料

中国英语(China English)语料库河南师范大学军事英语语料库(Corpus of Military Texts) 解放军外语学院新视野大学英语教材语料库上海交通大学
汉语语料库汉语现代文学作品语料库(1979年,527万字) 武汉大学现代汉语语料库(1983年,2000万字) 北京航空航天大学
中学语文教材语料库(1983年,106万8000字) 北京师范大学
现代汉语词频统计语料库(1983年,182万字) 北京语言学院国家级大型汉语均衡语料库(2000万字) 国家语言文字工作委员会《人民日报》语料库(2700万字) 北京大学计算机语言学研究所大型中文语料库(5亿字,10分库) 北京语言文化大学
现代汉语语料库(1亿字) 清华大学
汉语新闻语料库;(1988年,250万字)
山西大学标准语料库(2000年,70万字)
生语料库(3000万字);《作家文摘》的标注语料库(100万字) 上海师范大学现代自然口语语料库中国社会科学院语言所旅游咨询口语对话语料库和旅馆预定口语对话语料库中国科学院自动化所。

相关文档
最新文档