现代汉语语料库建设及深加工项目总结报告

合集下载

浅谈高速铁路英汉双语语料库建设项目

浅谈高速铁路英汉双语语料库建设项目

浅谈高速铁路英汉双语语料库建设项目【摘要】这篇文章旨在探讨高速铁路英汉双语语料库建设项目,首先介绍研究背景和研究目的。

正文部分包括高速铁路英汉双语语料库的建设、语料库内容、以及语料库在实际应用中的价值。

文章还会讨论建设项目的方法和步骤,以及可能面临的挑战。

结论部分将对文章内容进行总结,并展望未来研究方向。

通过这篇文章,读者将能够深入了解高速铁路英汉双语语料库建设项目的重要性和意义,以及其中所涉及的关键内容和挑战。

【关键词】高速铁路、英汉双语、语料库、建设项目、研究背景、研究目的、正文、内容、应用价值、方法、步骤、挑战、总结、展望未来。

1. 引言1.1 研究背景高速铁路英汉双语语料库建设项目是在当前信息化时代背景下的重要举措。

随着中国高速铁路的不断发展壮大,人们对高速铁路相关信息的需求也日益增加。

目前针对高速铁路的英汉双语语料库却相对匮乏,无法满足人们对于高速铁路信息的准确获取和理解需求。

通过建设高速铁路英汉双语语料库,可以收集整理包括列车时刻表、运行状态、车站信息等在内的丰富信息资源,为用户提供更为全面、准确的信息查询和阅读服务。

通过对高速铁路的英汉双语语料进行整理和分类,可以为高速铁路领域的专业研究和教学提供可靠的语言素材和参考资料。

建设高速铁路英汉双语语料库不仅有利于提升高速铁路信息的传播效率和质量,更能促进高速铁路领域的研究和学术交流。

在信息化和全球化背景下,构建这样一份跨语言、跨文化的语料库对于推动高速铁路行业的发展具有重要意义和深远影响。

1.2 研究目的研究目的是为了搭建一个高速铁路英汉双语语料库,以满足日益增长的高速铁路领域专业人士和学习者的语言学习和研究需求。

通过收集、整理和分析高速铁路相关的英文和中文文本,建立起一个包含丰富多样语料的数据库,为高速铁路领域的语言学研究提供有效的支持。

通过语料库的构建,也可以促进中英文之间的文化交流和理解,推动高速铁路领域的国际合作与交流。

通过对高速铁路英汉双语语料库的建设工作,可以探索和提高自然语言处理技术在高速铁路领域的应用效果,为相关技术的进一步发展提供更多的实践基础和研究资源。

关于汉语中介语语料库建设研究报告

关于汉语中介语语料库建设研究报告

汉语中介语语料库建设研究沈锐1,黄薇2(1.红河学院教育技术系2.红河学院国际合作与交流处XX蒙自661100)【摘要】本文探讨母语非汉语学习者的汉语中介语语料库建设的主要思路以及具体实现方法,重点介绍了汉语中介语语料的加工方法以及语料数据库的设计思路,并阐明了该语料库在对外汉语教学和研究中的应用价值。

【关键词】语料库;中介语;汉语教学语料库是指按一定的语言学原则收集的语言文本或话语片断而建立的电子资料库。

本文所述汉语中介语料库是基于语言学中中介语理论设计与实施的。

中介语是心理语言学中第二语言习得的一种研究模式,其将语言学习者置于观察中心,去研究他们如何有意识地向目的语的正确形式迁移的各种动态表现。

中介语理论自20世纪60年代末出现并发展至今,虽然时间并不长,但越来越受到语言学家以及一线教师的关注。

无论是进行中介语研究还是使用中介语理论进行第二语言教学都需要收集分析大量的语料,因而通过信息化手段收集和整理语料变得十分迫切。

在对外汉语教学中,通过建设和使用母语非汉语学习者的汉语中介语语料数据库,可以收集不同背景和不同学习阶段外国学生及少数民族学生的汉语书面语和用文字转写的口语语料,并对语料属性、词汇、语法等单位进行计算机处理,以实现对各种条件和要求下的语料数据进行便捷的机器检索和提取,可以为研究母语非汉语学生学习和习得汉语的规律提供大量的各种单项的或综合的资料和信息。

因此,我们提出了建设汉语中介语语料库的课题,由于语料库建设是一项浩大的工程,限于人力物力条件,本文讨论的是中小规模的语料库。

一、需求分析和框架设计语料库建设不能盲目进行,首先要进行调研,对语料库的应用需求进行分析。

半自动化的语料库构建是目前语料库建设的主流技术,目的是在确保语料库质量的前提下,减少人工参与的比例,增加自动化程度,目标是在较短时间内建设一个有一定规模,质量可靠、可扩充、成本低,能够全面、细致地记录母语非汉语学习者在汉语学习过程中的语言表征和研究他们汉语习得过程的语料库。

现代汉语语料库加工规范

现代汉语语料库加工规范

现代汉语语料库加工规范——词语切分与词性标注1999年3月版北京大学计算语言学研究所1999年3月14日⒈ 前言北大计算语言学研究所从1992年开始进行汉语语料库的多级加工研究。

第一步是对原始语料进行切分和词性标注。

1994年制订了《现代汉语文本切分与词性标注规范V1.0》。

几年来已完成了约60万字语料的切分与标注,并在短语自动识别、树库构建等方向上进行了探索。

在积累了长期的实践经验之后,最近又进行了《人民日报》语料加工的实验。

为了保证大规模语料加工这一项重要的语言工程的顺利进行,北大计算语言学研究所于1998年10月制订了《现代汉语文本切分与词性标注规范V2.0》(征求意见稿)。

因这次加工的任务超出词语切分与词性标注的范围,故将新版的规范改名为《现代汉语语料库加工规范》。

制订《现代汉语语料库加工规范》的基本思路如下:⑴ ⑴ 词语的切分规范尽可能同中国国家标准GB13715“信息处理用现代汉语分词规范” (以下简称为“分词规范”)保持一致。

由于现在词语切分与词性标注是结合起来进行的,而且又有了一部《现代汉语语法信息词典》(以下有时简称“语法信息词典”或“语法词典”)可作为词语切分与词性标注的基本参照,这就有必要对“分词规范”作必要的调整和补充。

⑵ ⑵ 小标记集。

词性标注除了使用《现代汉语语法信息词典》中的26个词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,增加了以下3类标记:①专有名词的分类标记,即人名nr,地名ns,团体机关单位名称nt,其他专有名词nz;②语素的子类标记,即名语素Ng,动语素Vg,形容语素Ag,时语素Tg,副语素Dg等;③动词和形容词的子类标记,即名动词vn(具有名词特性的动词),名形词an(具有名词特性的形容词),副动词vd(具有副词特性的动词),副形词ad(具有副词特性的形容词)。

北京大学现代汉语语料库基本加工规范

北京大学现代汉语语料库基本加工规范

北京大学现代汉语语料库基本加工规范俞士汶段慧明朱学锋孙斌(北京大学计算机系,北京大学计算语言学研究所 北京 100871)摘要:北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。

加工项目除词语切分和词性标注外,还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。

这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。

发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉,更广泛地向专家、同行征询意见,以便进一步修订。

关键词:现代汉语;语料库;词语切分;词性标注;规范中图分类号:TP391The Basic Processing of Contemporary Chinese Corpus at Peking UniversitySPECIFICATIONYU Shi-wen DUAN Hui-ming ZHU Xue-feng Bing SWEN(Institute of Computational Linguistics, Peking University, Beijing, 100871) Abstract: The Institute of Computational Linguistics, Peking University has completed the basic processing of a contemporary Chinese corpus that has 27 million Chinese Characters. In addition to word segmentation and part-of-speech tagging, the processing involves the tagging of proper nouns (person names, place names, organization names and so on), morpheme subcategories and the special usages of verbs and adjectives. The success of this large-scale language engineering is attributed to the SPECIFICATION, which had been made beforehand and was being perfected while in use. We are hereby making an introduction to the SPECIFICA TION through this publication, thus inviting the comments from all the experts and our colleagues for the improvement of it.Keywords: contemporary Chinese; corpus; word segmentation; part-of-speech tagging; specification⒈ 前言关于汉语语料库的全面情况,冯志伟教授的文章已有详细介绍[1]。

对外汉语领域语料库应用情况研究与探索

对外汉语领域语料库应用情况研究与探索

对外汉语领域语料库应用情况研究与探索语料库语料丰富,对语料库中语料的统计分析,可以为对外汉语提供很多有价值的研究材料。

本文收集了近几年对外汉语领域使用语料库辅助研究的文献,归纳出语料库在研究汉语学习者习得情况、研究汉语语言现象、汉语教学工具书信息来源、回馈课堂教学等方面的作用。

传统语料库在对外汉语领域未尽其用,游离于课堂教学之外,真正适用于对外汉语课堂教学的语料库还有待研发和建立。

标签:语料库对外汉语课堂教学语料库是由大量语言实际使用的信息组成,专供语言研究、分析和描述的语言资料库,简而言之,就是存放语料的仓库。

语料库存放的语料丰富而有序,研究者利用计算机可以从数百万的语料中调出某个词、短语或者句子的实例,简捷方便。

在真实语境中,语言符号的意义不是完全确定、一成不变的,随机性特点显著,因此通过收集大量的真实语言素材,对其进行统计分析,得出语言在实际应用中的内在规律就显得十分必要。

近些年来,从事对外汉语教学工作者对语料库在对外汉语领域的教学研究和理论研究方面所起到的作用有了更深刻的认识,新的针对对外汉语领域的语料库不断地被研发和使用,使得传统的研究语言的依靠直觉经验的方法被量化的统计方法所取代。

一、对外汉语语料库的研发与使用概况北京语言大学崔希亮教授主持开发了“HSK动态作文语料库”,该语料库是针对母语非汉语的外国人设立的,是以他们参加的高等汉语水平考试(HSK高等)的作文考试为语料来源,收集了1992年以来历年高等汉语水平考试的全部作文答卷,并随着汉语考试的不断进行,语料的不断增加,语料库不断得到充实。

语料库由原始语料库、考生信息库、字信息库、词信息库、句信息库、篇章信息库以及各种计算机辅助程序构成。

语料库1.0版收入语料10740篇,约400万字;语料库1.1版语料总数达到11569篇,共计424万字。

运用该语料库,可以进行多方面的研究,例如汉语中介语研究、第二语言习得研究、对外汉语教学理论研究、对外汉语教材研究、汉语水平考试研究、汉语本体研究等等。

浅谈高速铁路英汉双语语料库建设项目

浅谈高速铁路英汉双语语料库建设项目

浅谈高速铁路英汉双语语料库建设项目1. 引言1.1 项目背景高速铁路英汉双语语料库建设项目的项目背景是由于中国高速铁路建设的快速发展和“一带一路”倡议的推动,越来越多的外国友人来中国参观交流。

由于语言障碍,很多外国友人在了解和体验中国高速铁路发展的过程中遇到了困难。

为了更好地促进中外友好交流,建设一个涵盖高速铁路相关信息的英汉双语语料库尤为重要。

目前,虽然已经存在一些高速铁路相关的英汉翻译资料和论文,但这些资料散落在各个领域,不够系统和全面。

建设一个高速铁路英汉双语语料库,将大大提升外国友人了解中国高速铁路的便利性和准确性。

通过这个项目,我们可以让外国友人更加直观深入地了解中国高速铁路的建设成就和发展态势,促进各国在高速铁路技术和运营管理方面的交流与合作。

这也为中国高速铁路行业的国际化发展提供了一定的支撑和参考。

1.2 项目目的项目目的是为了促进高速铁路英汉双语语料库的建设和完善,以提供给研究人员、教育机构和企业使用。

通过建立这样一个语料库,可以为高速铁路领域的英汉翻译提供更多可靠的语言材料,提高翻译质量和效率。

该项目旨在促进中英两国在高速铁路技术领域的合作与交流,促进技术创新和知识传播。

通过建设高速铁路英汉双语语料库,还可以促进高速铁路行业人才的培养和专业知识的传承,为高速铁路的发展做出贡献。

该项目的目的是促进中英两国在高速铁路领域的合作与交流,提高高速铁路领域的翻译质量和效率,促进技术创新和知识传播,同时也为高速铁路行业的发展和人才培养做出贡献。

1.3 研究意义高速铁路英汉双语语料库建设项目的研究意义主要体现在以下几个方面:建设这样一份英汉双语语料库可以为高速铁路相关领域的信息检索、翻译和语言教学提供重要支持。

在高速铁路建设的过程中,涉及到大量的技术规范、施工方案、安全管理等内容,这些内容需要在不同语言之间进行准确的传递和理解。

通过建设英汉双语语料库,可以帮助相关工作者更方便地获取到这些信息,提高工作效率。

现代汉语语料库建设及深加工项目总结报告

现代汉语语料库建设及深加工项目总结报告

a6写作时间;a7书刊名称;a8编著者; a9出版社; a10所在省;
a11出版日期;a12期号; a13版次(初版印数); a14本版印数;
a15总印数; a16总页数; a17开本;
a18选择方式;
a19起止页数;a20样本字数;a21样本总字数;a22文章总字数;
a23简繁体; a24抽样文章。
科研成果在多个方面体现了创新性和 先进性
该语料库样本的平衡性,体现在历时的时间平 衡和共时的分布平衡等方面;
该语料库是目前最大规模的现代汉语标注语料 库,时间跨度最大、类别分布最广;
语料库加工、检索、统计、管理形成了一整套 完整的软件系统,等等。
国家语委现代汉语语料库加工遵循国内外信息 处理领域通用的语料库加工路线,重视为语言 学研究服务,采用机助人校的加工方式,通过 开发语料库切分标注、校对、质量检查等软件 工具来提高校对精度和控制加工质量。
在加工过程中制定了《信息处理用词类标记集 规范》等语料库建设规范。为兼容不同词语颗 粒度,专门建立了层次化结构化的分词词表, 分词词表的词条数量超过88000条。
结构化词表示例:
标注语料库主要词类分布频率表:
6000000 5000000 4000000 3000000 2000000 1000000
语料库应用设想
1) 网络有偿或无偿使用,提供语言学、计算语言学、 对外汉语教学等研究者和外国留学生作各种常规查询, 包括字、词搭配、例句抽取、句型、句法结构、某种历 时的研究。
2) 提供计算语言学研究的各种统计数据,例如字频、 词频、句型句法结构统计、人名地名用字统计。
根据各种中文信息处理的方法和流派的不同,研究 相适应的评测标准,提供标准测试集。充分发挥语用所 在资源(国家级)、标准、规范上的权威性和协调作用, 体现公允性、引导性和先进性。

语料库研究与综述

语料库研究与综述

语料库研究与综述语料库研究与应⽤综述⼀概述语料库通常指为语⾔研究收集的、⽤电⼦形式保存的语⾔材料,由⾃然出现的书⾯语或⼝语的样本汇集⽽成,⽤来代表特定的语⾔或语⾔变体。

经过科学选材和标注、具有适当规模的语料库能够反映和记录语⾔的实际使⽤情况。

⼈们通过语料库观察和把握语⾔事实,分析和研究语⾔系统的规律。

语料库已经成为语⾔学理论研究、应⽤研究和语⾔⼯程不可缺少的基础资源。

语料库有多种类型,确定类型的主要依据是它的研究⽬的和⽤途,这⼀点往往能够体现在语料采集的原则和⽅式上。

有⼈曾经把语料库分成四种类型:(1)异质的(Heterogeneous):没有特定的语料收集原则,⼴泛收集并原样存储各种语料;(2)同质的(Homogeneous):只收集同⼀类内容的语料;(3)系统的(Systematic):根据预先确定的原则和⽐例收集语料,使语料具有平衡性和系统性,能够代表某⼀范围内的语⾔事实;(4)专⽤的(Specialized):只收集⽤于某⼀特定⽤途的语料。

除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。

按照语料的采集单位,语料库⼜可以分为语篇的、语句的、短语的。

双语和多语语料库按照语料的组织形式,还可以分为平⾏(对齐)语料库和⽐较语料库,前者的语料构成译⽂关系,多⽤于机器翻译、双语词典编撰等应⽤领域,后者将表述同样内容的不同语⾔⽂本收集到⼀起,多⽤于语⾔对⽐研究。

语料库建设中涉及的主要问题包括:(1)设计和规划:主要考虑语料库的⽤途、类型、规模、实现⼿段、质量保证、可扩展性等。

(2)语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、⽂本描述,以及各类语料的⽐例以保持平衡性等。

(3)语料的加⼯:包括标注项⽬(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加⼯⽅式。

(4)语料管理系统的建设:包括数据维护(语料录⼊、校对、存储、修改、删除及语料描述信息项⽬管理)、语料⾃动加⼯(分词、标注、⽂本分割、合并、标记处理等)、⽤户功能(查询、检索、统计、打印等)。

分词词性标注语料库计划任务完成情况-中文语言资源联盟

分词词性标注语料库计划任务完成情况-中文语言资源联盟

当代汉语文本语料库分词、词性标注工作报告项目名称:中文语料库建设子项名称:分词词性标注语料库承担单位:山西大学计算机科学系负责人:杨尔弘分词词性标注语料库是进行汉语信息处理的重要基础资源。

而语料库所采集的数据、分词词性标注的规范、加工过程的规范性以及相应的语料库管理系统从本质上决定了语料库的质量、代表性、复用性以及提供的信息的可靠性。

2002年10 月,我单位承担了中文语料库建设的子项目:分词与词性标注语料库的研制任务。

按照研究目标:建成带有完整词类标记的当代汉语通用语料库。

选取了2002年媒体上流通的文本,力求表现当代语言的最新面貌。

针对信息处理的特点,研究确定了本次加工的规范,按照规范采用人机结合的方法,加工完成了500万汉字语料的分词、标注任务,并对歧义切分、未登陆词语(专有名词与普通新词语)、兼类词进行了全面的检验。

经过近一年的工作,按计划完成了课题的任务。

我们主要进行了如下的研究工作:1.完成了500万语料的收集、整理、分类工作。

2.研究制定了符合信息处理用的汉语分词与词性标注规范。

3.按照加工规范,全面审核了支持自动分词和自动词性标注的词表。

4.开发了人工校对的辅助系统,对自动分词和词性标注的结果进行了全面的人工校对。

5.对语料库加工中的难点问题进行了收集、分析,确定了下一步的研究内容1.500万语料的收集、整理、分类工作我们首先进行了语料的收集、选择、分类、预处理。

1)语料选材原则·力求反映当代汉语的最新面貌。

·从主题、体裁、来源三个方面综合考虑·以自然段落为准,而不是以文章长度为准。

避免选取过长或过短的文章,但在选取文章后,随自然段截取样本。

这样作可以得到较完整的语言信息的内容。

2)语料来源语料来源于电子报刊、电子杂志以及杂志的电子版·文学网站·普通网站·特选专题3)抽样原则与方法·抽样原则时间性:2002年流通的文本普遍性:传播率较高,流通时间较长的文本完整性:2000字以下全篇采用,其余按比例、按自然段截取。

国际汉语教材语料库的建设与应用

国际汉语教材语料库的建设与应用

结果与讨论
基于上述分析 , 我们提出以下针对缅甸小学本土化汉语教材建设的建议: 1 、优化教材内容 , 贴近学生生活实际 。应考虑学生在日常生活中所需的汉 语知识和技能 ,将相关内容纳入教材 , 提高教材的实用性和趣味性。
结果与讨论
2 、完善教材难度梯度 ,适应不同水平学生需求 。应合理安排教材内容 ,确 保难度逐步提升 , 以适应不同水平学生的学习能力和需求。
内容摘要
通过对调查和访谈数据的分析 , 我们发现当前国际汉语教材中的中国文化形 象建设存在以下问题:(1) 教材中中国文化内容比例偏低;(2) 教材中中国文 化形象单一 , 缺乏多样性;(3) 教材编写过程中缺乏跨文化意识 。针对这些问 题 , 我们提出以下建议:(1) 增加教材中中国文化内容的比例;(2) 丰富教材 中中国文化形象 , 展现中国文化的多样性;(3) 提高教材编写的跨文化意识。
三 、建设方案
三、建设方案
全球汉语学习者语料库的建设方案主要包括以下步骤: 1 、语料采集: 通过多种渠道采集全球范围内不同母语背景的汉语学习者的 语料 , 如学习者的口语 、书面语 、作文 、翻译文本等;
三、建设方案
2 、语料加工: 对采集到的语料进行预处理 、标注 、词性附码等操作 , 以便 后续的检索和分析;
二、语料库的应用
6 、个性化学习与自适应教学: 通过对语料库中的数据进行深度挖掘和分析, 可以了解学习者的学习偏好 、难点和需求 , 为学习者提供个性化的学习方案和自 适应教学服务。
二、语料库的应用
7 、教材开发与评估: 语料库可以提供真实的语言使用范例和学习者的实际 需求数据 , 有助于开发更加实用 、贴合学习者需求的教材 , 同时也可以对现有教 材进行评估和改进。

一带一路视角下中英语料库建设项目报告

一带一路视角下中英语料库建设项目报告

一带一路视角下的中英语料库建设项目报告随着“一带一路”战略的提出,中外文化交流日益频繁,这种现象对翻译行业提出了更高的要求。

因此,采取有效措施培养优秀翻译人才、提高译员翻译质量刻不容缓。

基于此,本项目决定建设一带一路视角下中英语料库以提高翻译质量。

本文将着重报告本项目中英语料库建设的背景目的、过程及其作用。

一、一带一路视角下的中英语料库建设背景及目的“一带一路”战略的提出为本项目的开展提供了时代背景。

“一带一路”是“丝绸之路经济带”和“21世纪海上丝绸之路”的简称。

从古至今,“一带一路”一直是连接东西方文化的重要纽带,尤其是在新的历史时期,“一带一路”战略促进了区域间的人际交往和文化交流。

全国政协委员、中国翻译协会常务副会长黄友义在接受专访时曾表示,经济和文化的走出去导致了中译外工作量的增加,但目前中译外人才十分紧缺。

而作为覆盖范围及应用领域日益广泛的语料库在提高翻译教学质量、培养优秀译员及促进计算机辅助翻译中发挥着日益重要的作用。

目前国内外都已有大量已建成的语料库,如BNC英国国家语料库、美国当代英语语料库、中国学习者英语语料库及中国英语学习者口语语料库等,但针对于“一带一路”战略的语料库较为稀少。

本项目的开展旨在抓住“一带一路”战略所带来的发展契机,建设“一带一路视角下的中英语料库”,为“一带一路”战略中相关政策的英译提供便利,从而加强中外交流。

青岛农业大学翻译中心的成立及其已承接的翻译活动为本项目的开展提供了专业背景。

近年来,翻译中心承接了大量专利翻译、影视字幕翻译等翻译活动,在此过程中,翻译人员遇到了一些问题:如对专利特有名词和英美俗语不够熟悉等。

本项目的旨在将翻译学理论、语言学理论及现代计算机技术相结合,通过对大量真实语言数据的研究,将众多科技名词、英语俗语和习语及与英美文化相关的词语收录进语料库当中,将中英双语语料库作为教学手段,方便译者查询、理解及使用相关名词,切实提高其翻译质量。

语料库简介及国内的语料库建设

语料库简介及国内的语料库建设

语料库简介及国内的语料库建设摘要:语料库作为一种随着计算机技术发展而广泛应用的新兴的语言研究工具,在语言的定量分析上有极大的作用。

本文正是基于语料库的这种重要性,对国内外的语料库建设发展进行了简介,并且分析了国内语料库建设的不足。

关键词:语料库;国内语料库;语料库语言学1、语料库发展综述语料库通常指为一个或多个语言研究目标而专门收集的、有一定结构的、具有一定规模的、用电子形式保存的、可以被计算机程序检索的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。

人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。

语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。

下面对语料库发展的四个时期进行分别介绍。

1.1手工语料库时期18世纪开始到20世纪50年代,语料的研究都是手工进行的,由人工收集,将需要的词或句子写在纸条上,然后整理成卡片进行检索。

涉及到了圣经与文学研究、词典编纂、语言教育研究、语法研究和方言研究、儿童语言习得和语言比较的研究中。

他们使用大规模语言资料来进行语言研究的工作,是具有开创性的。

但这些语料库都是手工建立的,研究者们假定自然语言的句子是有限的。

这些有限的句子可以收藏和列举,语料库可以作为语言研究的唯一可靠的数据来源,这样的看法难免由片面的地方。

他们使用的语言材料都不是机器可读的,所以还不能算成是真正意义上的语料库。

代表人物是伦敦大学的奎克,他提出了英语用法调查语料库,代表了使用手工方法建立的语料库的最高水平。

1.2 第一代电子语料库时期20世纪五十年代到80年代,出现了机器可读的语料库。

语料库来到了电子或电脑化的时代。

在这个时期建立了布朗语料库、LOB语料库、LLC语料库等影响十分大的语料库。

语料均为书面语,缺乏口语和手稿。

这些语料库的规模都比较小,布朗语料库和LOB语料库都只有100万词左右。

这些小规模的语料库只能用来考察常用语言现象的频率,无法展示语言的全貌。

国家语委语料库

国家语委语料库
家语委现代汉语语料库。
国家语委现代汉语语料库是一个大型的通用的语料库,以语言文字的信息处理、语言文
字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务目
标。国家语委现代汉语语料库作为国家级语料库,在汉语语料库系统开发技术上具有国际领
先水平,在语料可靠、标注准确等方面具有权威性。国家语委现代汉语语料库面向国内外的
b)切分结果层次(结构)化:
8
切分结果层次(结构)化使得语料库能够更好地满足不同研究应用需要。
2.机助人校的语料校对工具软件
校对软件界面:
..校对者可与后台词典交互,直接获取词和词类信息
..软件自动通过色彩标识出语料校对信息
..严格的自动格式检查,防止用户误操作等带来的错误
经完成词语切分和标注加工的约5000万字语料是语料库中1919~1992时间段的大部分语料
以及1992~2002时间段的部分语料。
二、国家语委语料库建设与深加工
1.主要科研成果
国家语委现代汉语语料库建设已经完成的主要内容是:
2
1)完成 5000万字语料词语切分和词性标注加工。词语切分校对精度达到万分之五,词
a14 本版印数
a15 总印数
a16 总页数
a17 开本
a18 选择方式
a19 起止页数
a20 样本字数
a21 样本总字数
a22 文章总字数
a23 简繁体
a24 抽样文章
国家语委现代汉语语料库的数据量包括新增的 1000万字新语料已经达到了 1亿字,已
“大规模”和“真实”这两个特点,因此是最理想的语言知识资源,是直接服务于语言文字

国家语委现代汉语语料库介绍-cssn

国家语委现代汉语语料库介绍-cssn

语料库选材的历时性
以人文与社会科学类为例
1919 - 1925年, 约占5%。 五四时期的白话文仍留有文言痕迹,选用少量的影响较大的代表性作品。 被选用的作品在行文上要尽量符合现代汉语的规范。
1926 - 1949年, 约占15%。 白话文逐步脱离文言痕迹,现代汉语日趋成熟的时期。
1950 - 1965年, 约占25%。 新中国的成立给社会文化生活带来巨大变化,新词新语大量涌现。
语料库选材
人文与社会科学类
以1919年为上限,选取五四以来的语言材料。 对五四以来各个历史时期的语料采取不等密度选用的方式。
自然科学类
比较通用的中、小学各科教材。 比较通用的具有通论性质的大学各科基础必修课程的教材。 涉及自然科学各个门类的科普读物。
教材
选取当时通用的教材为建库的语言材料。 中小学课本所选内容涉及的各个学科的基本知识 一般为典范的现代汉语作品,应具有相当的普及性、代表性。
国家语委现代汉语语料库介绍
肖航 教育部语言文字应用研究所
2012
语料库建设
国家语委语料库建设 1991年12月国家语言文字工作委员会提出立项; 1992年4月召开现代汉语语料库选材原则专家论证会; 1993年1月制订《现代汉语语料库选材原则》; 1993年9月召开现代汉语语料库选材专家审定会; 1998年底建成 7000万字的生语料库; 目前已完成1亿字生语料和5000万字标注语料; 语料库建设和加工工作还在继续进行。
尽可能地提高所选语料在采字、采词、采句和采义等方面的广度, 要考虑到语料的时间层次、文化层次和社会使用面等层次。 时间层次。 文化层次。以具有高中文化程度的人能够阅读的语料为主。 社会使用面层次。 以社会使用面较为广泛的语料为主,其他语料为辅;以人文 与社会科学为主,自然科学为辅;以门类为主,以语体为辅。

国家语委现代汉语通用平衡语料库

国家语委现代汉语通用平衡语料库

国家语委现代汉语通⽤平衡语料库国家语委现代汉语通⽤平衡语料库标注语料库数据及使⽤说明1. 国家语委现代汉语通⽤平衡语料库1.1 语料库全库国家语委现代汉语通⽤平衡语料库全库约为1亿字符,其中1997年以前的语料约7000万字符,均为⼿⼯录⼊印刷版语料;1997之后的语料约为3000万字符,⼿⼯录⼊和取⾃电⼦⽂本各半。

语料库的通⽤性和平衡性通过语料样本的⼴泛分布和⽐例控制实现。

语料库类别分布如下所⽰:1.2 标注语料库标注语料库为国家语委现代汉语通⽤平衡语料库全库的⼦集,约5000万字符。

标注是指分词和词类标注,已经经过3次⼈⼯校对,准确率⼤于>98%。

语料库全库按照预先设计的选材原则进⾏平衡抽样,以期达到更好的代表性。

标注语料库在样本分布⽅⾯近似于全库,不破坏语料选材的平衡原则。

标注语料库类别分布如下所⽰:标注语料库与全库的样本分布⽐较如下所⽰:(蓝⾊曲线为语料库全库;红⾊曲线为标注语料库)2. 国家语委现代汉语通⽤平衡语料库语料选材与样本分布2.1 选材原则依据材料内容,选材⼤体作如下分类:(下⽂字数为建库时数据)2.1.1 教材⼤中⼩学教材单作⼀类,约2000万字。

2.1.2 ⼈⽂与社会科学的语⾔材料约占全库的60%,共3000万字,包括:·政法(含哲学、政治、宗教、法律等);·历史(含民族等)·社会(含社会学、⼼理、语⾔、教育、⽂艺理论、新闻学、民俗学等);·经济;·艺术(含⾳乐、美术、舞蹈、戏剧等);·⽂学(含⼝语);·军体;·⽣活(含⾐⾷住⾏等⽅⾯的普及读物)。

2.1.3 ⾃然科学(含农业、医学、⼯程与技术)的语⾔材料,应涉及其发展的各个领域。

拟从⼤、中、⼩学教材和科普读物中选取。

其中,科普读物约占6%,共300万字。

教材字数另计。

2.1.4 报刊。

以1949年以后正式出版的由国家、省、市及各个部委主办的报纸和综合性刊物为主,兼顾1949年以前的报纸和综合性刊物。

中英句子对齐双语语料库建设——技术报告

中英句子对齐双语语料库建设——技术报告

“中英句子对齐双语语料库建设”技术报告中科院自动化研究所模式识别国家重点实验室北京1000801研究目标和内容本课题的研究目标是:对中英文篇章对齐的双语文本进行段落对齐、句子对齐加工,建立一个大规模具有统一标准和规范的、多领域、多体裁、句子级对齐的双语语言信息和知识库。

具体研究内容包括:●借助互联网等其他媒体搜集中英文篇章级对齐的双语文本,并进行必要的预处理。

●参照都柏林核元数据元素集制订了双语语料文本标注规范,在973标准讨论会上进行讨论通过。

●大规模文本句子对齐方法:面向多领域多体裁,采用基于双语词典的句子对齐方法进行了文本对齐,并对如何提高对齐精度做了进一步的研究和探讨。

●自动评价:对双语文本句子对齐结果实现自动评价。

目前完成的句子对齐双语语料库可以有以下几方面的应用:➢作为重要的语言资源,为基于统计的各种双语语言建模、分析提供必要的训练数据。

➢可以为机器翻译、跨语言信息检索等领域抽取双语词对、短语对提供真实文本标注素材。

2相关研究现状国内外很多研究机构都致力于双语语料库的建设,并利用这些语料库进行广泛的研究。

加拿大的议会会议录(Canadian Hansards)是非常著名的英法双语语料库,许多最初的基于双语语料库的研究都是在该语料库基础上进行的[1][2]。

有关汉外双语语料库建设及其研究,香港科技大学收集和加工了香港立法委员会的会议记录,形成汉英双语语料库[3]。

此外,北京大学、东北大学、哈尔滨工业大学的研究人员也建立了一定规模的汉英双语语料库[7][8][9]。

但目前汉外双语语料库规模比较小,加工规范也不统一,从而影响了双语语料库知识获取的研究。

实现各个层次的对齐是双语语料库建设的一项重要内容。

本文主要讨论汉英双语句子级对齐技术。

句子对齐方法基本可以分为三类:◆基于长度的方法:最初由Brown[1]和Gale[2]提出,其依据是两种语言译文的长度满足一定比例关系。

他们在英法双语的加拿大议会会议录上取得了较好的对齐效果;清华大学和哈尔滨工业大学的研究人员分别将基于长度的方法应用于Microsoft NT 3.5 Server安装指南和法律文献的汉英双语句子对齐,获得的试验结果。

近十年国内语料库语言学研究综述

近十年国内语料库语言学研究综述

近十年国内语料库语言学研究综述一、概述近十年来,语料库语言学在国内的研究取得了显著的发展和突破。

随着信息技术的飞速进步和大数据时代的到来,语料库语言学在语言学研究中的地位日益凸显。

它基于大规模真实文本数据,运用统计学和计算机技术,对语言现象进行定量和定性的分析,为语言学研究提供了全新的视角和方法。

国内语料库语言学的研究范围广泛,涉及语言结构、语言变异、语言使用、语言教学等多个领域。

研究者们利用语料库资源,深入探讨了词汇、语法、语义、语用等层面的语言问题,揭示了语言现象的内在规律和特点。

同时,随着语料库建设的不断完善,语料库语言学在国内的应用也愈加广泛,为自然语言处理、机器翻译、信息检索等领域提供了强大的数据支持和技术基础。

近十年内,国内语料库语言学的研究呈现出以下几个特点:一是研究方法的多样化,不仅注重传统的统计分析方法,还引入了机器学习、深度学习等先进技术二是研究领域的拓展,语料库语言学不再局限于传统的语言结构研究,而是向语言教学、语言规划等应用领域延伸三是语料库资源的不断丰富,各类专题语料库、多语种语料库等不断涌现,为语料库语言学的研究提供了更为丰富和多样的数据来源。

总体而言,近十年国内语料库语言学的研究取得了丰硕的成果,不仅推动了语言学理论的发展,也为语言实践提供了有力的支持。

未来,随着技术的不断进步和语料库资源的日益丰富,语料库语言学在国内的研究将更加深入和广泛,为语言学研究和社会应用带来更多的创新和突破。

1. 语料库语言学的定义与重要性语料库语言学,作为一种独特的语言学研究方法,主要依赖于大规模、结构化的语言数据集合,即语料库,来进行语言分析和研究。

它通过对真实语料进行定量和定性的分析,旨在揭示语言的实际使用情况和内在规律。

近十年来,随着信息技术的飞速发展和语料库规模的日益扩大,语料库语言学在国内语言学界的地位逐渐提升,其重要性也日益凸显。

语料库语言学的定义在于其研究方法和数据基础。

其研究方法强调实证和量化,通过计算机技术和统计手段对语料库中的语言数据进行处理和分析,进而揭示语言的实际使用情况。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

要维护语料库(国家级)和标准、规范的权威性和协 调作用,还必须实时跟踪国内外语言学和计算语言学 的最新研究成果,不断考虑相对稳妥的更新规范、语 料库及语料库加工方法,保持其公允性、引导性和先 进性。
语料库的加工、应用及推广
1) 网络有偿或无偿使用,提供语言学、计算语言学、 对外汉语教学等研究者和外国留学生作各种常规查询, 包括字、词搭配、例句抽取、句型、句法结构、某种历 时的研究。 2) 提供计算语言学研究的各种统计数据,例如字频、 词频、句型句法结构统计、人名地名用字统计。 3) 根据各种中文信息处理的方法和流派的不同,研究 相适应的评测标准,提供标准测试集。充分发挥语用所 在资源(国家级)、标准、规范上的权威性和协调作用, 体现公允性、引导性和先进性。
语料库加工设想
提供各种常规查询界面,响应各种特殊查询需求。 2) 生成各种基于语料库的统计数据。 3) 提供各种常规评测标准及测试集,响应各种特殊需求 的测试集。 4) 跟踪国内外语言学和计算语言学研究,不断考虑相对 稳妥的更新规范、语料库、语料库加工方法。
语料库的推广
总结现有语料库的成绩,及时推广语料库 的应用成果,争取国家继续立项,以便有更大 的投资,保证国家语料库和国家规范的权威性、 先进性,走可持续发展道路。
在国家语委平衡语料库加工过程中,应该努力形成一 系列的可以作为国家标准的规范。对于现有不同的规 范之间应力求调和,尽可能使用普遍认同的标记,以 便各个中文信息处理系统能够使用统一的规范和标准。 已经制定、颁布和立项研究的规范有分词词表规范、 词性标记集规范、分词标注规范、短语标记集规范、 短语标注规范、语义标记集规范、语义标注规范等。
《信息处理用现代汉语词类标记集规范》起草单位:教育部语言文 字应用研究所。
一、项目起止时间,计划执行情况,最终 完成情况
本课题于2003年1月启动,2005年1月完成课题全部目标, 各项指标均达到或超过了课题任务书的规定。
二、项目研究的主要内容和实际达到的研 究目标
7000万字语料的分词和标注。完成7000万字语料的词语 切分和词性标注工作。语料切分标注错误率经过校对后 控制在万分之五以下。
语料库应用设想
1) 网络有偿或无偿使用,提供语言学、计算语言学、 对外汉语教学等研究者和外国留学生作各种常规查询, 包括字、词搭配、例句抽取、句型、句法结构、某种历 时的研究。
2) 提供计算语言学研究的各种统计数据,例如字频、 词频、句型句法结构统计、人名地名用字统计。
根据各种中文信息处理的方法和流派的不同,研究 相适应的评测标准,提供标准测试集。充分发挥语用所 在资源(国家级)、标准、规范上的权威性和协调作用, 体现公允性、引导性和先进性。
《信息处理用现代汉语词类标记集规范》起草单位:教育部语言文 字应用研究所。
基础(二)信息处理用现代汉语词类标记 集规范
国家社科基金 “九五”重大项目《信息处理用现代汉语词汇研究》的子项目“信 息处理用现代汉语词类标记集规范”(项目编号:97@yy001-4)的 基础上完成,进一步得到国家语委十五重大项目《现代汉语语料库 建设》子课题“国家语委核心语料分词及词性标注加工”(项目编 号:WT200104)的支持。
现代汉语语料库要面向国内外的长远需要,选材要 有足够的时间跨度,语料应抽样合理、分布均匀、比例 适当,科学地反映现代汉语全貌;在建立现代汉语语料 库的同时,还应着手研究和制定有关语料库的统一规范 和技术标准,以推动汉语语料库的建设。根据以上的用 途和要求,现代汉语语料库定位为系统型通用语料库, 总计7000万汉字。语料库建成后,拟每年增补350万字 的新语料。
语料时间分布
时间跨度为1919年~2002年,以近20年的语料为主。
4500000 4000000 3500000 3000000 2500000 2000000 1500000 1000000
500000 0
年份
语料领域分布:
13个大类,40多个小类,100多个详细分类。
30000000
25000000
基础(二)信息处理用现代汉语词类标记 集规范
《信息处理用现代汉语词类标记集规范》的制定在国家社科基金 “九五”重大项目《信息处理用现代汉语词汇研究》的子项目“信 息处理用现代汉语词类标记集规范”(项目编号:97@yy001-4)的 基础上完成,进一步得到国家语委十五重大项目《现代汉语语料库 建设》子课题“国家语委核心语料分词及词性标注加工”(项目编 号:WT200104)的支持。
20000000
15000000
10000000
5000000
0
文学 艺术 医药卫生 军体
社会 科技 天文地理 行政文书
字数
经济 农林
报纸 历史
海洋气象 实用文书
行政公文 司法文书
其他 生化 工业 商业文告
政法 数理 生活 礼仪辞令
国家语委语料库的语料样本包括24个详细信息:
a1总号; a2分类号; a3样本名称;a4类别; a5作者;
100万字语料树库建设。在标注语料库的基础上完成100 万字的树库建设。
a6写作时间;a7书刊名称;a8编著者; a9出版社; a10所在省;
a11出版日期;a12期号; a13版次(初版印数); a14本版印数;
a15总印数; a16总页数; a17开本;
a18选择方式;
a19起止页数;a20样本字数;a21样本总字数;a22文章总字数;
a23简繁体; a24抽样文章。
本项目研究的基础
基础(一)国家语委现代汉语语料库
我国从1990年开始筹备建立大型的国家级语料 库——国家语委现代汉语语料库,该语料库由 国家语言文字工作委员会主持,组织语言学界 和计算机界的专家学者共同建立。
共识:
现代汉语语料库应是一个大型的通用的语料库,应以语 言文字的信息处理、语言文字规范和标准的制定、语言文 字的学术研究、语文教育和语言文字的社会应用为主要服 务方面;现代汉语语料库作为国家级语料库,在语料可靠、 标注准确等方面应具有权威性,在汉语语料库系统开发技 术上应具有国际领先水平;
相关文档
最新文档