当汉语语料库文本分词规范草案
现代汉语常用词表
现代汉语常用词表(草案)1.范围本规范(草案)提出了现当代社会生活中比较稳定的、使用频率较高的汉语普通话常用词语 56 008 个,形成《现代汉语常用词表》,给出了词语的词形。
本规范(草案)可供中小学语文教学、扫盲教育、汉语教育、中文信息处理和辞书编纂等方面参考、采用。
2.术语和定义2.1 常用词现代汉语普通话范畴中使用频率高、适用范围广的词语。
2.2 词形本规范(草案)指词语的书写形式。
2.3 词频在一定数量的语料中同一个词语出现的频度,一般用词语的出现次数或覆盖率来表示。
本规范(草案)指词语的出现次数。
2.4 频级同一语料调查范围中词频数相同的为一个频级。
本词表频级统计分两步:第步形成不同类型语料库的频级,即原始频级。
第二步形成总语料的频级,就是将几个原始频级之和再除以不同类型语料库的数目。
3.研制原则3.1 词和语兼顾原则本规范(草案)的词语收录,以单音节词和双音节词为主。
同时,根据语言使用的实际情况,也收录一些常用的缩略语、成语、惯用语等熟语,以及表达整体概念名称的其他固定短语。
3.2 系统性和实用性兼顾原则本规范(草案)的词语收录,既注意词语的系统性,又注意词语在语用中的实用性。
如以表示季节为根词的一些词,全部收录它的加缀词“初春”“初冬”“初秋”“初夏”,但对于“‘晚'+季节”的词语,只收录“晚春”“晚秋”,未收录“晚冬”“晚夏”;对于“‘残'+季节”的词语,只收录“残冬”未收录“残春”“残秋”“残夏”。
4.《现代汉语常用词表》(草案)说明4.1 本表研制过程中,收集词语同国家语委“现代汉语通用语料库”核心语料库、厦门大学的新词语语料库、《现代汉语规范词典》、《现代汉语词典》、《新华词典》等所收词语进行了比对,并查验了该词在人民网《人民日报》报系网页以及 Google 网简体中文网页、百度网等常用网页上的使用情况。
4.2 本表用来检测词频的语料库有:国家语委“现代汉语通用语料库”中经分词标注的4 500万字语料、《人民日报》2001年〜2005年约1.35亿字的分词标注语料和厦门大学的现当代文学作品语料库约 7 000 万字的语料。
现代汉语常用词表草案
现代汉语常用词表(草案)1.范围本规范(草案)提出了现当代社会生活中比较稳定的、使用频率较高的汉语普通话常用词语 56 008个,形成《现代汉语常用词表》,给出了词语的词形。
本规范(草案)可供中小学语文教学、扫盲教育、汉语教育、中文信息处理和辞书编纂等方面参考、采用。
2.术语和定义2.1 常用词现代汉语普通话范畴中使用频率高、适用范围广的词语。
2.2 词形本规范(草案)指词语的书写形式。
2.3 词频在一定数量的语料中同一个词语出现的频度,一般用词语的出现次数或覆盖率来表示。
本规范(草案)指词语的出现次数。
2.4 频级同一语料调查范围中词频数相同的为一个频级。
本词表频级统计分两步:第一步形成不同类型语料库的频级,即原始频级。
第二步形成总语料的频级,就是将几个原始频级之和再除以不同类型语料库的数目。
3.研制原则3.1 词和语兼顾原则本规范(草案)的词语收录,以单音节词和双音节词为主。
同时,根据语言使用的实际情况,也收录一些常用的缩略语、成语、惯用语等熟语,以及表达整体概念名称的其他固定短语。
3.2 系统性和实用性兼顾原则本规范(草案)的词语收录,既注意词语的系统性,又注意词语在语用中的实用性。
如以表示季节为根词的一些词,全部收录它的加缀词“初春”“初冬”“初秋”“初夏”,但对于“‘晚’+季节”的词语,只收录“晚春”“晚秋”,未收录“晚冬”“晚夏”;对于“‘残’+季节”的词语,只收录“残冬”未收录“残春”“残秋”“残夏”。
4.《现代汉语常用词表》(草案)说明4.1 本表研制过程中,收集词语同国家语委“现代汉语通用语料库”核心语料库、厦门大学的新词语语料库、《现代汉语规范词典》、《现代汉语词典》、《新华词典》等所收词语进行了比对,并查验了该词在人民网《人民日报》报系网页以及Google网简体中文网页、百度网等常用网页上的使用情况。
4.2本表用来检测词频的语料库有:国家语委“现代汉语通用语料库”中经分词标注的4 500万字语料、《人民日报》2001年~2005年约1.35亿字的分词标注语料和厦门大学的现当代文学作品语料库约7 000万字的语料。
现代汉语常用词表
现代汉语常用词表(草案)现代汉语常用词表(草案)1.范围本规范(草案)提出了现当代社会生活中比较稳定的、使用频率较高的汉语普通话常用词语 56 008个,形成《现代汉语常用词表》,给出了词语的词形。
本规范(草案)可供中小学语文教学、扫盲教育、汉语教育、中文信息处理和辞书编纂等方面参考、采用。
2.术语和定义2.1 常用词现代汉语普通话范畴中使用频率高、适用范围广的词语。
2.2 词形本规范(草案)指词语的书写形式。
2.3 词频在一定数量的语料中同一个词语出现的频度,一般用词语的出现次数或覆盖率来表示。
本规范(草案)指词语的出现次数。
2.4 频级同一语料调查范围中词频数相同的为一个频级。
本词表频级统计分两步:第一步形成不同类型语料库的频级,即原始频级。
第二步形成总语料的频级,就是将几个原始频级之和再除以不同类型语料库的数目。
3.研制原则3.1 词和语兼顾原则本规范(草案)的词语收录,以单音节词和双音节词为主。
同时,根据语言使用的实际情况,也收录一些常用的缩略语、成语、惯用语等熟语,以及表达整体概念名称的其他固定短语。
3.2 系统性和实用性兼顾原则本规范(草案)的词语收录,既注意词语的系统性,又注意词语在语用中的实用性。
如以表示季节为根词的一些词,全部收录它的加缀词“初春”“初冬”“初秋”“初夏”,但对于“‘晚’+季节”的词语,只收录“晚春”“晚秋”,未收录“晚冬”“晚夏”;对于“‘残’+季节”的词语,只收录“残冬”未收录“残春”“残秋”“残夏”。
4.《现代汉语常用词表》(草案)说明4.1 本表研制过程中,收集词语同国家语委“现代汉语通用语料库”核心语料库、厦门大学的新词语语料库、《现代汉语规范词典》、《现代汉语词典》、《新华词典》等所收词语进行了比对,并查验了该词在人民网《人民日报》报系网页以及Google网简体中文网页、百度网等常用网页上的使用情况。
4.2本表用来检测词频的语料库有:国家语委“现代汉语通用语料库”中经分词标注的4 500万字语料、《人民日报》2001年~2005年约1.35亿字的分词标注语料和厦门大学的现当代文学作品语料库约7 000万字的语料。
北京大学现代汉语语料库基本加工规范
北京大学现代汉语语料库基本加工规范俞士汶段慧明朱学锋孙斌(北京大学计算机系,北京大学计算语言学研究所 北京 100871)摘要:北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。
加工项目除词语切分和词性标注外,还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。
这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。
发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉,更广泛地向专家、同行征询意见,以便进一步修订。
关键词:现代汉语;语料库;词语切分;词性标注;规范中图分类号:TP391The Basic Processing of Contemporary Chinese Corpus at Peking UniversitySPECIFICATIONYU Shi-wen DUAN Hui-ming ZHU Xue-feng Bing SWEN(Institute of Computational Linguistics, Peking University, Beijing, 100871) Abstract: The Institute of Computational Linguistics, Peking University has completed the basic processing of a contemporary Chinese corpus that has 27 million Chinese Characters. In addition to word segmentation and part-of-speech tagging, the processing involves the tagging of proper nouns (person names, place names, organization names and so on), morpheme subcategories and the special usages of verbs and adjectives. The success of this large-scale language engineering is attributed to the SPECIFICATION, which had been made beforehand and was being perfected while in use. We are hereby making an introduction to the SPECIFICA TION through this publication, thus inviting the comments from all the experts and our colleagues for the improvement of it.Keywords: contemporary Chinese; corpus; word segmentation; part-of-speech tagging; specification⒈ 前言关于汉语语料库的全面情况,冯志伟教授的文章已有详细介绍[1]。
现代汉语语料库加工规范词语切分和词性标注词...
[芜湖/ns专区/n] NS,
[宣城/ns地区/n]ns,
[内蒙古/ns自治区/n]NS,
[深圳/ns特区/n]NS,
[厦门/ns经济/n特区/n]NS,
[香港/ns特别/a行政区/n]NS,
甲/Mg减下/v的/u人/n让/v乙/Mg背上/v ,
凡/d“/w寅/Mg年/n”/w中/f出生/v的/u人/n生肖/n都/d属/v虎/n ,
18
m数词
取英语numeral的第3个字母,n,u已有他用。
1.数量词组应切分为数词和量词。三/m个/q, 10/m公斤/q,一/m盒/q点心/n ,
但少数数量词已是词典的登录单位,则不再切分。
合作/vn与/c伙伴/n
8
Dg
副语素
副词性语素。副词代码为d,语素代码g前面置以D。
了解/v甚/Dg深/a,
煞/Dg是/v喜人/a,
9
d
副词
取adverb的第2个字母,因其第1个字母已用于形容词。
进一步/d发展/v,
10
e
叹词
取英语叹词exclamation的第1个字母。
啊/e,/w那/r金灿灿/z的/u麦穗/n,
约/d一百/m多/m万/m,仅/d一百/m个/q,四十/m来/m个/q,二十/m余/m只/q,十几/m个/q,三十/m左右/m,
两个数词相连的及“成百”、“上千”等则不予切分。
五六/m年/q,七八/m天/q,十七八/m岁/q,成百/m学生/n,上千/m人/n,
4.表序关系的“数+名”结构,应予切分。
[宝山/ns钢铁/n总/b公司/n]NT,(/w宝钢/j)/w
汉语常用词表(部分)
现代汉语常用词表(草案)1.范围本规范(草案)提出了现当代社会生活中比较稳定的、使用频率较高的汉语普通话常用词语 56 008个,形成《现代汉语常用词表》,给出了词语的词形。
本规范(草案)可供中小学语文教学、扫盲教育、汉语教育、中文信息处理和辞书编纂等方面参考、采用。
2.术语和定义2.1 常用词现代汉语普通话范畴中使用频率高、适用范围广的词语。
2.2 词形本规范(草案)指词语的书写形式。
2.3 词频在一定数量的语料中同一个词语出现的频度,一般用词语的出现次数或覆盖率来表示。
本规范(草案)指词语的出现次数。
2.4 频级同一语料调查范围中词频数相同的为一个频级。
本词表频级统计分两步:第一步形成不同类型语料库的频级,即原始频级。
第二步形成总语料的频级,就是将几个原始频级之和再除以不同类型语料库的数目。
3.研制原则3.1 词和语兼顾原则本规范(草案)的词语收录,以单音节词和双音节词为主。
同时,根据语言使用的实际情况,也收录一些常用的缩略语、成语、惯用语等熟语,以及表达整体概念名称的其他固定短语。
3.2 系统性和实用性兼顾原则本规范(草案)的词语收录,既注意词语的系统性,又注意词语在语用中的实用性。
如以表示季节为根词的一些词,全部收录它的加缀词“初春”“初冬”“初秋”“初夏”,但对于“‘晚’+季节”的词语,只收录“晚春”“晚秋”,未收录“晚冬”“晚夏”;对于“‘残’+季节”的词语,只收录“残冬”未收录“残春”“残秋”“残夏”。
4.《现代汉语常用词表》(草案)说明4.1 本表研制过程中,收集词语同国家语委“现代汉语通用语料库”核心语料库、厦门大学的新词语语料库、《现代汉语规范词典》、《现代汉语词典》、《新华词典》等所收词语进行了比对,并查验了该词在人民网《人民日报》报系网页以及Google网简体中文网页、百度网等常用网页上的使用情况。
4.2本表用来检测词频的语料库有:国家语委“现代汉语通用语料库”中经分词标注的4 500万字语料、《人民日报》2001年~2005年约1.35亿字的分词标注语料和厦门大学的现当代文学作品语料库约7 000万字的语料。
现代汉语方言语法语料库调查方案
现代汉语方言语法语料库调查方案(暂定稿)刘丹青唐正大拟定(2003年7月){红色文字由吴福祥所加}第一部分词法(以下斜体为扩充选查项,视调查时间和条件而定,非必查项)1.有无类似“中心语+定语”的构词法,词项见:若不止一种语序,请在词条后穷尽之,如:拖鞋:拖鞋/鞋拖/……客人干菜生鱼生肉干肉拖鞋公鸡母鸡公牛母牛若有按“中心语+定语”构词的词不在上述例词之内,请另行列表。
2.名词的小称用什么形式(如儿缀、儿化、子缀、子变韵、其它后缀、变音、变调、重叠),下面名词以普通话的非小称的基本形式给出,请写出相应的小称形式(词表外的常用的小称形式可补在表后;若基式同普通话,不必另写;如不同于普通话请另写出基式;如无非小称形式,小称形式已取代基式,则请在基式上加星号*):3.名词词缀3.1 加在排行、姓氏、名字构成称谓的前缀(小~、老~、阿~等),后缀(~子,~儿、~仔等)和前后缀并用的形式(阿~仔等)(以“陈伟”、“欧阳伟平”为例,分别体现单、双音节的姓名的构成规则)前缀+排行:老三前缀+姓氏:小王前缀+名字(或名字的一部分):阿强前缀+亲属称谓:阿妈排行+后缀:四仔姓氏+后缀:名字+后缀:亲属称谓+后缀:前缀+排行+后缀:前缀+姓氏+后缀:前缀+名字+后缀:前缀+亲属称谓+后缀:3.2 用动词、形容词加后缀等构成转指行为者或属性拥有者的指人名词。
动词/形容词+的(或相当于“的”的成分,如吴语的“个”):卖菜的、开车个“动词/形容词+的”在属格中:卖菜的(口才)、卖菜的的(口才)动词/形容词+其它词缀:如普通话:参观者、胖子、作曲家;徽语:驼背佬、剃头佬;粤语:肥佬;吴语:“独头”(傻子)、滑头3.3 以上词缀的其他用途(专指工具、构成抽象名词等)如普通话:刨子、钻头、念头、甜头、苦头;关中话:看头(看的价值:有看头——值得一看);常州吴语:大佬(大的)、细佬(小的);苏州吴语:胖头势(胖的程度)、聪明头势(聪明的程度)。
当代大学生普通话水平测试语料库建立
当代大学生普通话水平测试语料库建立随着中国经济的快速发展和国际交流的日益频繁,普通话水平的重要性日益凸显。
尤其是在当代大学生中,普通话水平更是成为了一个不可忽视的问题。
为了进一步提高大学生的普通话水平,建立一份完善的普通话水平测试语料库显得尤为重要。
本文将探讨当代大学生普通话水平测试语料库的建立,并介绍一些相关的内容。
为什么需要建立当代大学生普通话水平测试语料库呢?在当代社会中,普通话已成为全国通用的语言,并且在各种场合中使用。
而在大学生中,作为未来社会的中坚力量,他们的语言水平将直接影响到国家整体形象的提升。
建立一份全面的普通话水平测试语料库,可以帮助大学生系统地学习和提高普通话水平,从而更好地适应未来的社会发展和国际交流。
建立当代大学生普通话水平测试语料库的工作至关重要。
通过收集大量的语料,包括语音、文字等,将其整理归纳为一份完整的语料库,可以为大学生提供规范的测试标准和学习素材。
通过建立一套完整的测试体系,可以全面地评估大学生的普通话水平,为他们提供有针对性的学习建议,从而更好地提高他们的语言能力。
建立当代大学生普通话水平测试语料库也需要充分考虑当代大学生的实际情况。
大学生作为学习者,他们的学习方式和习惯可能与传统的学习方式有所不同,因此在建立语料库的过程中,还需要考虑到他们的学习需求和特点,为他们提供更加贴近实际的语言学习资源。
还需要结合当下流行的科技手段,将语料库与智能化技术相结合,为大学生提供更加便捷、高效的学习方式。
建立当代大学生普通话水平测试语料库需要一个全面的团队合作。
这涉及到语言学专家、教育学专家、计算机专家等多方面的专业知识,需要他们共同合作,进行语料的收集、整理和测试体系的建立。
还需要与一些相关的教育机构或语言学研究机构进行合作,共同提高语料库的质量和实用性。
当代汉语文本语料库分词词性标注加工规范
973当代汉语文本语料库分词、词性标注加工规范(草案)山西大学从1988年开始进行汉语语料库的深加工研究,首先是对原始语料进行切分和词性标注,1992年制定了《信息处理用现代汉语文本分词规范》。
经过多年研究和修改,2000年又制定出《现代汉语语料库文本分词规范》和《现代汉语语料库文本词性体系》。
这次承担973任务后制定出本规范。
本规范主要吸收了语言学家的研究成果,并兼顾各家的词性分类体系,是一套从信息处理的实际要求出发的当代汉语文本加工规范。
本加工规范适用于汉语信息处理领域,具有开放性和灵活性,以便适用于不同的中文信息处理系统。
《973当代汉语文本语料库分词、词性标注加工规范》是根据以下资料提出的。
1.《信息处理用现代汉语分词规范》,中国国家标准GB13715,1992年2.《信息处理用现代汉语词类标记规范》,中华人民共和国教育部、国家语言文字工作委员会2003年发布3.《现代汉语语料库文本分词规范》(Ver 3.0),1998年北京语言文化大学语言信息处理研究所清华大学计算机科学与技术系4.《现代汉语语料库加工规范——词语切分与词性标注》,1999年北京大学计算语言学研究所5.《信息处理用现代汉语词类标记规范》,2002年,教育部语言文字应用研究所计算语言学研究室6.《现代汉语语料库文本分词规范说明》,2000年山西大学计算机科学系山西大学计算机应用研究所7.《資讯处理用中文分词标准》,1996年,台湾计算语言学学会一、分词总则1.词语的切分规范尽可能同中国国家标准GB13715《信息处理用现代汉语分词规范》(以下简称为“分词规范”)保持一致。
本规范规定了对现代汉语真实文本(语料库)进行分词的原则及规则。
追求分词后语料的一致性(consistency)是本规范的目标之一。
2.本规范中的“分词单位”主要是词,也包括了一部分结合紧密、使用稳定的词组以及在某些特殊情况下可能出现在切分序列中的孤立的语素或非语素字。
现代汉语语料库加工规范——词语切分与词性标注
现代汉语语料库加工规范——词语切分与词性标注1999年3月版北京大学计算语言学研究所1999年3月14日⒈ 前言北大计算语言学研究所从1992年开始进行汉语语料库的多级加工研究。
第一步是对原始语料进行切分和词性标注。
1994年制订了《现代汉语文本切分与词性标注规范V1.0》。
几年来已完成了约60万字语料的切分与标注,并在短语自动识别、树库构建等方向上进行了探索。
在积累了长期的实践经验之后,最近又进行了《人民日报》语料加工的实验。
为了保证大规模语料加工这一项重要的语言工程的顺利进行,北大计算语言学研究所于1998年10月制订了《现代汉语文本切分与词性标注规范V2.0》(征求意见稿)。
因这次加工的任务超出词语切分与词性标注的范围,故将新版的规范改名为《现代汉语语料库加工规范》。
制订《现代汉语语料库加工规范》的基本思路如下:⑴ ⑴ 词语的切分规范尽可能同中国国家标准GB13715“信息处理用现代汉语分词规范” (以下简称为“分词规范”)保持一致。
由于现在词语切分与词性标注是结合起来进行的,而且又有了一部《现代汉语语法信息词典》(以下有时简称“语法信息词典”或“语法词典”)可作为词语切分与词性标注的基本参照,这就有必要对“分词规范”作必要的调整和补充。
⑵ ⑵ 小标记集。
词性标注除了使用《现代汉语语法信息词典》中的26个词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,增加了以下3类标记:①专有名词的分类标记,即人名nr,地名ns,团体机关单位名称nt,其他专有名词nz;②语素的子类标记,即名语素Ng,动语素Vg,形容语素Ag,时语素Tg,副语素Dg等;③动词和形容词的子类标记,即名动词vn(具有名词特性的动词),名形词an(具有名词特性的形容词),副动词vd(具有副词特性的动词),副形词ad(具有副词特性的形容词)。
当代大学生普通话水平测试语料库建立
当代大学生普通话水平测试语料库建立摘要:普通话水平测试已经成为了当代大学生必需参加的考试,随着语言规范化地推进,普通话口语规范也受到了重视。
我们以“普通话水平测试——南京信息工程大学考点”为研究范围,将该考点考生的“自由说话”部分作为研究对象,并建设了相应的语音语料库和文本语料库,方便进行后续的词汇搭配研究。
希望该能对普通话教学工作提出可实施的意见。
关键词:普通话;普通话水平测试;语音语料库;标注一、绪论1.1问题的提出我们以南京信息工程大学普通话水平测试中的“自由说话”作为研究对象,建立一个普通话语音语料库,并对其进行词汇搭配的标注,更加直观地向我们展示大学生在应试时的口语表达能力。
同时,词汇搭配的标注对我们研究大学生口语的词汇搭配提供了重要的素材。
该语料库建设的数据是普通话水平测试应试者的第一手资料,将为普通话的教学和研究提供有价值的指导1.2语料库研究现状在知网上搜素“语料库”可以搜素出来9791篇相关期刊论文。
其中,现代汉语的语料库共有513篇,普通话语料库相关论文41篇,普通话语音语料库相关的10篇。
1.3研究的意义通过搜集语音样本语料建设文本样本语料,标注文本样本语料中的词汇搭配偏误现象,将错误分类研究,以反映南京信息工程大学的大学生普通话口语水平。
以小见大,以此反映当代大学生普通话口语能力。
希望该研究能对普通话口语教学提供意见,促进当代大学生普通话口语的规范化表达。
1.4存在的问题和不足(1)在建设语料库的时候只是以一个考点作为调查总体,研究数据不完整,不一定有代表性;(2)文本语料没有加入“个人信息”的参考维度,如果要讨论“男女生词汇搭配”之类的问题就很难入手;(3)小组成员的学术水平有限,在对文本语料进行标注的时候不一定完全正确,并且由于知识储备不足,一些出现的偏误没有办法进行归类,导致分析时,不完全正确。
二、语料库的建设2.1样本数据的采集我们一共搜集了790条语音样本,共计39.5个小时,通过人工听音,利用计算机office软件,将接近40个小时的语音样本完全转码为490697字的文本语料。
论《现代汉语常用词表(草案)》处理异形词的得失
论《现代汉语常用词表(草案)》处理异形词的得失刘中富【摘要】《现代汉语常用词表(草案)》采用明处理和暗处理两种方式整理和规范现代汉语异形词,既尊重了已有规范,也吸收了学界整理异形词的成果与经验,同时还有自己的独立思考和判断,取得了一些值得肯定的成绩.当然,由于异形词的复杂性,《现代汉语常用词表(草案)》在处理异形词时也存在一些问题.【期刊名称】《中国海洋大学学报(社会科学版)》【年(卷),期】2011(000)004【总页数】6页(P83-88)【关键词】《现代汉语常用词表(草案)》;异形词;词形;词频;理据【作者】刘中富【作者单位】中国海洋大学文学与新闻传播学院,山东青岛266100【正文语种】中文【中图分类】H03l《现代汉语常用词表》课题组研制的《现代汉语常用词表(草案)》(以下简称《词表》)作为中国语言生活绿皮书(A 001)2008年由国家语言文字工作委员会发布,同年11月由商务印书馆出版发行。
该词表的研制历经近10年的时间,共筛选出了56008个现代汉语常用词语,逐一给出词形、频级和读音,体现了集体的智慧。
词表虽是一种“软性”规范方案,但无疑会对人们的语言生活起到应有的指导作用,也会对语文教育、汉语研究、辞书编纂等起到一定的参考和示范作用。
《词表》包括3个部分:基本部分是现代汉语常用词表(草案),内容包括每个词语的频序号和词形;二是附录《现代汉语常用词表(草案)》音序索引,内容包括每个词语的词形、汉语拼音和频序号;三是《现代汉语常用词表(草案)》研制报告,内容包括研制背景、研制过程、研制原则和方法、研制的内容、相关资料五个部分。
《词表》的研制内容最主要的就是两项,即频序号和词形,因此能否准确筛选每个词语并给出规范词形是判断本词表研制是否成功的基本标准。
词语频序号的确定由所依据的语料来决定,比较容易做到客观、公正。
词形的用字标准也非常明确,那就是研制报告所说明的“词表全部使用规范汉字”,[1](P668)即符合《第一批异体字整理表》、《简化字总表》、《现代汉语常用字表》和《现代汉语通用字表》的规定。
现代汉语常用词表
现代汉语常用词表(草案)现代汉语常用词表(草案)1.范围本规范(草案)提出了现当代社会生活中比较稳定的、使用频率较高的汉语普通话常用词语 56 008个,形成《现代汉语常用词表》,给出了词语的词形。
本规范(草案)可供中小学语文教学、扫盲教育、汉语教育、中文信息处理和辞书编纂等方面参考、采用。
2.术语和定义2.1 常用词现代汉语普通话范畴中使用频率高、适用范围广的词语。
2.2 词形本规范(草案)指词语的书写形式。
2.3 词频在一定数量的语料中同一个词语出现的频度,一般用词语的出现次数或覆盖率来表示。
本规范(草案)指词语的出现次数。
2.4 频级同一语料调查范围中词频数相同的为一个频级。
本词表频级统计分两步:第一步形成不同类型语料库的频级,即原始频级。
第二步形成总语料的频级,就是将几个原始频级之和再除以不同类型语料库的数目。
3.研制原则3.1 词和语兼顾原则本规范(草案)的词语收录,以单音节词和双音节词为主。
同时,根据语言使用的实际情况,也收录一些常用的缩略语、成语、惯用语等熟语,以及表达整体概念名称的其他固定短语。
3.2 系统性和实用性兼顾原则本规范(草案)的词语收录,既注意词语的系统性,又注意词语在语用中的实用性。
如以表示季节为根词的一些词,全部收录它的加缀词“初春”“初冬”“初秋”“初夏”,但对于“‘晚’+季节”的词语,只收录“晚春”“晚秋”,未收录“晚冬”“晚夏”;对于“‘残’+季节”的词语,只收录“残冬”未收录“残春”“残秋”“残夏”。
4.《现代汉语常用词表》(草案)说明4.1 本表研制过程中,收集词语同国家语委“现代汉语通用语料库”核心语料库、厦门大学的新词语语料库、《现代汉语规范词典》、《现代汉语词典》、《新华词典》等所收词语进行了比对,并查验了该词在人民网《人民日报》报系网页以及Google网简体中文网页、百度网等常用网页上的使用情况。
4.2本表用来检测词频的语料库有:国家语委“现代汉语通用语料库”中经分词标注的4 500万字语料、《人民日报》2001年~2005年约1.35亿字的分词标注语料和厦门大学的现当代文学作品语料库约7 000万字的语料。
(整理)现代汉语语料库加工规范词语切分与词性标注词
出/v过/u两/m天/q差/Ng,
疾病成本法和人力资本法将环境污染引起人体健康的经济损失分为直接经济损失和间接经济损失两部分。直接经济损失有:预防和医疗费用、死亡丧葬费;间接经济损失有:影响劳动工时造成的损失(包括病人和非医务人员护理、陪住费)。这种方法一般通常用在对环境有明显毒害作用的特大型项目。理/v了/u一/m次/q发/Ng,
一个/m ,一些/m ,
2.基数、序数、小数、分数、百分数一律不予切分,为一个切分单位,标注为m。
一百二十三/m,20万/m,123.54/m,一个/m,第一/m,第三十五/m,20%/m,三分之二/m,千分之三十/m,几十/m人/n,十几万/m元/q,第一百零一/m个/q ,
3.约数,前加副词、形容词或后加“来、多、左右”等助数词的应予分开。
岗位/n ,城市/n ,机会/n ,
[例题-2006年真题]下列关于建设项目环境影响评价实行分类管理的表述,正确的是( )她/r是/v责任/n编辑/n ,
(编辑/v科技/n文献/n )
21
nr人名
名词代码n和“人(ren)”的声母并在一起。
1.汉族人及与汉族起名方式相同的非汉族人的姓和名单独切分,并分别标注为nr。
张/nr仁伟/nr,欧阳/nr修/nr,阮/nr志雄/nr,朴/nr贞爱/nr
汉族人除有单姓和复姓外,还有双姓,即有的女子出嫁后,在原来的姓上加上丈夫的姓。如:陈方安生。这种情况切分、标注为:陈/nr方/nr安生/nr;唐姜氏,切分、标注为:唐/nr姜氏/nr。
2.姓名后的职务、职称或称呼要分开。
江/nr主席/n,小平/nr同志/n,江/nr总书记/n,张/nr教授/n,王/nr部长/n,陈/nr老总/n,李/nr大娘/n,刘/nr阿姨/n,龙/nr姑姑/n
现代汉语常用词表
现代汉语常用词表(总28页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--现代汉语常用词表(草案)1.范围本规范(草案)提出了现当代社会生活中比较稳定的、使用频率较高的汉语普通话常用词语 56 008个,形成《现代汉语常用词表》,给出了词语的词形。
本规范(草案)可供中小学语文教学、扫盲教育、汉语教育、中文信息处理和辞书编纂等方面参考、采用。
2.术语和定义常用词现代汉语普通话范畴中使用频率高、适用范围广的词语。
词形本规范(草案)指词语的书写形式。
词频在一定数量的语料中同一个词语出现的频度,一般用词语的出现次数或覆盖率来表示。
本规范(草案)指词语的出现次数。
频级同一语料调查范围中词频数相同的为一个频级。
本词表频级统计分两步:第一步形成不同类型语料库的频级,即原始频级。
第二步形成总语料的频级,就是将几个原始频级之和再除以不同类型语料库的数目。
3.研制原则词和语兼顾原则本规范(草案)的词语收录,以单音节词和双音节词为主。
同时,根据语言使用的实际情况,也收录一些常用的缩略语、成语、惯用语等熟语,以及表达整体概念名称的其他固定短语。
系统性和实用性兼顾原则本规范(草案)的词语收录,既注意词语的系统性,又注意词语在语用中的实用性。
如以表示季节为根词的一些词,全部收录它的加缀词“初春”“初冬”“初秋”“初夏”,但对于“‘晚’+季节”的词语,只收录“晚春”“晚秋”,未收录“晚冬”“晚夏”;对于“‘残’+季节”的词语,只收录“残冬”未收录“残春”“残秋”“残夏”。
4.《现代汉语常用词表》(草案)说明本表研制过程中,收集词语同国家语委“现代汉语通用语料库”核心语料库、厦门大学的新词语语料库、《现代汉语规范词典》、《现代汉语词典》、《新华词典》等所收词语进行了比对,并查验了该词在人民网《人民日报》报系网页以及Google网简体中文网页、百度网等常用网页上的使用情况。
本表用来检测词频的语料库有:国家语委“现代汉语通用语料库”中经分词标注的4 500万字语料、《人民日报》2001年~2005年约亿字的分词标注语料和厦门大学的现当代文学作品语料库约7 000万字的语料。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
973当代汉语文本语料库分词、词性标注加工规范(草案)山西大学从1988年开始进行汉语语料库的深加工研究,首先是对原始语料进行切分和词性标注,1992年制定了《信息处理用现代汉语文本分词规范》。
经过多年研究和修改,2000年又制定出《现代汉语语料库文本分词规范》和《现代汉语语料库文本词性体系》。
这次承担973任务后制定出本规范。
本规范主要吸收了语言学家的研究成果,并兼顾各家的词性分类体系,是一套从信息处理的实际要求出发的当代汉语文本加工规范。
本加工规范适用于汉语信息处理领域,具有开放性和灵活性,以便适用于不同的中文信息处理系统。
《973当代汉语文本语料库分词、词性标注加工规范》是根据以下资料提出的。
1.《信息处理用现代汉语分词规范》,中国国家标准GB13715,1992年2.《信息处理用现代汉语词类标记规范》,中华人民共和国教育部、国家语言文字工作委员会2003年发布3.《现代汉语语料库文本分词规范》(Ver 3.0),1998年北京语言文化大学语言信息处理研究所清华大学计算机科学与技术系4.《现代汉语语料库加工规范——词语切分与词性标注》,1999年北京大学计算语言学研究所5.《信息处理用现代汉语词类标记规范》,2002年,教育部语言文字应用研究所计算语言学研究室6.《现代汉语语料库文本分词规范说明》,2000年山西大学计算机科学系山西大学计算机应用研究所7.《資讯处理用中文分词标准》,1996年,台湾计算语言学学会一、分词总则1.词语的切分规范尽可能同中国国家标准GB13715《信息处理用现代汉语分词规范》(以下简称为“分词规范”)保持一致。
本规范规定了对现代汉语真实文本(语料库)进行分词的原则及规则。
追求分词后语料的一致性(consistency)是本规范的目标之一。
2.本规范中的“分词单位”主要是词,也包括了一部分结合紧密、使用稳定的词组以及在某些特殊情况下可能出现在切分序列中的孤立的语素或非语素字。
本文中仍用“词”来称谓“分词单位”。
3.分词中充分考虑形式与意义的统一。
形式上要看一个结构体的组成成分能否单用,结构体能否扩展,组成成分的结构关系,以及结构体的音节结构;意义上要看结构体的整体意义是否具有组合性。
4. 本规范规定的分词原则及规则,既要适应语言信息处理与语料库语言学研究的需要,又力求与传统的语言学研究成果保持一致;既要适合计算机自动处理,又要便于人工校对。
5.分词时遵循从大到小的原则逐层顺序切分。
一时难以判定是否切分的结构体,暂不切分。
二、词性标注总则信息处理用现代汉语词性标注主要原则有三个:(1)语法功能原则。
语法功能是词类划分的主要依据。
词的意义不作为划分词类的主要依据,但有时也起着某些参考作用。
(2)允许有兼类。
根据各种统计研究,现代汉语的某些词具有多种语法功能,但这多种功能的分布概率不同。
在信息处理用现代汉语词类体系中,各词类的确立要根据词的主要语法功能。
(3)词类加工规范的标记集中的大类应能覆盖现代汉语的全部词。
为满足计算机处理真实文本词类标注的需要,本规范所定义的标记集,覆盖了比词小的单位,如前接成分(前缀)、后接成分(后缀)、语素字、非语素字等;比词更大的单位,如习用语、简称和略语,以及标点符号、非汉字符号等。
三、词类标记集本规范的词类标记集采用《信息处理用现代汉语词类标记规范》的大类,只增加了部分细类。
本规范的词类标记集规定,每个分词单位的标记由英文字母串构成。
标记的第一位代码,表示信息处理用现代汉语词类的基本词类,共20类,标记的第二、三位代码,表示信息处理用现代汉语基本词类下的细类。
词类分别为:(1)名词n:普通名词(n)时间名词(nt)方位名词(nd)处所名词(nl)人名(nh)汉族或类汉族人名(人名 nhh:姓nhf, 名nhg)音译名或类音译名(nhy)日本人名(nhr)其他(nhw):如绰号,笔名,尊称等。
地名(ns)族名(nn)团体机构名(ni)其他专有名词(nz)(2)动词v:普通动词(v)能愿动词(vu)趋向动词(vd)系动词(vl)(3)形容词:性质形容词(aq)状态形容词(as)(4)区别词f(5)数词m(6)量词q(7)副词d(8)代词r(9)介词p(10)连词c(11)助词u(12)叹词e(13)拟声词o(14)习用语i名词性习用语(in)动词性习用语(iv)形容词性习用语 (ia)连词性习用语(ic)(15)简称和略语j名词性简称和略语 jn动词性简称和略语 jv形容词性简称和略语 ja(16)前接成分h(17)后接成分k(18)语素字g(19)非语素字x(20)其它w:标点符号 (wp)非汉字字符串(ws)其他未知的符号(wu)四、细则1.本规范参照 GB/T 13715-92的做法,以词类为纲对各类单位作具体切分与词性标注规定。
2.本次加工规定,凡是收入词表中的词语,不再遵循本规范进行切分。
所使用词表的收词原则遵从清华大学《信息处理用现代汉语分词词表》规范。
3.独立性较强的语素字均标注词类,减少语素字标记的比例。
4.大类与细类可兼类。
五、分词与词性标注的详细说明1.名词(n)表示人和事物的名称或时间、处所等,在句中主要充当主语和宾语。
1.l 普通名词(n)表示人和事物的名称1.1.l 合成式[1] 并列关系凡是使用稳定、结合紧密的二字并列关系名词一律为分词单位。
如:省市/n 房屋/n 资金/n其余双音节的只要能扩展,则可切分。
三音节以上的结构体能扩展的应切分。
例如:省/n市/n县/n[2] 定中关系A.[名十名]对2至4音节组合,如其中一部分音节长度为1,一般来说,整体不切分。
例如:阵营/n 风波/n 法人/n 饭店/n大气层/n 火车站/n 州政府/n凤仙花汁/n 芭蕾舞裙/n对两部分音节长度都大于或等于2的组合,如中间能加“的”且意义不变的切开,否则不切分。
例如:中国/ns 公民/n 软件/n 程序/n 文件/n精神/n知识产权/n 技术人员/n 航空母舰/n 绿色食品/n 集团公司/n5音节以上的组合原则上切开。
例如:律师/n 资格/n 获得者/n 超线程/n 技术/nB.[动十名]对2至4音节组合,构成动宾式合成词时,如其中一部分音节长度为1,则整体不切分。
例如:编号/n 贷款/n 报表/n代名词/n 承包商/n 负责人/n 影响力/n说明:“动+名”如为述宾结构的短语,应切分开。
如:看/v 电影/n 洗/v 衣服/n 买/v 东西/n但有些结合紧密或使用稳定的述宾结构已在词典中登录,则处理成一个切分单位,标注为动词v,如:吃饭/v 跳舞/v 唱歌/v。
对两部分音节长度都大于或等于2的组合,如中间能加“的”且意义不变的切开,否则不切分。
如:等待/v时间/n 设计/v方案/n 生产关系/nC.[形十名]以下几种情况不切分,整体标注名词,其余情况切分。
a.形容词反映的是名词所指事物的典型属性,如:咸盐/n 白雪/n 蓝天/n 绿叶/n 白兔/n 红花/n 绿草/n 冷水/n 低价/nb.形容词具有分类作用而不是临时指别作用,如:体细胞/n 小桥/n 矮个子/nc.形容词与名词的组合有一定象征意义。
如:红旗/nd.形容词与名词的切分意义发生了变化。
如:黑市/n 软盘/n 白菜/n 冷门/n 小金库/n 多媒体/nD.[量十名]双音节的不切分,整体标注为n。
如:度数/n 天数/n 个数/n 页数/n 种数/n 次数/n三音节以上的切分,量词与名词分别标注。
例如:亩/q 产量/n 公里/q数/nE. [数十名]a.表序数的一般要切分,数词与名词分别标注。
例如:五/m楼/n 三/m厂/nb.省略量词的组合,整体不作为分词单位,分别标注。
如:两/m 脚/n 都/d 是/v 泥/nc.其余的组合,不切分,标注为n。
例如:半岛/n 半球/n 二心/n 六指儿/n 两头/n[3] 主谓关系结构体在上下文中呈体词性时,无论音节多少,均不切分, 标注为n。
例如:癌变/n 海啸/n 脑溢血/n1.1.2 附加式附加式包括如下几部分构词形式[1] 前接成分十语素或词[2] 语素或词+后接成分[3] 前接成分+语素或词+后接成分这类名词的切分和标注规则见前后接成分。
1.1.3 重叠式。
不切分。
例如:人人/n 家家/n 山山水水/n 方方面面/n1.1.4明显带排行的亲属称谓不切开。
三哥/n 大婶/n 大女儿/n 大哥/n 小弟/n 老爸/n1.1.5专业术语[1] 专业术语四音节以下(含四音节)的一般不切分,标注n,四音节以上的按词切分。
例如:不定积分/n 氯胺酮/n 汇编语言/n 生物化学/n 多/a弹头/n导弹/n[2] 食谱上的菜名一般不切分,标注n。
八宝粥/n 霉干菜/n 松鼠鳜鱼/n 红烧肉/n,鸡蛋汤/n 芝麻饼/n 鸡丝面/n1.2 时间名词 (nt)表示时间。
[1] 一周的七天,农历的初一到初十,“(大)年初一”到“(大)年初十”不切分。
例:星期一/nt 初三/nt 年初二/nt 大年初一/nt[2] 年月日时分秒,按年、月、日、时、分、秒切分,标注为nt 。
1997/m 年/nt 3/m 月/nt 19/m 日/nt,下午/nt 2/m 时/nt 18/m 分/nt 35/m 秒/nt[3] 朝代名不切分,标注为nt。
例如:唐朝/nt 南北朝/nt 清代 /nt[4] 著名的节日名,不切分, 标注为nt。
例如:春节/nt 圣诞节/nt 国庆节/nt 复活节/nt 三八妇女节/nt “六一”儿童节/nt [5]“前、后、上、下、大前、大后、头”加“天”或“上/下”加“月/周/星期”时,不切分,标注为nt。
例如:前天/nt 大前天/nt 头天/nt 上周/nt 上月/nt 下星期/nt但是中间加数词或量词时切开。
例如:前/nd几/m天/nt 上/nd半/m年/nt 上/nd 个/q月/nt 下/nd个/q 星期/nt [6] “点钟、分钟、秒钟、刻钟”不切分, 标注为nt:一/m点钟/nt 十/m秒钟/nt[7] “年间”不切分。
例如:乾隆/nhh 年间/nt 战乱/j 年间/nt[8] “年终、此间、公元前、前不久”均不切分,标注为nt。
[9] 十二生宵表示的年不切分,标注为nt。
例如:牛年/nt 虎年/nt[10] 以天干、地支表示的年不切分,标注为nt。
例如:甲午年/nt、庚子/nt、戊戌/nt[11] 二十四节气不切分,标注nt。
例如:春分/nt 惊蛰/nt[12] 数字与“:”或“-”结合在一起的表示具体时间的串,整体标注nt。
如:08:35:28/nt 2003-03-29/nt1.3 方位名词(nd)表示位置、时间、数的相对方向或范围的词语。
方位词分为单纯方位词和合成方位词两种,一般来说,方位词和名词组合后(方位结构),构成处所词或时间词。