汉语常用词表(部分)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
现代汉语常用词表(草案)
1.范围
本规范(草案)提出了现当代社会生活中比较稳定的、使用频率较高的汉语普通话常用词语 56 008个,形成《现代汉语常用词表》,给出了词语的词形。
本规范(草案)可供中小学语文教学、扫盲教育、汉语教育、中文信息处理和辞书编纂等方面参考、采用。
2.术语和定义
2.1 常用词
现代汉语普通话范畴中使用频率高、适用范围广的词语。
2.2 词形
本规范(草案)指词语的书写形式。
2.3 词频
在一定数量的语料中同一个词语出现的频度,一般用词语的出现次数或覆盖率来表示。本规范(草案)指词语的出现次数。
2.4 频级
同一语料调查范围中词频数相同的为一个频级。本词表频级统计分两步:第一步形成不同类型语料库的频级,即原始频级。第二步形成总语料的频级,就是将几个原始频级之和再除以不同类型语料库的数目。
3.研制原则
3.1 词和语兼顾原则
本规范(草案)的词语收录,以单音节词和双音节词为主。同时,根据语言使用的实际情况,也收录一些常用的缩略语、成语、惯用语等熟语,以及表达整体概念名称的其他固定短语。
3.2 系统性和实用性兼顾原则
本规范(草案)的词语收录,既注意词语的系统性,又注意词语在语用中的实用性。如以表示季节为根词的一些词,全部收录它的加缀词“初春”“初冬”“初秋”“初夏”,但对于“‘晚’+季节”的词语,只收录“晚春”“晚秋”,未收录“晚冬”“晚夏”;对于“‘残’+季节”的词语,只收录“残冬”未收录“残春”“残秋”“残夏”。
4.《现代汉语常用词表》(草案)说明
4.1 本表研制过程中,收集词语同国家语委“现代汉语通用语料库”核心语料库、厦门大学的新词语语料库、《现代汉语规范词典》、《现代汉语词典》、《新华词典》等所收词语进行了比对,并查验了该词在人民网《人民日报》报系网页以及Google网简体中文网页、百度网等常用网页上的使用情况。
4.2本表用来检测词频的语料库有:国家语委“现代汉语通用语料库”中经分词标注的4 500万字语料、《人民日报》2001年~2005年约1.35亿字的分词标注语料和厦门大学的现当代文学作品语料库约7 000万字的语料。总共2.5亿字。
4.3 本表共收录常用词语56 008个,包括单音节词3 181个,双音节词语40 351个,三音节词语6 459个,四音节词语5 855个,五音节和五音节以上词语162个。表内条目按频级升序排列,频级相同的按汉语拼音音序排列。
4.4 本规范(草案)提供了《现代汉语常用词表》的音序索引,按汉语拼音音序排列,同音的条目按笔画数由少到多排列。其中,词语的读音只供检索使用,不代表词语的读音规范。
现代汉语常用词表(草案)
(略)
附录
《现代汉语常用词表(草案)》音序索引
(略)
《现代汉语常用词表(草案)》研制报告
一研制背景
为给语文应用和有关政策的制定提供科学的词汇依据,积极服务于汉语规范化、推广普通话,积极服务于中小学语文教学、扫盲教育、汉语教育、中文信息处理和辞书编纂等工作,1998年7月国家语言文字工作委员会批准立项,成立《现代汉语通用词表》研制课题组。该词表作为国家已经公布的《现代汉语通用字表》等的配套规范,是我国语言文字规范化、语文教育和研究方面的基本建设项目。研制工作自1998年7月启动,于2001年年底完成并通过了专家鉴定。
鉴于5年来汉语词语发展变化很大,研究和统计手段又有很大提高,为把词表研制工作做得更加扎实完善,课题组希望对原词表进行修订。2005年6月教育部语信司决定在原词表的基础上进行修订,此项工作由原课题组和新立项的
《现代汉语通用词量与分级》课题组合作进行,共同研制一个常用词表。根据5年来语言发展变化的情况和对词条增删调整,按新的统计处理方法确定其常用度并以此重新排序,使之能更真实地反映我国现代汉语词汇系统的概貌。这次修订工作进行了一年半,主要是对词语作了较大规模的增删调整,并根据词频调查结果确定了使用频级。修订的主体工作于2007年1月完成,之后又根据有关专家和部门的意见陆续作了增补和修改。
二研制过程
(一)初稿的形成
本词表初稿的研制工作,主要包含下列几方面的内容:
(1)搜集有关文献资料,研究前人制订各种词表的经验和教训;
(2)比较现有的、在社会上影响较大的辞书的词目,并研究它们的取舍标准;
(3)进行社会调查,了解群众使用汉语词汇的具体情况;
(4)在把《现代汉语规范词典》开编时的词目和其他10多本词典、词表进行对比后进行增删的基础上,用山西大学和清华大学计算机中心所储存的语料进行词汇覆盖率的检验。
对条目的增删,除了利用计算机之外,还进行了人工干预,逐条审核。
通过以上工作,形成了总词目为61 000多个的“词表”。2000年2月26日在北京经专家鉴定通过。鉴定委员有陆俭明、陈章太、曹先擢、常宝儒、刘庆隆、林杏光和苏培成,由苏培成主持。
(二)词表的修订
2005年春天,为了加快词表研制工作的进度和提高质量,在教育部语言文字信息管理司的组织下,研制组联合苏新春主持的“现代汉语通用词量与分级”课题组对原词表作了修订并再次进行词频统计工作。
将“词表”同国家语委研制的“通用语料库”的核心语料库所收词语进行比对。核心语料库约有15万多个词语,除去专有名词、行业词语、人名、地名等以外,语文类词语约10万个。将“词表”同这10万个词语进行逐一比对,按照常用词表既定的收录原则逐条筛选。在审慎分析各词语在通用语料库中词频的基础上,考察社会语文生活中的实际使用情况,经过人工干预增选出约4 000多个词语。
将“词表”同《现代汉语规范词典》、《现代汉语词典》(第5版)、《新华词典》等所收词语进一步比对。排除其中的方言词语、专有名词、行业词语以及现代语文生活中存活率或使用率明显偏低的文言词语,再按照常用词表既定的收录原则进行审核,增补了500多个词语。
将“词表”同新词语语料库所收新词语进行比对。利用厦门大学研制的新词语语料库,按照课题组既定的收录原则进行筛选,经现代汉语通用语料库检测,增补了1 000余个词语。至此,“词表”的词语收录总数扩展到了66 000多个。
对“词表”词语进行综合审读,必要时查验了该词在人民网《人民日报》报系网页以及Google网简体中文网页、百度网等常用网页上的使用情况,作了再次调整(主要是删除尚不具备本表所界定的“常用”规格的词语),另外也考虑到作为常用性词表的词,不宜象一般词典那样因语音或语法的细小差异而将词目作过细的区分。后来在送专家和有关部门审读中,又根据审读意见陆续作了调整和删减。
最终形成的《现代汉语常用词表》,收录词语共56 008个。1[1]包括单音节词3 181个,双音节词语40 351个,三音节词语6 459个,四音节词语5 855个,五音节和五音节以上词语162个。
调查所有词语的使用频次。用来检测词频的语料库有三种:第一种是国家语委主持研制的“通用语料库”中经分词标注的4 500万字语料。第二种是《人民日报》2001年~2005年约1.35亿字的分词标注语料。第三种是厦门大学研制的现当代文学作品语料库,约7 000万字的语料。总共2.5亿字。以上三种语料均作有分词与标注,从中获得词频数据。对以下两种情况作了人工检测。第一种是分词后在该语料中没有出现的词语。做法是将被检词放到未作分词标注的原始语料中以查检字符串的方式调出所有用例进行人工甄别,从而避免原始语料中有词却因软件分词而消失了。在查检时对数量大的语例则用随机抽样的方法抽检。第二种是同形词。对同形异义词在实际语例中进行人工干预,区分意义,分别统计词频。
三研制原则和方法
(一)收词原则
本词表所称的“常用词”是指以汉语为母语的中等文化程度的人,在社会语文生活中经常见到和使用的现代汉语普通话词语。本词表要求给现当代社会语文