现代汉语常用词表
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
现代汉语常用词表(草案)
现代汉语常用词表(草案)
1.范围
本规范(草案)提出了现当代社会生活中比较稳定的、使用频率较高的汉语普通话常用词语 56 008个,形成《现代汉语常用词表》,给出了词语的词形。
本规范(草案)可供中小学语文教学、扫盲教育、汉语教育、中文信息处理和辞书编纂等方面参考、采用。
2.术语和定义
2.1 常用词
现代汉语普通话范畴中使用频率高、适用范围广的词语。
2.2 词形
本规范(草案)指词语的书写形式。
2.3 词频
在一定数量的语料中同一个词语出现的频度,一般用词语的出现次数或覆盖率来表示。
本规范(草案)指词语的出现次数。
2.4 频级
同一语料调查范围中词频数相同的为一个频级。
本词表频级统计分两步:第一步形成不同类型语料库的频级,即原始频级。
第二步形成总语料的频级,就是将几个原始频级之和再除以不同类型语料库的数目。
3.研制原则
3.1 词和语兼顾原则
本规范(草案)的词语收录,以单音节词和双音节词为主。
同时,根据语言使用的实际情况,也收录一些常用的缩略语、成语、惯用语等熟语,以及表达整体概念名称的其他固定短语。
3.2 系统性和实用性兼顾原则
本规范(草案)的词语收录,既注意词语的系统性,又注意词语在语用中的实用性。
如以表示季节为根词的一些词,全部收录它的加缀词“初春”“初冬”“初秋”“初夏”,但对于“‘晚’+季节”的词语,只收录“晚春”“晚秋”,未收录“晚冬”“晚夏”;对于“‘残’+季节”的词语,只收录“残冬”未收录“残春”“残秋”“残夏”。
4.《现代汉语常用词表》(草案)说明
4.1 本表研制过程中,收集词语同国家语委“现代汉语通用语料库”核心语料库、厦门大学的新词语语料库、《现代汉语规范词典》、《现代汉语词典》、《新华词典》等所收词语进行了比对,并查验了该词在人民网《人民日报》报系网页以及Google网简体中文网页、百度网等常用网页上的使用情况。
4.2本表用来检测词频的语料库有:国家语委“现代汉语通用语料库”中经分词标注的4 500万字语料、《人民日报》2001年~2005年约1.35亿字的分词标注语料和厦门大学的现当代文学作品语料库约7 000万字的语料。
总共2.5亿字。
4.3 本表共收录常用词语56 008个,包括单音节词3 181个,双音节词语40 351个,三音节词语6 459个,四音节词语5 855个,五音节和五音节以上词语162个。
表内条目按频级升序排列,频级相同的按汉语拼音音序排列。
4.4 本规范(草案)提供了《现代汉语常用词表》的音序索引,按汉语拼音音序排列,同音的条目按笔画数由少到多排列。
其中,词语的读音只供检索使用,不代表词语的读音规范。
(略)
附录
《现代汉语常用词表(草案)》音序索引
(略)
《现代汉语常用词表(草案)》研制报告
一研制背景
为给语文应用和有关政策的制定提供科学的词汇依据,积极服务于汉语规范化、推广普通话,积极服务于中小学语文教学、扫盲教育、汉语教育、中文信息处理和辞书编纂等工作,1998年7月国家语言文字工作委员会批准立项,成立《现代汉语通用词表》研制课题组。
该词表作为国家已经公布的《现代汉语通用字表》等的配套规范,是我国语言文字规范化、语文教育和研究方面的基本建设项目。
研制工作自1998年7月启动,于2001年年底完成并通过了专家鉴定。
鉴于5年来汉语词语发展变化很大,研究和统计手段又有很大提高,为把词表研制工作做得更加扎实完善,课题组希望对原词表进行修订。
2005年6月教育部语信司决定在原词表的基础上进行修订,此项工作由原课题组和新立项的《现代汉语通用词量与分级》课题组合作进行,共同研制一个常用词表。
根据5年来语言发展变化的情况和对词条增删调整,按新的统计处理方法确定其常用度并以此重新排序,使之能更真实地反映我国现代汉语词汇系统的概貌。
这次修订工作进行了一年半,主要是对词语作了较大规模的增删调整,并根据词频调查结果确定了使用频级。
修订的主体工作于2007年1月完成,之后又根据有关专家和部门的意见陆续作了增补和修改。
二研制过程
(一)初稿的形成
本词表初稿的研制工作,主要包含下列几方面的内容:
(1)搜集有关文献资料,研究前人制订各种词表的经验和教训;
(2)比较现有的、在社会上影响较大的辞书的词目,并研究它们的取舍标准;
(3)进行社会调查,了解群众使用汉语词汇的具体情况;
(4)在把《现代汉语规范词典》开编时的词目和其他10多本词典、词表进行对比后进行增删的基础上,用山西大学和清华大学计算机中心所储存的语料进行词汇覆盖率的检验。
对条目的增删,除了利用计算机之外,还进行了人工干预,逐条审核。
通过以上工作,形成了总词目为61 000多个的“词表”。
2000年2月26日在北京经专家鉴定通过。
鉴定委员有陆俭明、陈章太、曹先擢、常宝儒、刘庆隆、林杏光和苏培成,由苏培成主持。
(二)词表的修订
2005年春天,为了加快词表研制工作的进度和提高质量,在教育部语言文字信息管理司的组织下,研制组联合苏新春主持的“现代汉语通用词量与分级”课题组对原词表作了修订并再次进行词频统计工作。
将“词表”同国家语委研制的“通用语料库”的核心语料库所收词语进行比对。
核心语料库约有15万多个词语,除去专有名词、行业词语、人名、地名等以外,语文类词语约10万个。
将“词表”同这10万个词语进行逐一比对,按照常用词表既定的收录原则逐条筛选。
在审慎分析各词语在通用语料库中词频的基础上,考察社会语文生活中的实际使用情况,经过人工干预增选出约4 000多个词语。
将“词表”同《现代汉语规范词典》、《现代汉语词典》(第5版)、《新华词典》等所收词语进一步比对。
排除其中的方言词语、专有名词、行业词语以及现代语文生活中存活率或使用率明显偏低的文言词语,再按照常用词表既定的收录原则进行审核,增补了500多个词语。
将“词表”同新词语语料库所收新词语进行比对。
利用厦门大学研制的新词语语料库,按照课题组既定的收录原则进行筛选,经现代汉语通用语料库检测,增补了1 000余个词语。
至此,“词表”的词语收录总数扩展到了66 000多个。
对“词表”词语进行综合审读,必要时查验了该词在人民网《人民日报》报系网页以及Google网简体中文网页、百度网等常用网页上的使用情况,作了再次调整(主要是删除尚不具备本表所界定的“常用”规格的词语),另外也考虑到作为常用性词表的词,不宜象一般词典那样因语音或语法的细小差异而将词目作过细的区分。
后来在送专家和有关部门审读中,又根据审读意见陆续作了调整和删减。
最终形成的《现代汉语常用词表》,收录词语共56 008个。
1[1]包括单音节词3 181个,双音节词语40 351个,三音节词语6 459个,四音节词语5 855个,五音节和五音节以上词语162个。
调查所有词语的使用频次。
用来检测词频的语料库有三种:第一种是国家语委主持研制的“通用语料库”中经分词标注的4 500万字语料。
第二种是《人民日报》2001年~2005年约1.35亿字的分词标注语料。
第三种是厦门大学研制的现当代文学作品语料库,约7 000万字的语料。
总共2.5亿字。
以上三种语料均作有分词与标注,从中获得词频数据。
对以下两种情况作了人工检测。
第一种是分词后在该语料中没有出现的词语。
做法是将被检词放到未作分词标注的原始语料中以查检字符串的方式调出所有用例进行人工甄别,从而避免原始语料中有词却因软件分词而消失了。
在查检时对数量大的语例则用随机抽样的方法抽检。
第二种是同形词。
对同形异义词在实际语例中进行人工干预,区分意义,分别统计词频。
三研制原则和方法
(一)收词原则
本词表所称的“常用词”是指以汉语为母语的中等文化程度的人,在社会语文生活中经常见到和使用的现代汉语普通话词语。
本词表要求给现当代社会语文生活中通用的、稳定性较强、使用频率较高的汉语普通话词语划出一个范围,作为现代汉语词汇系统的基干部分,从而为语言应用和有关语言文字政策的制订提供科学的词汇依据。
在研制中,既注重了书面词语的收集,也兼顾了常用口语词语的考察,还适当收了一些在现代社会大众传媒中时有出现,跟语文生活有所关联的行业性、历史性词语。
至于更专业些的词语将另行研制,作为《现代汉语常用词表》的附表。
本词表以收录单音节词和双音节词为主。
同时,根据语言交际实际也收录一些使用频率明显较高的缩略语、成语、惯用语等熟语,以及表达整体概念名称的其他固定短语。
1.鉴于汉语词语本身在缩略、扩展、拆用,以及跟别的词语组合成新的固定语等方面的灵活性和复杂情况,本词表的词语筛选还贯彻了以下规则:
(1)对于带有词根性质的词语(如“群众化”“群众性”中的“群众”)和它们的扩展词形、组合短语,从词语构成的能产性考虑,优先收录带有词根性
质的词语,对它们的扩展词形或组合短语,根据实际使用频度和规范状况等有选择地收录,原则上双音节者适当从宽,三音节及其以上者适度从严。
(2)对于简缩词语或简称和它们的原形词语,根据实际使用频度和规范状况等做出不同的选择。
如:“安理会”“安全理事会”“联合国安全理事会”,收录“安理会”,而不再收录“安全理事会”和“联合国安全理事会”;“福利彩票”和“福彩”,收录“福利彩票”,而不收录“福彩”。
(3)可以拆用的四字以上的固定语(多是八字熟语),原则上收录其完整式,而不分别收录拆用式。
如:收录“种瓜得瓜,种豆得豆”,不分别收录“种瓜得瓜”和“种豆得豆”。
(4)经常出现的双音节结构,如果其中一个组成语素在现代汉语中基本不单用,则把该结构视为词加以收录,如“乌云、李子、鲫鱼、松树”等;如果该结构中有一个成分的意义已经虚化,也视为词加以收录,如“达到、酿成、成为、致以、觉得”等。
2.鉴于本词表的研制目的和使用价值,对于确实存活在社会语文生活中、但较为特殊的几类词语,采用以下处理办法:
(1)人名。
原则上不予收录,但有比喻、借代等引申意义的,适当收录其中稳定而高频的。
如“阿Q”“诸葛亮”等。
(2)地名。
原则上不予收录,但收录使用频率相对较高的我国各省(及其省会)、自治区(及其首府)、直辖市名称,以及它们常用的别称或简称。
(3)国名。
只收录我国周边国家以及在社会语文生活中出现频率明显较高的一些国家和城市的名称。
(4)我国各历史朝代名称。
只收录历史上影响较大、在现当代社会语文生活中出现频率明显较高的朝代名称。
(5)党、国家、社会团体和企事业各机构的名称,以及这些机构的领导职务的名称。
原则上不予收录,但在现当代社会语文生活中明显稳定而高频的“支部”、有着明确比喻意义的“班长”等,则予以收录。
本词表的词语收录,既注意词语的系统性,又注意词语在语用中的实用性。
如以表示季节为根词的一些词,全部收录它的加缀词“初春”“初冬”“初秋”“初夏”,但对于“晚+季节”的词语,只收录“晚春”“晚秋”未收录“晚冬”“晚夏”;对于“残+季节”的词语,只收录“残冬”未收录“残春”“残秋”“残夏”。
总之,在词语收录的具体操作中,尽量处理好词语的系统性和词语的常用性的相互关系,特别注意词频的高低,一切从语言使用实际出发。
本词表的词语收录,既充分尊重社会语文生活的客观实际,又严格控制不符合规范以及格调低俗的词语,切实起到促进社会语文生活向着规范、文明方向发展的积极作用。
本词表所收录的词语,在用字上基本涵盖了《现代汉语常用字表》中的全部汉字,不超出《现代汉语通用字表》的范围。
凡是独立成词的字,列出单音节词;不能独立成词的字,收录于复音词中。
单音节词条中包括了某些只作常用姓氏的字,如“邓”。
(二)根据“词频频级排序法”确定词语的使用频度顺序
本词表确定词语的使用频度顺序使用的是“词频频级排序法”。
由于词语的来源面比较宽,各种语料都有自己的覆盖面与构成特点,词表中的词语不能在每种语料中都得到全部显现。
同一个词语在不同语料库中的频次也可能相差较大,因而不同语料库中的具体频次之间缺乏严格的可比性。
用频级统计则能较客观地显示每个词语的使用情况。
频级排序法就是同一语料库中所有词语按频次数的多少进行的一种排序方法。
相同频次的为一个频级。
频级统计分两步施行。
第一步形成不同类型语料的频级。
检测语料有“通用语料库”、“人民日报”、“文学作品”三种,这样每一个词语就有了三个不同的原始频级。
第二步形成总语料的频级,就是将每个词语的三种语料的频级之和除以三。
总语料的频级共有2 969级,1级为最高,2 969级为最低。
同一频级的词语最多有1 781条,最少的只有1条词语。
相同频级的词语,根据总频次的多少由高到低排序,相同频次的根据读音按字母升序排列。
四研制的内容
本词表包括“频级序号”“词语”等内容。
“频级序号”是根据“频级统计法”排序,其方法详见上文。
由于“频级统计法”是根据一个词在三个语料库中的平均频级来决定的,那些总频次相同或相近的词,如果在三个库中分布不匀等,则在“频级”的排名上会稍显排后。
(一)用字
词表使用的汉字总数为5 144个,涵盖了《现代汉语常用字表》的所有有构词能力的字,并均在《现代汉语通用字表》的用字范围。
词表全部使用规范汉字,即符合《第一批异体字整理表》(1955年12月22日中华人民共和国文化部、中国文字改革委员会发布)、《简化字总表》(1986年10月10日经国务院批准国家语言文字工作委员会重新发表)、《现代汉语常用字表》(1988年1月26日国家语言文字工作委员会、国家教育委员会发布)、《现代汉语通用字表》(1988年3月25日国家语言文字工作委员会、中华人民共和国新闻出版署发布)的规定。
(二)词形
全部词语使用规范词形。
对于异形词,执行《第一批异形词整理表》(GF 1001—2001中华人民共和国教育部、国家语言文字工作委员会2001年12月19日发布)的规定。
对一些仍在使用且有一定使用频率的异形词,则附列在正形词后并用括号表示。
在条件成熟时将再进行“附表”的研制。
计划中的“附表”包括五部分:(a)常用科技词表;(b)常用方言词(实为方源词)表;(c)常用人名、地名表;(d)常用文言词表;(e)常用字母词表。
考虑到字母开头的词语(习惯上称之为“字母词”)在社会语文生活中使用虽较频繁,但多数尚不够稳定,语言学界的认识也不一致,所以本词表没有收录这类词语,将在日后把这类词语列为附表。
五相关资料
研制单位:《现代汉语规范词典》编委会
厦门大学中文系
研制人:
前期研制人员
负责人:李行健
参加成员:陈松岑、季恒铨、余志鸿、谢自立、张卫国、郑宝倩、孙茂松(兼计算机工作)、程荣、叶根祥、刘开瑛(计算机工作)
后期修订人员
负责人:李行健、苏新春
参加成员:季恒铨、余志鸿、钮葆、朱振平、程国甡、徐婷、刘扬涛、钟安妮、李连伟
学术顾问:胡明扬、曹先擢、傅永和
本词表立项研制过程中,始终得到教育部国家语委的支持。
许嘉璐、陈章太、陆俭明、徐通锵、苏培成、韩敬体、晁继周、黄昌宁、李宇明、王铁琨等同志先后参加过制定“词表”的研讨会,给制定工作很多指导和帮助;商务印书馆、语文出版社、外语教学与研究出版社等单位也给予了支持和协助;责编余桂林同志做了不少不可或缺的工作。
在本词表出版之际,谨向上述同志和单位表示衷心的感谢!
《现代汉语常用词表》课题组 2008年6月24日。