现代汉语词量与分级

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3076 迷人
28
28 28 28 28 28 27
2374 杨志
2420 切斯特 2421 信客 2635 帕霍姆 2901 贾芸 2902 瑞恩 2903 王利发
1
1 1 1 1 1 1
50
49 49 45 41 41 41
3075 靠近
3079 往日 3078 炎热 3080 向往 3082 脸颊
从词表来考察“词汇量”
表名
现代汉语常用词 对外汉语教学词汇大纲 现代汉语词表 张氏词库 知网 中文词库 中文信息处理用词表 现代汉语常用词表
研制者
频率词典 国家汉办 刘源 张卫国 董振东 张潮生 孙茂松 课题组
词语数
8548 8822 71000 109000 81000 80000 120000 56008
《现代汉语规范词典》 中型语文词典
大中型百科词典
大型历时词典 大型历时词典 大型历时词典 大型历时词典
方言词与普通话词语的区分:
拇指 – 大拇指 – 大拇哥
行业词与普通话词语的区分:
• 招标、投标、竞标、发标、中标、得标 • 开标、唱标、流标、跑标、串标、围标
• 接听 • 主叫、被叫
新词语与普通话词语的区分
10195 10187 10186 10523 10576 10907 11211

噢 迷人 靠近 往日 炎热 向往 脸颊
3074
3073 3076 3075 3079 3078 3080 3082
3985
3986 3987 3988 3989 3991 3992 4110
3079
3073 3078 3080 3077 3075 3074 3082
7 595
28.24
368 696
306879
28400
10 460
36.83
10129
35.67
7 811
27.5
分布法
序号 词 文本数 27 27 27 27 频次数 28 28 序号 词
频次法
文本数 1 1 频次数 50 50 2372 麦秸 2373 水上漂
3068 平原 3074 逢
3073 噢
一、现代汉语的词汇量有多大? 1. 对词典的考察 2. 对词表的考察 3. 对大规模真实语料的考察
从词典来考察“词汇量”
1.《现代汉语词典》的词汇 • 规范型词典全面反映语言的词汇体系,就要对词 语作全面收录,不因某些词语无需查检而不收。 • 规范型词典对民族共同语词汇的记录是全面的, 但不是穷尽的(在理论上和实践上都是不可能 的)。《现汉》是一部中型词典,它在收词上既 是全面的,又有较强的选择性。选词的依据,主 要不是看查考的需要,而是看词语在语言使用中 出现的频率。
50567
56008/ 55600 430000
31032
结论:
• 没有一种词汇集具有完全的“认同度” ; 没有完整地包含它集或被它集所包含。 • 不同规模、不同性质、不同用途的词汇集 都有着自己“独收子”。 • 参与比较的词汇集愈多,交集愈小,交集 的“普遍性”愈突出。
三、划多少“级”合适?
拟建构“基本词集”: 第一级:3000条 第二级:8000条 第三级:30000条 第四级:60000 - 80000条
另有若干附属的专集
词级划分的参考因素:
1. 2. 3. 4. 5. 分布-分布率: 使用-频率-覆盖率: 基础、重要的语义成分: 服务对象、使用范围: 作用与功能
结论: • 广分布的词,并不等于高频词;高频率使 用词,不等于广分布的词 • 母语学习者与第二语言学习者的不同; • 基础教育学习者与社会使用者的不同;
4.文言词:《辞源》10万条,《汉语大词典》非 现代词。
《当代汉语词典》 《新华词典》
《辞海》
《汉语大词典》 《中文大辞典》 《汉和大辞典》 《韩汉大辞典》
中型语文词典 中型语文词典
52000 2001 50000 2005 80000 2005
120000 1999
370000 1994 430000 1962 400000 1960 450000 2008
时代
1986 1992 1984 1999 2005 2005 2007
2008 2008
83000 现代汉语语义分类词典 苏新春 一般的分词软件所带的词库容量:“10-15万”
从大规模真实语料来考察“词汇 量”
来源/规模 通用语料库
(4500万)
词语数
词种数
研制者
时间 2000
25万 120000 国家语委
2005年度(9亿)
165万 110000 语言资源中心
2006
2006年度(9.7亿)
260万 107000 语言资源中心
2007
结论: • 从对词典的考察来看,属普通话词汇的语 文词词量约6万左右。 • 从对词表和大规模真实语料来看,大概在810万左右。 • 确定词量的关键在普通话词汇与接壤词汇 之间如何划界。
27
27 27 27 27
3082 不免
27
27
2974 皮诺曹
1
40
分布法
词 文本_频次序 频次_文本序 使用度序 词
频次法
频次序 文本_频次序 使用度序
平原
3068
3876
3066 麦秸
2372 2373 2374 2420 2421 2635 2901
27479 27478 27477 27480 27481 27482 27483
普遍存在的词不等于使用中的高频词
四者的共有词 05年总词表(词频序号)
5000 10000
6522 15336
15000
20000 25000 30000
26569
41252 66115 171904
31032
1650049
普遍存在的词不等于使用中的高频词
基础教育3000基本词
05年总词表(词频序号)
《现代汉语语 83000条/77000 义分类词典》
50567
38329
《现代汉语常 用词表》
56008/55600
交集比较:
《现代汉 语词典》 现代汉语 语义分类 词典》 《现代汉 语常用词 表》 05\06\07 年度报告
63000/ 58000 83000/ 77000
45730 38329
• 频级:相同频次的为一级,由高到低排列。 • 共同频级:若干个库的频级相加/频级数 • 总频级 =(频级1+频级2+N)/频级数
• 语义分布法的测定(一般说的分布是 领域分布)
思考与练习
1. 如何来确定词量的范围?有那些常用的方 法? 2. 确定词量的难度是什么? 3. 确定词量有何意义?
• 在《现汉》的语文词周围存在一条宽阔的 接壤词汇带: 1.方言词:《现代汉语方言大词典》共41卷,收41
个方言点的词汇,平均每个点收词8000条,其总 数达30万条以上。《汉语方言大词典》20万条 2.术语词、行业词:数十个学科、行业,以每个 2000计,有数十万条。 3.新词语:近30年间,30000余条,每年约1000条。
晁继周、单耀海、韩敬体:《关于规范型词典的收词问题》,见 《〈现代汉语词典〉学术研讨会论文集》,商务印书馆,1996年版, 第70、72页。
• 《现汉》词条61000: -单字条10700(4000) -方言词2600 -科技术语60000*0.2=12000 -书语词3800 =31900 从严计算,32000-40000之间。
水上漂 杨志 切斯特 信客 帕霍姆 贾芸
瑞恩
王利发 皮诺曹
2902
2903 2974
27484
27485 27486
11212
11213 11264
不免
3082
4112
3081
分布法与频次分的对比分析
思考一: 频次统计法有相当的误导性。频统 计法只有在具有大致相当的分布情况 下才具有较好的参考性。
• 裸露、裸照、裸奔、裸泳、裸尸 • 裸戏、裸晒、裸聊、裸背、裸肩 /裸机、 裸眼 / 裸捐、裸退、裸官
ห้องสมุดไป่ตู้
书语词与古语词的区分:
古语词 书语词 登第、登科、及第 中性词 当选、中选、 入选 口语词 考取、考中
膺选
勖励、 勖勉
劬劳
激发、激励、激扬、 劝勉、勉励、 劝说、相劝、 鼓励、劝导 开解 嘉勉、砥砺、慰 勉 操劳 奔波、劳累 奔忙
1000
2000 3000
1742
5577 24542
四、词级划分依据的标准和方法
• • • • • • 频次法 分布法 频级法 使用率 使用度 语义分布
• 分布法与频率法的对比
四套教材词语状况:
共用 教材 分词单位 总数 词总数 词种 数 词种数 比例 % 部分共用 词种 数 比例% 独用 词种数 比例 %
频级法的使用
• 频级:在调查对象中相同频次的为一个频 级。 • 频级统计法:根据频级调查词语常用度的 一种调查方法。适用于大规模语料调查。 特别是对于立足于特性不一、容量差异明 显的多个语料库之间比较的大规模词汇统 计。通常有升序,降序等。
《现代汉语常用词表》的 词频序号使用的是频级法
• 由于词语的来源面比较宽,各种语料都有 自己的覆盖面与构成特点,词表中的词语 不能在每种语料中都得到全部显现。同一 个词语在不同语料库中的频次也可能相差 较大,因而不同语料库中的具体频次之间 缺乏严格的可比性。用频级统计则能较客 观地显示每个词语的使用情况。频级就是 同一语料库中的所有词语按频次数量的多 少排列时体现出来的排位顺序。相同频次 的为一个频级。
思考二: 使用度统计法能在一定程度上冲淡 频次信息的片面性,但它只适用于频 次与分布差别不大的现象适用。对频 次高分布窄的词语不能起到足够的校 正作用,因为频次畸高的因素仍会严 重影响到综合数值。
思考三:
词语的分布信息比频次信息有 更好的参考价值。 分布统计法能更准确地显示词 语的通用性、基础性、大众性。
二、现代汉语词汇包括哪些词种
• 那么在6-8万的普通话词汇范围中,包括了 哪些词语?试以下面三种为例: • 《现代汉语词典》(63000/58000) • 《现代汉语语义分类词典》(83000条/77000) • 《现代汉语常用词表》(56008/55600)
交集比较:
《现代汉语词 典》
63000/58000 45730
现代汉语词量与分级
思考
一、现代汉语的词量有多大? 二、包括哪些词语? 三、分几“级”合适?每级界限在哪? 四、词级划分依据的标准和方法?
当代最具影响力的两个常用词表:
《现代汉语频率词典》,8548条 《对外汉语教学词汇大纲》,8822条
• “语法、语音是有系统的,词汇是一盘 散沙。”
• 最初实践,对《现代汉语词典》的计 量研究
人教 版 苏教 版 北师 大版 语文 版
342 911
287096
24852
10 460
42.09
9276
37.32
5 116
20.59
261 997
219337
23180
10 460
45.12
8246
35.57
4 474
19.3
316 522
264280
26895
10 460
38.89
8840
32.87
近几年的实践:
• 《现代汉语常用词表》,商务印书馆,2008
年11月 • “对外汉语1500常用词”,见《中国语言生活 状况报告2006》,王铁琨主编,商务印书馆, 2007年8月。(收入国家汉办主编《国际汉语通 用课程教学大纲》外语教学与研究出版社,2008 年4月) • “基础教育3000基本词”,见《中国语言生活 状况报告2007》,王铁琨主编,商务印书馆, 2008年11月。
• 频级统计分两步施行。 • 第一步形成不同类型语料的频级:检测语料有 “通用语料库”、“人民日报”、“文学作品” 三种,这样每一个词语就有了三个不同的原始 频级。 • 第二步形成总语料的频级,就是将每个词语的 三种语料的频级之和除以三。 • 相同频级的词语,根据总频次的多少由高到低 排序,相同频次的根据读音的字母升序排列。
相关文档
最新文档