汉字概说-02汉字结构分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
31
22 1
43
28 1
22
16 0
43
28 1
4
4 3
3134
4153 534
3.5.2 部件统计分析
各个等级新部件数及平均构字数 甲级 汉字数 部件总数 800/800 385 乙级 804/1604 466 81 2.89 丙级 601/2205 490 24 1.96 丁级 700/2905 515 25 1.32
独体
一层
二层
三层
四层
五层
六层
20902 字
351
3495
8531
6283
1981
250
11
1.68
16.72
40.81
30.06
9.48
1.20
0.05
3500 字
187
982
1530
681
116
4
5.34
28.06
43.71
19.46
3.31
0.11
3.4.3 汉字的构造
3500常用汉字的结构形式也有429种 结构类型 a(X/b(X//X)) a(X/X) b(X/X) m(X) a(X/a(X//X)) a(X/b(b(X///X)//X)) b(b(X//X)/X) b(a(X//X)/X) b(X/b(X//X)) a(b(X//X)/X) 字数 532 499 316 187 83 82 80 79 76 65 比例 15.20 14.26 9.03 5.34 2.37 2.34 2.29 2.26 2.17 1.86 例字 临 亿 亲 万 仰 校 量 丛
包:饱抱跑炮胞袍泡雹刨
旦:查但担胆量坦昼 反:板饭版返扳贩叛 寺:持等特待诗侍 仓:创枪抢苍舱疮
羽:翻翅扇翘翁翠翔翼
每:海悔梅霉敏侮酶 比:批毕昆屁毙皆鹿 兑:说脱锐阅税悦 余:除途涂斜叙徐
构字能力不强的成字合成部件
阿: 啊 别:捌 畜:蓄 董: 懂 阁:搁 会:绘 觉:搅 孔:吼 老:姥 率:摔 艾:哎 宾: 滨 春: 蠢 对:树 姑: 菇 惠: 穗 皆: 谐 库: 裤 雷: 蕾 买: 卖 罢:摆 查: 渣 存: 荐 盾:循 故: 做 昏: 婚 景: 影 快: 筷 历: 沥 冒: 帽 百:陌 察:擦 呆:保 伐:阀 贯:惯 活:阔 敬:警 狂:逛 厉:励 美:镁 般:搬 尝: 偿 带: 滞 伏:袱 郭: 廓 击: 陆 聚: 骤 困: 捆 廉: 镰 蒙: 檬 保:堡 呈: 程 岛: 捣 负:赖 何: 荷 疾: 嫉 考: 烤 拉: 啦 六: 交 孟: 猛 备:惫 乘: 剩 到: 倒 复:腹 华: 哗 间: 简 克: 兢 赖: 懒 隆: 窿 迷: 谜 崩:蹦 充:统 吊:常 感:憾 黄:横 贱:溅 客:额 览:揽 路:露 敏:繁 便:鞭 臭:嗅 定:淀 哥:歌 回:徊 将:蒋 肯:啃 郎:廊 虑:滤 名:铭
汉字基础部件的数量
• “规范”规定了GB 13000. 1字符集中的基础部件393组,包括主形部件和变 体部件共560个;
• 我们采用同样的方法对4868个“语料库汉字”基础部件共有440个; • “3500常用字” 基础部件共有429个。 • 即将颁布的现代汉语常用字部件规范,基础部件507个。 • HSK汉字515。
义符:汉字中表义的部分,(表形、表义两部分,王宁,2002)
记号:不标示声音和意义的符号,(“标示”和“记号”,王宁,2002)
康熙部首(214)
现代汉语词典(201)
2.3 汉字部件
汉字部件(Chinese character component)是由笔画组成的具有组 配汉字功能的构字单位(引自《信息处理用GB13000.1字符集汉字部件 规范》)。 信息处理、心理学、语言教学不约而同。
框架结构 左中右结构
上中下结构 独体结构
17 14
36 187
0.49 0.40
1.03 5.34
40 53
153 351
0.19 0.25
0.73 1.68
承乘噩爽巫 街班掰辩衢
曼率衰爱器 大由人九土
部件归组
部件归组
汉字基本结构图式
2.4.2 汉字的结构层次
三、汉字的字形特征:构造-层次
(1)独体汉字,例如:“不、丏、丐、丑、专、且、世”等。 (2)一层汉字, “他”—— a(亻/也)、“圣”—— b(又/土) (3)二层汉字, “架”—— b(a(力//口)/木) “辞”—— a(b(千//口)/b(立//十)) (4)三层汉字, “督”—— b(a(b(上///小)//又)/目) (5)四层汉字, “蘑”—— b(艹/d(d(广///a(木////木))//石)) ( 6 )五层汉字, “藻”—— b (艹 /a (氵 //b ( b (口 ////a (口 ///// 口)) // 木) )
构 字 数
6 4
直接 构字
构字 次数
构 字 数
7 5
直 接 构 字 3 3
构 字 次 数 7 5
笔 画 数
笔画 序列
而 1 尔 3
1 1
2 2
4 3
2 2
4 3
3 2
6 4
6 5
132522 35234
耳 2
二 1 发 1 凡 2 0
4
2 1 1 4
3
1 0 0 1
4
2 1 1 4
9
2 2 5 7
6
类型:
• 单笔部件(如“一”、“乙”等)和复笔部件(如“士”、“重”等);
• 成字部件(如“吉”中的“口”和“河”中的“可”)和非成字部件 (如“同”中的“冂”和“病”中的“疒”); • 基础部件(也叫“单纯部件”或“末级部件”,如“男”中的“田”和 “力”)和合成部件(如“想”中的“相”)。 可能还会有很多的类型,这是我们认识的深入: 表音部件、表义部件 规则部件、不规则部件等
部件的特点
部件不同于部首,数量多一些,有些部件,并不是部首, 部件存在于不同层次;“箱”可以拆分为5个不同部件; 部件可以成字也可以不成字; 部件有不同来源;月:“肉”和“月” 部件可以归组;心、忄
部件在构字中可以变形,比如拉长、缩短、拆开(“衷”)、错位 (比如“颖”、"旗",从“㫃yan3”,其声)等
100 782866 .4214
500 1439352 .7748
1000 1681228 .9050
2000 1817047 .9781
3000 1848648 .9951
4000 1856226 .9992
4868 1857660 1.0000
汉语好学吗?
《中国语言生活状况报告》对 15 家 平面媒体、 13 家电视台、 3 家网络媒体共计 89 万 多个文本文件进行了调查,共计9亿多字次,包括 标点、符号及字母、数字等,其中汉字出现7亿多 字次。调查显示,媒体共用的汉字是 8225个,平 面媒体、有声媒体和网络媒体共用的汉字是 5607 个。 581 个汉字可覆盖语料的 80 %,也就是只要 你认识前 581 个字,就可以读懂媒体文字的 80 %。 当覆盖率达到 90 %的时候只需要 934 个字。当覆 盖率达到99%的时候需要2315个字。
构字能力强的成字合成部件
者:都猪堵暑绪煮著署睹赌奢屠诸 肖:消悄稍俏哨削宵梢捎销屑 古:姑故克苦估固胡居辜枯 莫:摸模漠慕寞墓幕膜暮 青:睛精静清晴情请猜蜻 合:答给哈拿拾盒鸽恰洽 分:扮吩纷粉份盼盆氛贫掰颁岔芬 令:冷零领怜邻龄铃玲伶岭 辛:辟瓣辩辞辜辣辨辫锌宰 占:点店站贴粘战钻沾帖 交:饺较校郊效咬胶狡绞 各:客路胳格略骆络阁赂
甲级 数量 比例(%) 151 52.98
乙级 69 24.21
丙级 30 10.53
丁级 35 12.28
合计 285 100.00
占该等级 字的比例 ( %)
18.88
8.58
4.99
5.00
9.81
成字部件还应该包括不是基础部件的成字部件,例如“辛”被 拆分为“立十”,因此,“辛”不在基础部件中,但是“辛”是可以 构字的,在全部2095个汉字中,共有10个汉字“辟、宰、锌、辫、 ”,共出现 14次。我们把这样的部件叫做“合成成字部件”。我们对合成成字部 件进行了统计,具体统计数据见下表。
1 1 1 1
9
2 2 5 7
15
2 4 5 9
7
1 3 1 1
15
2 4 5 9
21
4 4 6 12
13
2 3 2 1
21
4 4 6 12
6
2 5 3 2
122111
11 53544 354 33
攵 0
方 1 飞 1
11
8 1
9
6 0
11
8 1
26
18 1
16
11 0
26
18 1
31
22 1
18
13 0
2.2 汉字笔画趋简率
字集 常用字 语料库用 字 4868 10.21 6763汉字 通用字 辞海 20902汉字
字数
平均笔画
ห้องสมุดไป่ตู้3500
9.74
6763
10.67
7000
10.75
11834
11.55
20902
12.85
字数 平均笔画
10 5.20
50 5.86
100 6.29
500 7.18
1000 7.92
86
87 88 89
村
错 答 打
cun1
cuo4 da2 da3
1
1 1 1
2
3 4 2
a
a b a
木
钅
寸
昔 合
木寸
人一口 扌丁
0 0
扌
丁
表2 “汉字大纲等级汉字”基础部件数据库样例
甲级 部 成 件 字 甲乙级 构字 次数 构字 数 直接 构字 构字 次数 甲乙丙级 甲乙丙丁级
构 字 数
2 2
直接 构字
三、汉字的字形特征:构造-结构
2.4 汉字的构造
2.4.1 汉字的结构类型
汉字首层结构比例表
结构类型 左右结构 上下结构 右上包围结构 左上包围结构 左下包围结构 上三包围结构 下三包围结构 左三包围结构 全包围结构 常用字 2047 877 35 136 88 35 4 8 16 比例(%) 58.49 25.06 1.00 3.89 2.51 1.00 0.11 0.23 0.46 20902汉字 14538 4237 113 631 458 212 7 40 69 比例(%) 69.55 20.27 0.54 3.02 2.19 1.01 0.03 0.19 0.33 例字 形保矿凯朝 是贸然药想 句匀可氧习 厄压病屎居 这延翘韪勉 问向同甩风 凶画击函幽 匡匣匿匠叵 国固囱回团
等 级
1 1 1 1 1 1 1 1
部件 数
2 2 2 3 4 2 2 2
结 构
b d a a a a a a
部件 1
穴 广 口 石 石 讠 冫 人
部件 2
囱 木 欠 焦 兹 司 欠 人
部 件3
部件序列 穴囱 广木 口欠 石隹灬
直接构 字数
0 0 0 0 0
例字
讠司 冫欠 人人
0 6 6 0 0 资盗瓷 丛纵
前5种的总比例 48.8%
部件
亻乙 立朩 万 木亠八乂 日一里 人人一
客
乱
宀夂口
千口乚
2.5 HSK汉字部件统计分析
2.5.1 汉字部件数据库 表1 “汉字大纲等级汉字”汉字拆分数据库样例
序号 78 79 80 81 82 83 84 85 汉字 窗 床 吹 礁 磁 词 次 从 字音 Chuang1 Chuang2 chui1 jiao1 ci2 ci2 ci4 cong1
2000 8.85
3000 9.44
4000 9.94
4868 10.2 1
相关概念
部首:许慎在《说文解字》形旁相同的字归在一起,称为部,每部把共同所 从的形旁字列在开头,这个字就称为部首,所以部首本身也是独立的汉字。 如木、杜、李等字都属木部,木就是部首。自许慎创立以形旁编排文字的方 法以后,这种方法千百年来一直为编纂字书的人所采用,只是分部的多寡有 所不同。如《说文解字》分为 540 部,《康熙字典》分为 214部,《新华字 典》分为189部,《现代汉语词典》201部首。 偏旁:合体字的组成部分叫“偏旁”,有的叫左偏,右旁,不准确。 部件:汉字部件( Chinese character component )是由笔画组成的具有组 配汉字功能的构字单位,现代汉语研究和教学的重要概念。 声旁:形声字中标音的部分。 形旁:形声字中表义的部分。 声符:汉字中表示声音的部分。
新部件数量 385 新部件平均 18.27 构字数
全部515个基础部件中,可以在2095个“水平汉字等级汉字”中独立成字的 部件共有285个,例如“末、卵、隶、兼、甲、谷、弓、甘、尔、丁”等,我们 把这类部件叫做“基础成字部件”,基础成字部件占全部基础部件的55.34%。
各个等级基础成字部件数及比例
各个等级合成成字部件数及比例 甲级 数量 占该等级 字的比例 ( %) 170 21.25 乙级 103 26.82 12.81 丙级 56 14.58 9.32 丁级 55 14.32 7.86 合计 384 100.00 13.22
二、汉字字形特征分析
2、1 汉字的使用
周有光(1992) 总字数 覆盖率 欠缺率 1000 90.000% 10.000% 2400 99.000% 1.000% 3800 99.900% 0.100% 5200 99.990% 0.010% 6600 99.999% 0.001%
字数 字次 复盖率