小学语文教材用字基础部件统计分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
XING Hongbing , SHU Hua
Abstract: This research examined the Chinese characters used in a Chinese textbook series for primary schools mainly on the total number , usage and distribution of all characters across different levels. Then the basicห้องสมุดไป่ตู้components of all characters in the book series was analyzed so as to build a basic component list of Chinese characters for primary school use. The results show that most basic components have high productivity and can stand alone as self2 expressive characters. This part of basic components are learned at Grade One or Grade Two. From Grade Three onwards , in most cases , combinations of learned components other than new components can be found in textbooks.
(二) 汉字的拆分 我们参照“基础教学用现代汉语常用字部件规范”的拆分原则 ,并进行适当调整 。最后的 拆分原则包括 : (1) 字形结构符合理据的 ,按理据进行拆分 。例如 “: 分”拆分为“八”“刀”“; 相” 拆分为“木”“目”。(2) 按理据拆分时 ,属于层次结构的 ,依层次拆分 ;属于平面结构的 ,一次性 拆分 。例如 “: 想”属于层次结构 ,第一层拆分为“相”“心”,第二层“相”拆分为“木”“目”“; 暴”属 于平面结构 ,一次性拆分为“日”“ ”“八”“ ”。(3) 无法分析理据或形与源矛盾的 ,依形进行 拆分 。例如 “: 朋”拆分为“月”“月”“; 执”拆分为“扌”“丸”。(4) 交重不拆 ,极少数不影响结构和 笔数的笔画搭挂可拆 。例如 “: 串”属于交重结构 ,不可拆分为“中”“中”“; 东”属于交重结构 ,不 可拆分为“七”“小”“; 孝”属于笔画搭挂 ,可以拆分为“ ”“子”。(5) 拆开后的各部分均为非字 部件或均不再构成其他汉字的 ,即使是相离或相接 ,也不拆分 。例如 “: 隶”不可拆分为“ ” “ ”“; 非”不可拆分为“ ”“ ”。(6) 因为构字造成独体字部件相离的 ,拆分后仍将相离部分 合一 ,保留独体字的原形 。例如 “: 裹”拆分为“衣”“果”,不拆分为“亠”“果”“ ”“; 乘”拆分为 “禾”“北”,不拆分为“禾”“ ”“匕”。按照上述原则 ,我们对 3306 个汉字进行了拆分基础部件 序列 。例如“鼻”拆分为“自 、田 、丌”“; 避”的基础部件就是“尸口立十辶”。 (三)“教材用字”拆分数据库 1.“教材用字”基础部件拆分数据库 “教材用字”拆分数据库的主要数椐包括 :汉字字形 、汉字读音 、汉字笔画数 、汉字部件数 、 汉字结构类型代码 、汉字首层拆分结果 、汉字基础部件序列等 (数据库中部分汉字的信息示例 见附录 2) 。 21“教材用字”基础部件数据库 第二个数据库是“基础部件数据库”,这个数据库是从“教材用字”拆分数据库中生成的 ,相 关的数据也是从汉字数据库中统计出来的 。全部的 3306 个汉字拆分出来的基础部件共 506 个 ,因此这个数据库共有 506 个记录 ,这个数据库包含的信息有 :汉字基础部件 ;能否成字以及 成字时的年级 ,例如部件“口”是可以独立成字的 ,而且是在一年级就独立成字 ,因此我们在“成 字年级”上标注“1”;各个年级的构字数 ,比如部件“口”一共构成了 534 个汉字 ,其中在一年级 的汉字中 ,部件“口”参与构成 96 个汉字 。另外我们还标注了部件的笔画数 、含有该部件的例 字等 (下页表 2 列出的是部分汉字基础部件的信息) 。 我们还针对每个部件建立了一个备注字段 ,将该部件在“小学汉字”中构成的全部汉字排 列其中 ,并标注了每个汉字首次出现的年级 。我们以部件“虫”为例 ,部件“虫”共构成 60 个汉 字 ,这些汉字分布在各个年级 (括号中的 1 、2 、3 、4 、5 、6 分别代表一到六年级) :蝴 (1) 、蜓 (1) 、 融 (1) 、螺 (1) 、蛙 (1) 、蝶 (1) 、虫 (1) 、虹 (1) 、蜡 (1) 、烛 (1) 、蜂 (2) 、蝌 (2) 、蜜 (2) 、蜻 (2) 、蚯 (2) 、 蚊 (2) 、蚜 (2) 、蚓 (2) 、蜘 (2) 、蛛 (2) 、蚪 (2) 、蚂 (2) 、虾 (2) 、蚁 (2) 、蛾 (2) 、蛋 (2) 、蝇 (2) 、独 (2) 、 蝉 (2) 、强 (2) 、蛇 (2) 、蛟 (3) 、蜈 (3) 、蚱 (3) 、蛉 (3) 、蜢 (3) 、蛀 (3) 、蚣 (3) 、触 (3) 、蠕 (3) 、蚕 (3) 、 茧 (3) 、虽 (3) 、浊 (3) 、蚌 (3) 、蜗 (3) 、蜿 (4) 、蠢 (4) 、蜷 (4) 、蟹 (4) 、蜒 (5) 、蟠 (5) 、螂 (6) 、蚀 (6) 、
[ 关键词 ]小学语文教材 ;汉字 ;部件 ;数据库 [ 中图分类号 ] H12[ 文献标识码 ]A[ 文章编号 ]100325397 (2008) 0320072209
A Statistical Study on the Basic Components of Chinese Characters in Chinese Textbooks for Primary Schools
2008 年第 3 期
邢红兵 舒 华 :小学语文教材用字基础部件统计分析
· 73 ·
一 引 言
从目前的心理学的研究成果来看 ,汉字部件是汉字字形加工的基本单元 ,张武田 、冯玲 (1992) 的研究表明 ,部件数对汉字的加工有影响 ,部件数越多 ,加工时间越长 。彭聃龄 、王春茂 (1997) 的研究结果发现 ,部件数不变 ,笔画少的汉字比笔画多的汉字加工快 ,笔画数相同时存 在部件数效应 ,而且和字频有交互作用 ,低频少部件字加工快于低频多部件字 ,高频字无此效 应 ,作者认为 ,汉字的加工要经过笔画 、部件和整字三个层次 。在汉字教学领域 ,起源于上个世 纪 80 年代的“部件识字教学”是汉字部件教学的代表 (苏静白 ,1982) “, 部件识字教学”提出了 识字树形分为笔画 、部件和汉字三个等级 ,同时也注重汉字部件的构造方式 。近几年来 ,汉字 部件在汉字教学中的作用越来越受到重视 ,国家语委继《GB 1300011 字符集汉字部件规范》(王 宁等 ,1998) 颁布实施以后 ,又组织专家进行“基础教学用汉字部件规范”的研究 。但是从目前 的研究状况来看 ,对于汉字基础部件的规范基本确定 ,但是部件分析对教学的指导作用要得到 充分发挥 ,就必须对小学阶段汉字基础部件的各种属性进行研究 ,因为部件自身的属性分布会 影响儿童汉字的学习 ,对汉字的识别和书写都会产生影响 。这些属性包括 :汉字部件的笔画数 量 、汉字部件能否成字 、汉字部件的构字位置等等 ,以及这些属性在各个年级使用的汉字中的 变化情况 。从汉字教学的角度来看 ,目前我们对汉字部件的认识还停留在构形的层次上 ,对于 汉字部件系统本身的特点还认识不够 ,比如部件的构字情况及其在各个年级的分布情况 、部件 能否独立成字等 。本研究选择一套北京地区的语文教材使用的汉字 (以下简称“教材用字”) , 建立了“教材用字”数据库 ,从小学汉字和基础部件数据库的角度 ,分析以下几个方面的问题 : 小学阶段的全部汉字中 ,共使用多少基础部件 ;这些部件有多少是能够独立成字的 ;每个年级 部件的出现情况 ;每个部件能够构成多少个汉字等情况 。希望通过分析 ,能够了解小学语文教 材用字中汉字部件的分布 。
二 “教材用字”的拆分及数据库建设
(一) 语文教材汉字的选择
本研究采用北京教育科学研究院基础教育教学中心编著 、北京出版社 1998 出版的《九年
义务教育六年制小学试用课本》(以下简称“北京教材”) 。该套教材一共 12 册 ,我们将教材的
课文录入计算机 ,进行字频统计 。结果得到全部教材课文共有 3306 个汉字 ,这些汉字共使用
160342 次 ,平均每个汉字使用 4815 次 。
我们首先统计了小学语文教材中汉字的使用情况 ,统计的内容包括 :总字数和生字数 。总
字数是指某个年级所使用的汉字总数 ,比如一年级的总字数是 667 个 ,就是说一年级教材中使
用的汉字总数是 667 个 ;生字数是指在某个年级新出现的 、这个年级以前没有出现过的字的总
2008 年 8 月 第3期
语言文字应用 Applied Linguistics
Aug. ,2008 No. 3
小学语文教材用字基础部件统计分析
邢红兵1 舒 华2
(11 北京语言大学汉语水平考试中心 北京 100083 ; 21 北京师范大学认知神经科学与学习研究所 北京 100875)
数量 。生字在各个年级汉字学习过
表 1 “北京教材”各年级总字数表和生字表
程中起到很重要的作用 ,因为生字 年级 一 二 三 四 五 六 合计
代表 了 小 学 生 在 各 个 年 级 的 识 字 量 。表 1 是“北京教材”中的总字数 和生字数 。
总字数 生字数
667 1260 1904 2101 2375 2630 667 697 759 441 410 332 3306
2008 年第 3 期
Keywords: Chinese textbooks for primary schools ; Chinese characters ; basic components of Chinese character ; database
[ 收稿日期 ] 2007 - 11 - 01 [作者简介 ] 邢红兵 ,北京语言大学汉语水平考试中心教授 ,博士 ,研究方向为语言信息处理 、语言习得 、 语言认知 ;舒华 ,北京师范大学认知神经科学与学习研究所教授 ,博士 ,研究方向为人类认知 、儿童语言发展 。
[ 摘要 ]本研究首先统计了一套小学语文教材使用的汉字数量 、使用次数 、出现年 级等 ,并对全部汉字进行了基础部件拆分 ,形成小学阶段汉字基础部件使用表 。在此 基础上对小学阶段汉字部件的属性进行了统计分析 。从统计的结果来看 ,小学语文 教材使用的全部汉字部件中 ,大部分构字能力强的 、独立成字的部件在一二年级就已 经出现 ,部件的学习集中在一二年级 ,三年级以后儿童接触更多的是熟悉部件组成新 字的方式 ,而不是新部件 。
从表 1 的数据可见 ,各个年级的总字数随着年级的增加逐渐增加 ,一年级教材使用了 667
个汉字 ,二年级教材使用了 1260 个汉字 ,到了六年级教材 ,一共使用了 2630 个汉字 。而从生
· 74 ·
语言文字应用
2008 年第 3 期
字的情况来看 ,各个年级的生字数量基本是递减的趋势 ,一年级到三年级生字数较多 ,是小学 生识字的高峰时期 ,三年级达到高峰 ,生字的学习主要集中在这个阶段 ,四年级开始逐渐下降 , 四年级到六年级相对比较稳定 ,生字数保持在 400 字左右 。从这个结果可以推测 ,小学阶段汉 字学习明显分为两个阶段 :一年级到三年级为识字关键期 ,这个时期是小学生汉字习得的关键 时期 。三年级到六年级是识字的稳定期 ,这个阶段的主要任务是巩固汉字的学习成果 。
Abstract: This research examined the Chinese characters used in a Chinese textbook series for primary schools mainly on the total number , usage and distribution of all characters across different levels. Then the basicห้องสมุดไป่ตู้components of all characters in the book series was analyzed so as to build a basic component list of Chinese characters for primary school use. The results show that most basic components have high productivity and can stand alone as self2 expressive characters. This part of basic components are learned at Grade One or Grade Two. From Grade Three onwards , in most cases , combinations of learned components other than new components can be found in textbooks.
(二) 汉字的拆分 我们参照“基础教学用现代汉语常用字部件规范”的拆分原则 ,并进行适当调整 。最后的 拆分原则包括 : (1) 字形结构符合理据的 ,按理据进行拆分 。例如 “: 分”拆分为“八”“刀”“; 相” 拆分为“木”“目”。(2) 按理据拆分时 ,属于层次结构的 ,依层次拆分 ;属于平面结构的 ,一次性 拆分 。例如 “: 想”属于层次结构 ,第一层拆分为“相”“心”,第二层“相”拆分为“木”“目”“; 暴”属 于平面结构 ,一次性拆分为“日”“ ”“八”“ ”。(3) 无法分析理据或形与源矛盾的 ,依形进行 拆分 。例如 “: 朋”拆分为“月”“月”“; 执”拆分为“扌”“丸”。(4) 交重不拆 ,极少数不影响结构和 笔数的笔画搭挂可拆 。例如 “: 串”属于交重结构 ,不可拆分为“中”“中”“; 东”属于交重结构 ,不 可拆分为“七”“小”“; 孝”属于笔画搭挂 ,可以拆分为“ ”“子”。(5) 拆开后的各部分均为非字 部件或均不再构成其他汉字的 ,即使是相离或相接 ,也不拆分 。例如 “: 隶”不可拆分为“ ” “ ”“; 非”不可拆分为“ ”“ ”。(6) 因为构字造成独体字部件相离的 ,拆分后仍将相离部分 合一 ,保留独体字的原形 。例如 “: 裹”拆分为“衣”“果”,不拆分为“亠”“果”“ ”“; 乘”拆分为 “禾”“北”,不拆分为“禾”“ ”“匕”。按照上述原则 ,我们对 3306 个汉字进行了拆分基础部件 序列 。例如“鼻”拆分为“自 、田 、丌”“; 避”的基础部件就是“尸口立十辶”。 (三)“教材用字”拆分数据库 1.“教材用字”基础部件拆分数据库 “教材用字”拆分数据库的主要数椐包括 :汉字字形 、汉字读音 、汉字笔画数 、汉字部件数 、 汉字结构类型代码 、汉字首层拆分结果 、汉字基础部件序列等 (数据库中部分汉字的信息示例 见附录 2) 。 21“教材用字”基础部件数据库 第二个数据库是“基础部件数据库”,这个数据库是从“教材用字”拆分数据库中生成的 ,相 关的数据也是从汉字数据库中统计出来的 。全部的 3306 个汉字拆分出来的基础部件共 506 个 ,因此这个数据库共有 506 个记录 ,这个数据库包含的信息有 :汉字基础部件 ;能否成字以及 成字时的年级 ,例如部件“口”是可以独立成字的 ,而且是在一年级就独立成字 ,因此我们在“成 字年级”上标注“1”;各个年级的构字数 ,比如部件“口”一共构成了 534 个汉字 ,其中在一年级 的汉字中 ,部件“口”参与构成 96 个汉字 。另外我们还标注了部件的笔画数 、含有该部件的例 字等 (下页表 2 列出的是部分汉字基础部件的信息) 。 我们还针对每个部件建立了一个备注字段 ,将该部件在“小学汉字”中构成的全部汉字排 列其中 ,并标注了每个汉字首次出现的年级 。我们以部件“虫”为例 ,部件“虫”共构成 60 个汉 字 ,这些汉字分布在各个年级 (括号中的 1 、2 、3 、4 、5 、6 分别代表一到六年级) :蝴 (1) 、蜓 (1) 、 融 (1) 、螺 (1) 、蛙 (1) 、蝶 (1) 、虫 (1) 、虹 (1) 、蜡 (1) 、烛 (1) 、蜂 (2) 、蝌 (2) 、蜜 (2) 、蜻 (2) 、蚯 (2) 、 蚊 (2) 、蚜 (2) 、蚓 (2) 、蜘 (2) 、蛛 (2) 、蚪 (2) 、蚂 (2) 、虾 (2) 、蚁 (2) 、蛾 (2) 、蛋 (2) 、蝇 (2) 、独 (2) 、 蝉 (2) 、强 (2) 、蛇 (2) 、蛟 (3) 、蜈 (3) 、蚱 (3) 、蛉 (3) 、蜢 (3) 、蛀 (3) 、蚣 (3) 、触 (3) 、蠕 (3) 、蚕 (3) 、 茧 (3) 、虽 (3) 、浊 (3) 、蚌 (3) 、蜗 (3) 、蜿 (4) 、蠢 (4) 、蜷 (4) 、蟹 (4) 、蜒 (5) 、蟠 (5) 、螂 (6) 、蚀 (6) 、
[ 关键词 ]小学语文教材 ;汉字 ;部件 ;数据库 [ 中图分类号 ] H12[ 文献标识码 ]A[ 文章编号 ]100325397 (2008) 0320072209
A Statistical Study on the Basic Components of Chinese Characters in Chinese Textbooks for Primary Schools
2008 年第 3 期
邢红兵 舒 华 :小学语文教材用字基础部件统计分析
· 73 ·
一 引 言
从目前的心理学的研究成果来看 ,汉字部件是汉字字形加工的基本单元 ,张武田 、冯玲 (1992) 的研究表明 ,部件数对汉字的加工有影响 ,部件数越多 ,加工时间越长 。彭聃龄 、王春茂 (1997) 的研究结果发现 ,部件数不变 ,笔画少的汉字比笔画多的汉字加工快 ,笔画数相同时存 在部件数效应 ,而且和字频有交互作用 ,低频少部件字加工快于低频多部件字 ,高频字无此效 应 ,作者认为 ,汉字的加工要经过笔画 、部件和整字三个层次 。在汉字教学领域 ,起源于上个世 纪 80 年代的“部件识字教学”是汉字部件教学的代表 (苏静白 ,1982) “, 部件识字教学”提出了 识字树形分为笔画 、部件和汉字三个等级 ,同时也注重汉字部件的构造方式 。近几年来 ,汉字 部件在汉字教学中的作用越来越受到重视 ,国家语委继《GB 1300011 字符集汉字部件规范》(王 宁等 ,1998) 颁布实施以后 ,又组织专家进行“基础教学用汉字部件规范”的研究 。但是从目前 的研究状况来看 ,对于汉字基础部件的规范基本确定 ,但是部件分析对教学的指导作用要得到 充分发挥 ,就必须对小学阶段汉字基础部件的各种属性进行研究 ,因为部件自身的属性分布会 影响儿童汉字的学习 ,对汉字的识别和书写都会产生影响 。这些属性包括 :汉字部件的笔画数 量 、汉字部件能否成字 、汉字部件的构字位置等等 ,以及这些属性在各个年级使用的汉字中的 变化情况 。从汉字教学的角度来看 ,目前我们对汉字部件的认识还停留在构形的层次上 ,对于 汉字部件系统本身的特点还认识不够 ,比如部件的构字情况及其在各个年级的分布情况 、部件 能否独立成字等 。本研究选择一套北京地区的语文教材使用的汉字 (以下简称“教材用字”) , 建立了“教材用字”数据库 ,从小学汉字和基础部件数据库的角度 ,分析以下几个方面的问题 : 小学阶段的全部汉字中 ,共使用多少基础部件 ;这些部件有多少是能够独立成字的 ;每个年级 部件的出现情况 ;每个部件能够构成多少个汉字等情况 。希望通过分析 ,能够了解小学语文教 材用字中汉字部件的分布 。
二 “教材用字”的拆分及数据库建设
(一) 语文教材汉字的选择
本研究采用北京教育科学研究院基础教育教学中心编著 、北京出版社 1998 出版的《九年
义务教育六年制小学试用课本》(以下简称“北京教材”) 。该套教材一共 12 册 ,我们将教材的
课文录入计算机 ,进行字频统计 。结果得到全部教材课文共有 3306 个汉字 ,这些汉字共使用
160342 次 ,平均每个汉字使用 4815 次 。
我们首先统计了小学语文教材中汉字的使用情况 ,统计的内容包括 :总字数和生字数 。总
字数是指某个年级所使用的汉字总数 ,比如一年级的总字数是 667 个 ,就是说一年级教材中使
用的汉字总数是 667 个 ;生字数是指在某个年级新出现的 、这个年级以前没有出现过的字的总
2008 年 8 月 第3期
语言文字应用 Applied Linguistics
Aug. ,2008 No. 3
小学语文教材用字基础部件统计分析
邢红兵1 舒 华2
(11 北京语言大学汉语水平考试中心 北京 100083 ; 21 北京师范大学认知神经科学与学习研究所 北京 100875)
数量 。生字在各个年级汉字学习过
表 1 “北京教材”各年级总字数表和生字表
程中起到很重要的作用 ,因为生字 年级 一 二 三 四 五 六 合计
代表 了 小 学 生 在 各 个 年 级 的 识 字 量 。表 1 是“北京教材”中的总字数 和生字数 。
总字数 生字数
667 1260 1904 2101 2375 2630 667 697 759 441 410 332 3306
2008 年第 3 期
Keywords: Chinese textbooks for primary schools ; Chinese characters ; basic components of Chinese character ; database
[ 收稿日期 ] 2007 - 11 - 01 [作者简介 ] 邢红兵 ,北京语言大学汉语水平考试中心教授 ,博士 ,研究方向为语言信息处理 、语言习得 、 语言认知 ;舒华 ,北京师范大学认知神经科学与学习研究所教授 ,博士 ,研究方向为人类认知 、儿童语言发展 。
[ 摘要 ]本研究首先统计了一套小学语文教材使用的汉字数量 、使用次数 、出现年 级等 ,并对全部汉字进行了基础部件拆分 ,形成小学阶段汉字基础部件使用表 。在此 基础上对小学阶段汉字部件的属性进行了统计分析 。从统计的结果来看 ,小学语文 教材使用的全部汉字部件中 ,大部分构字能力强的 、独立成字的部件在一二年级就已 经出现 ,部件的学习集中在一二年级 ,三年级以后儿童接触更多的是熟悉部件组成新 字的方式 ,而不是新部件 。
从表 1 的数据可见 ,各个年级的总字数随着年级的增加逐渐增加 ,一年级教材使用了 667
个汉字 ,二年级教材使用了 1260 个汉字 ,到了六年级教材 ,一共使用了 2630 个汉字 。而从生
· 74 ·
语言文字应用
2008 年第 3 期
字的情况来看 ,各个年级的生字数量基本是递减的趋势 ,一年级到三年级生字数较多 ,是小学 生识字的高峰时期 ,三年级达到高峰 ,生字的学习主要集中在这个阶段 ,四年级开始逐渐下降 , 四年级到六年级相对比较稳定 ,生字数保持在 400 字左右 。从这个结果可以推测 ,小学阶段汉 字学习明显分为两个阶段 :一年级到三年级为识字关键期 ,这个时期是小学生汉字习得的关键 时期 。三年级到六年级是识字的稳定期 ,这个阶段的主要任务是巩固汉字的学习成果 。