三套对外汉语高级教材课文字词的对比统计与分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
三套对外汉语高级教材课文字词的对比统计与分析
郭曙纶杨晓惠
上海交通大学国际教育学院,上海,200030
摘要:本文通过对这三套教材所用字词的对比统计与分析,发现对外汉语高级教材中存在着比较严重的超纲词现象,而超纲字的数量则要少得多,因此对外汉语词汇教学中应该加强以语素为基础的汉字教学。只有这样,才有可能从根本上解决对外汉语高级教材课文中超纲词过多的问题。
关键词:对外汉语高级教材,课文用字,超纲词,超纲字,汉字教学
一、引言
我们之前曾经专门讨论过对外汉语教材生词中的超纲词问题,也曾就某一篇课文的整个文本字词中的生词和超纲词问题。本文则在此基础上,扩大统计文本的数量,对三套对外汉语高级教材每一篇课文中的所有字词进行对比统计与分析。
本文以三套对外汉语高级教材课文用字用词作为考察对象,仔细对比统计它们在字次数、字种数、词次数、词种数、超纲词数等方面的数据,并且比较统计它们与常用字的异同,通过对比统计与分析,看看这三套教材课文在用字与用词方面的差异。
本文统计的三套对外汉语高级教材分别是由郭曙纶、马树德和肖奚强主编,具体版本信息请参看后面的参考文献。郭曙纶教材共有21课(上册9课,下册12课),马树德教材和肖奚强教材都是共有20课(上、下册各10课)。
首先我们是把教材的课文全文录入,然后进行自动切词与词性标记,经过人工机助校对。然后先统计各套教材用字用词的总情况,之后再跟HSK汉字与词汇大纲和常用字表进行比较,看看它们所用字词主要是哪个级别的字词以及超纲字词的使用情况。
二、教材字词统计与分析
(一)教材字词总的对比统计与分析
为了便于后面的讨论,下面先给出教材字词总的统计情况,并做一些简单的分析。
表1三套教材字词统计总表
说明:“1次字/词种数”等表示“只出现1次的字/词种数”等。
分析:
首先,从总字/词种数和总字/词次数看,郭曙纶教材比马树德教材和肖奚强教材都要少得多:在总字种数方面,郭曙纶教材分别为马树德教材和肖奚强教材的76%和80%,而在总字次数和总词次数方面,郭曙纶教材都仅有马树德教材和肖奚强教材的一半左右,但是在总词种数方面,郭曙纶教材分别只有马树德教材和肖奚强教材的59%和54%,这跟字种的76%和80%的情况不同。
由此可以看出,同样的汉语文本,总词次与总字次的统计数据很接近,而总字种与总词种的统计数据则相差较大。
就课文长度而言,郭曙纶教材比马树德教材和肖奚强教材都要短得多,因而课文的难度也就要小得多。
再看只出现1次或2次的低频字/词,1次或2次的字/词种数,都是马树德教材和肖奚强教材比较接近,而郭曙纶教材与二者都有较大差别,但在比例方面,1次的字/词种数和2次的字种数比例还是马树德教材和肖奚强教材比较接近,而郭曙纶教材与二者都有较大差别,而2次的词种数比例则是郭曙纶教材和马树德教材比较接近,而肖奚强教材则有较大差别。
另外,低频字/词的百分比,论字/词的次数与论字/词的种数,这两种不同的统计方法,数据相差很大,尤其是低频字。另一方面,从低频字/词的百分比可以看出,对外汉语高级教材课文中,低频字/词的比例都很高,尤其是低频词,只出现1次的词超过一半,接近60%,只出现1次的低频字也都超过五分之一,甚至达到四分之一。如果把只出现2次的字/词也计算在低频字/词在内,那么这个百分比会更高。
而累计频率方面,总的来说,马树德教材和肖奚强教材比较接近,而郭曙纶教材与二者差别大一些,随着累计频率的升高这种差别也在逐渐变大,这种差别主要由总字/词种数的差别带来的。如果细看的话,我们会发现,字的差别要比词差别小得多,累计频率到90%时,三套教材的数据仍然差别不大,而词的累计频率到70%时,三套教材的数据就已经有较大差别了。
(二)教材用字的比较统计与分析
本文首先比较统计三套对外汉语高级教材的用字情况,这里分为两种情况,一种是与HSK汉字等级大纲进行比较,一种是与3500常用字进行比较。下面先看第一种情况。
说明:“生字种数”和“生字次数”分别是“丁级字种数”、“超纲字种数”和“丁级字次数”、“超纲字次数”之和。
分析:
首先,就字种而言,马树德教材和肖奚强教材各级字种的百分比都很接近,而郭曙纶教材则要有较大差别:郭曙纶教材甲级和乙级字种百分比相对要高得多,而生字种百分比则要低得多:郭曙纶教材生字种百分比不到20%,而马树德教材和肖奚强教材则在30%左右。因此,跟马树德教材和肖奚强教材相比,郭曙纶教材不但课文要短,而且生字也要少。
再来细看一下生字种数的组成情况,郭曙纶教材超纲字种数要少于丁级字种数,即生字中的超纲字相对较少,而马树德教材和肖奚强教材则是超纲字种数要多于丁级字种数。因此如果以参加HSK考试来说,郭曙纶教材生字教学会更有效一些,可以少学一些超纲字。
其次,就字次而言,仍然是马树德教材和肖奚强教材各级字次的百分比比较接近,而郭曙纶教材相应的数据则差别明显一些,但不像字种的差别那么明显。
综合字种与字次的数据可知,这也与郭望皓(2010)和曹晓玉、郭曙纶(2010)的研究结果一致:字种数比字次数更能体现汉语文本的难度。因为在字种统计中,三套教材的难度差别在统计数据体现出来了(有明显差别),而在字次统计中体现不出来(无明显差别)。
而生字次数的组成,三套教材的超纲字次数都要少于丁级字次数。这说明超纲字往往都是低频用字,平均出现不到2次。
接下来,看看与3500常用字进行比较的情况。
表3三套教材用字常用等级统计
级常用字”分别指是2500常用字和1000次常用字,“非常用字”指的是不属于3500常用字以外的字。
分析:
这里的数据差别,跟前面与HSK等级字表比较的数据差别类似,字种数方面比字次数方面差别更显著:郭曙纶教材的非常用字种的百分比只有马树德教材和肖奚强教材的一半左右,从课文所用字种方面明显可以看出,课文难度要比后二者课文的难度要小。而在字次数方面,三套教材各级用字的百分比很接近,几乎看不出明显差别。
总的看,三套教材用字中的大多数是常用字,非常用字都比较少,尤其是郭曙纶教材,非常用字更少。
(三)教材用词的比较统计与分析
接下来,我们看看三套教材用词的比较统计与分析。
分析:
首先,就词种而言,马树德教材和肖奚强教材各级词种的百分比都很接近,而郭曙纶教材则要有较大差别:郭曙纶教材甲级和乙级词种百分比相对要高不少,而生词种百分比则要低不少:郭曙纶教材生词种百分比不到56%,而马树德教材和肖奚强教材则都超过了66%。但是,总的来说,三套教材的生词种数的比例都太高了,超过了一半,有的甚至达到了三分