对外汉语教材等级词频统计模块构建_一种辅助对外汉语教材词汇难度评量的工具[1]
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
——————————
收稿日期:2009年4月7日 第19卷 现代教育技术 V o1. 19 2009年第7期 Modern Educational Technology No.7
2009 对外汉语教材等级词频统计模块构建
——一种辅助对外汉语教材词汇难度评量的工具
梁少丽 宋继华
(北京师范大学 信息科学与技术学院,北京100875)
【摘要】在对外汉语教材的编著过程中,用词频度和难度直接影响教材编著的质量。根据《汉语水平词汇与汉字等级大纲》(以下简称《大纲》)8000多等级用词目、词性、难度等级三个属性,设计并实现对外汉语教材编著系统难度等级词频统计模块,并在20万教材语料基础上,进行实验。实验证明,在速度上取得了较为良好的效果。
【关键词】对外汉语教材编著系统;词频检索统计;汉语词汇等级;键树
【中图分类号】G40-057 【文献标识码】A 【论文编号】1009—8097(2009)07—0086—04
一 引言
教材编写是对外汉语教学资源建设的重要环节,如何提升教材编写的速度和质量,使人们从教材编写过程中那些诸如查找生词、控制词汇、加注拼音等费时费力而且容易出错的繁琐工作中摆脱出来,现代技术手段的有机融入是非常必要的。正如崔永华教授所说的那样:“只有语言学、语言教学和现代技术的完美结合,才能让编写教材变得这么方便、快捷、准确、得心应手。”
【1】
对外汉语教材编著系统应运而生,陈锋在其硕
士论文《对外汉语教材编写辅助系统的设计与实现》[2]中提到编写教材的流程图如图1所示。随着计算机、网络、语料库等技术的飞速发展,现代教育技术在对外汉语教学中的应用范围不断拓展,这为对外汉语教材编著系统的技术实现提供了可靠的保障。
图1 编写教材的流程图
如何控制教材编写难度等级以适应不同水平教材使用者的需要,同时避免汉语教学内容的盲目性和随意性,一直是教材编写者面对的重要问题。编写者控制教材难度,主要是通过量化语言点,即对词汇、语法、功能、文化进行分级,检查教材语料分级语言点覆盖以及分布情况,并反复修改教材内容,来达到控制教材水平的目的。在实际操作中,由于词汇的可控制性最强,所以,水平等级教材主要是在词汇上控制难度[1]。
基于以上论述,本文将尝试着设计并实现对外汉语教材编著系统中的难度等级词频统计模块。以《大纲》[3] 8000多等级词汇为难度等级依据,统计模块将分别统计出汉语教材语料词汇中甲、乙、丙、丁、超纲词频率,以及这些词在教材各处的分布情况,以确定教材的用词难度,教材编写者可依据该模块得出的统计结果对教材用词进行相应的调整以控制教材的难度水平。
二 难度等级词频统计模块设计与实现
目前,出现了一些辅助对外汉语教材编著工具,主要有储
诚志博士设计的《中文助教》
[4]
和厦门大学卢伟等人开发的“基于WEB 的对外汉语教材编著系统”。《中文助教》通过8000多万字的现代汉语平衡语料库处理分析得出常用度等级生词,提供了使用频度分析[1];卢伟等人开发的对外汉语编著系统中,利用《大纲》对教材语料进行等级词语检索统计以实现教材的定量分析与控制[5]。这两类工具的教材难度定量分析任务,主要还是通过词汇难度划分来实现的,因此,本文将借鉴此思路,
使用《大纲》作为教材难度等级词频分析的重要依据。
《大纲》(1992年)由国家对外汉语教学领导小组办公室
修订完成,它不仅为对外汉语教学词汇量的界定、等级的划分、词性的确定等方面提供了较为科学的依据。同时它也是现阶段国内对外汉语教学设计、教材编写、课堂教学的主要依据,有着严谨的结构和权威性[6]。本文难度等级词频统计模块设计将直接参考《大纲》中的词汇的词性、难度等级等信息。
1设计思路
本文的设计思路如下图2所示:
图2 难度等级词频统计模块设计思路图
汉语是以字为单位,词与词之间没有明显的边界信息。当句子长度和句子结构复杂性增加,句中出现的词数量随之增多,除了检索过程中词汇歧义问题将越发突出外,词检索次数也越发频繁。为了解决这些问题,本文首先使用分词模块对教材语料做分词处理,让处理后的语料得到精确的边界、词性信息;然后,在检索统计模块中,根据分词后语料携带的各种信息,参考《大纲》中给出的词汇、词汇难度等级、词性三者对应关系,做归类统计操作,获得词频、词性词频、词等级难度词频、超纲词数目以及等级词汇和超纲词汇在不同语篇中分布等各类信息。其中,词汇、词汇难度等级、词性对应关系如图3所示:
图3 《大纲》词汇等级与词性的对应关系
2 检索统计模块实现
文本检索依赖于关键词模式匹配。多关键词模式匹配是从目标文本中一次查找匹配多个关键词的过程。文献[7]中借用键树结构[8](图4所示)的双链树形式保存关键字,使用了多关键词模式匹配进行检索。它的具体做法是:将所有待搜索关键词保存在键树结构中,用叶子结点标志关键词结束,并且在叶子结点中也保存了关键词的频率信息;检索统计时,使用广度优先搜索来匹配目标文本串和树中多个关键词,如果目标文本串在键树中存在一条从根到叶子节点的路径,统计频率加一,否则,放弃对当前的操作,继续处理下一个词。
图4 键树的双链树结构
本文在文献[7]的基础上,以《大纲》词汇作为关键词集,在深入分析《大纲》中8000词的基本特征规律、存储特征及词首字在区位码中的分布情况基础上,设计哈希表与键树相结合的存储结构,实现对外汉语教学编著系统中的词汇等级难度检索统计功能。
(1)基于哈希表与键树相结合的存储结构
受关键词首字取值以及关键词词长影响,《大纲》关键词存入键树后,形成了一棵根节点孩子兄弟分支深度达到2000多层,而其它分支深度不超过5层的键树结构。如果能将关键词的首字以某种方式进行分类,重新组织键树结构,将能有效的缩短最长分支的长度。由此,我们考虑到了汉字区位码,利用《大纲》关键词首字在区码的均匀分布情况,解决以上问题。
汉字在区位码中占72区,其中16区到55区为一级汉字;56区到87区为二级汉字。《大纲》中关键词首词有2057个,一级汉字有2495个,二级汉字只有8个,绝大部分首字分布在一级汉字中。对这2495个首字在一级汉字区的深入分析,我们发现这些汉字几乎是等概率分布于各区中,数据如图5所示。
图5 《大纲》词汇首字在一级汉字区中的分布情况