关于汉语中介语语料库建设研究报告

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

汉语中介语语料库建设研究

沈锐1,黄薇2

(1.红河学院教育技术系2.红河学院国际合作与交流处XX蒙自661100)

【摘要】本文探讨母语非汉语学习者的汉语中介语语料库建设的主要思路以及具体实现方法,重点介绍了汉语中介语语料的加工方法以及语料数据库的设计思路,并阐明了该语料库在对外汉语教学和研究中的应用价值。

【关键词】语料库;中介语;汉语教学

语料库是指按一定的语言学原则收集的语言文本或话语片断而建立的电子资料库。本文所述汉语中介语料库是基于语言学中中介语理论设计与实施的。中介语是心理语言学中第二语言习得的一种研究模式,其将语言学习者置于观察中心,去研究他们如何有意识地向目的语的正确形式迁移的各种动态表现。中介语理论自20世纪60年代末出现并发展至今,虽然时间并不长,但越来越受到语言学家以及一线教师的关注。无论是进行中介语研究还是使用中介语理论进行第二语言教学都需要收集分析大量的语料,因而通过信息化手段收集和整理语料变得十分迫切。在对外汉语教学中,通过建设和使用母语非汉语学习者的汉语中介语语料数据库,可以收集不同背景和不同学习阶段外国学生及少数民族学生的汉语书面语和用文字转写的口语语料,并对语料属性、词汇、语法等单位进行计算机处理,以实现对各种条件和要求下的语料数据进行便捷的机器检索和提取,可以为研究母语非汉语学生学习和习得汉语的规律提供大量的各种单项的或综合的资料和信息。因此,我们提出了建设汉语中介语语料库的课题,由于语料库建设是一项浩大的工程,限于人力物力条件,本文讨论的是中

小规模的语料库。

一、需求分析和框架设计

语料库建设不能盲目进行,首先要进行调研,对语料库的应用需求进行分析。半自动化的语料库构建是目前语料库建设的主流技术,目的是在确保语料库质量的前提下,减少人工参与的比例,增加自动化程度,目标是在较短时间内建设一个有一定规模,质量可靠、可扩充、成本低,能够全面、细致地记录母语非汉语学习者在汉语学习过程中的语言表征和研究他们汉语习得过程的语料库。依照软件工程的方法,建立数据库首先需要进行需求分析,在需求分析过程中要注意汉语中介语语料库主要是服务于对外汉语教学的一线教师,以及辅助母语非汉语学生自学,因此主要注重以上二类服务对象的应用需求,确保建成的语料库能够对第二语言教学、研究以及教材的编写提供持续支持。基于以上要求,在对中介语语料库的建设思路及框架做了总体考虑,基本归纳为以下三个方面:

1、中介语语料库为专门用途语料库,主要目的为研究母语非汉语的学生在学习汉语过程中的中介语现象而设计制作的。

2、中介语现象存在于母语非汉语的学生在学习汉语过程中的书面语料及口语语料中,由于口语语料的收集、分析和标注都较为困难,因此在建库的第一阶段只考虑收录书面语料,这有利于语料库的快速建设与使用。

3、语料标注的加工标准使用中科院计算所汉语词性标记集V3.0。

二、语料收集与加工

收集和加工语料是最为重要的一项工作,要在语料库使用过程中不断收集、加工并添加到语料库内,而且需要在整个语料库生存周期中都要持续不断的进行此项工作。本语料库中的语料基本上来源于XX几所高校的外国留学生在日常学习和生活过程中的作业、写作、试卷等,目前收集的都是书面文字,待日后语料库进行二期建设时也可以考虑扩充收集语音录制的口语语料。

最初获得的未经进一步加工处理的语料一般称为生语料,要将生语料转变为语料库内能够使用的熟语料还需要经过录入、断句、分词、词性标注等工作。语料加工的工作量是相当大的,如果完全人工完成的话,虽然质量能够得到保证,但效率太低,很难保证长期对数据的更新和维护。另外,由于中介语本身是留学生在学习第二语言过程中向正确的语言系统迁移的中间状态,所以中介语语料存在大量偏误,使用计算机进行自动加工获得的语料质量也较差。为得到较高质量的熟语料,同时又需要尽量减少人力成本,因此在语料加工环节我们采用了人工与计算机自动处理相结合的方式。具体操作上是先使用中科院计算所研发的汉语词法分析软件ICTCLAS进行初步加工,再由人工方式对该软件的分析结果进行校对和修正,最后输入语料库存储,这后两个步骤是通过我们自己编写的软件来实现的。

三、数据库的设计思路

依据需求分析的结果,首先转换为不依赖任何具体机器的信息结构,即反映用户观点的概念模型,这是整个数据库设计的关键。一般语言的基本构成要素是词,由词构成句,再由句构成篇章,但汉语的

最小构成元素却是汉字,因此设计语料库结构组成时需要将字、词、句和篇章都考虑到。另外,语料库数据的最大特点就是“真实”,也就是说需要原样保存语料信息,包括语料中的大量偏误,这也是需要考虑的关键问题。依据汉语构成特点及中介语语料库的需求,使用E-R概念模型设计方法,得到语料库概念模型如下:

图1 语料数据库概念模型E-R图

要在具体的数据库管理系统上建立语料库,还需要转换为数据库管理系统支持的数据模型,由于国内目前使用的基本上都是关系型数据管理系统,因此接下来就谈谈如何将语料库概念模型转换为关系模型。按照数据库逻辑结构设计的方法,概念模型中的每一个实体都要转换为一个关系模式,即“汉字”、“标准词”、“偏误词”、“语料句”、“语料篇章”和“作者”,此类关系模式的属性则根据需求分析的结果进行定义。例如需要通过语料提供者的性别、年龄、国籍、学习汉语年限等条件对语料进行分析,则“作者”关系模式的属性应该包含“性别”、“出生日期”、“国籍”、“开始学习汉语时间”。实体间的联系也要转换为对应的关系模式或关系模式中的属性,“作者”和“语

料篇章”,“语料篇章”和“语料句”间的联系都是一对多联系,此类联系不单独转换为关系模式,而是通过其中“多”的一方的属性表示。例如“语料篇章”关系模式中就应该包括“作者编号”这一属性,而“作者编号”又是“作者”关系模式中的主码属性。“汉字”、“标准词”、“偏误词”和“语料句”间的联系都属于多对多的联系,此类联系需要转换为单独的关系模式,即“字-标准词联系”、“字-偏误词联系”、“标准词-偏误词联系”、“标准词-语料句联系”和“偏误词-语料句联系”,这些关系模式的属性为两端实体关系模式的主码加上自身的属性。

当然,数据库逻辑设计完成后就应该是数据库的实现了,具体地讲就是选用合适的DBMS,并通过该DBMS提供的数据定义功能将逻辑设计的结果即数据库结构建立起来。根据预计的数据库规模、性能要求以及安全性要求,笔者选择使用微软公司的SQL Server 2000建立语料数据库,已经过测试投入运行。

四、汉语中介语语料库的应用价值

语料库是经过计算机处理学习者的语言而产出的文本数据库,它注重语用而非能力,注重描述而非普遍语法,注重量化分析而非定性分析。母语非汉语学习者的汉语中介语语料库,作为一种专用语料库,具有容量大、材料真实和代表性强的特点,可以对大量学习者的语言样本进行量化分析,能深化人们对语言学习机制的理解,乃至对语言本身的理解提供依据(李文中,1999:53)。它为汉语中介语研究、汉语本体研究、对外汉语教学研究以及偏误分析提供了宝贵资源,科学

相关文档
最新文档