基于语料库的对外汉语教学领域术语提取
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于语料库的对外汉语教学领域术语提取作者:***
来源:《中国科技术语》2024年第01期
摘要:文章介绍了自动提取对外汉语教学领域术语的方法。
以对外汉语教学领域文本为目标文本,遵循主题取向、语料科学性、样本代表性、规模有限性等原则,建立专用语料库,并对其进行分词标注等加工;将统计学和语言学规则相结合,引用C-value方法计算术语度值,探索该领域内不同长度术语的发现、辨识及提取的“混合方法”(hybrid solution),最终建立对外汉语教学术语集,其中包含单词型术语238个,两词术语375个,三词术语121个和50个由4~6个单词组成的长术语。
关键词:专用语料库;术语提取;对外汉语教学;对外汉语教学术语集;C-value算法
中图分类号:H083;TP391 文献标识码:A DOI:10.12339/j.issn.1673-8578.2024.01.002
Corpus-Based Term Extraction in Field of Chinese Teaching as a Foreign Language//LU Yixin
Abstract:This paper introduces a method to extract terms of Chinese teaching as a foreign language. We take the text in the field of Chinese teaching as a foreign language as the target text,follow the principles of subject orientation, scientific corpus, and limited sample representation to establish a specialized corpus, and process it such as word segmentation and POS tagging. We combine statistical and linguistic rules, use the C-value method to calculate the term degree value,and explore the “hybrid solution” to find, define and extract terms of different lengths in this field. Finally a terminology base for Chinese teaching as a foreign language is established, including 238 single word terms, 375 two word terms, 121 three word terms, and 50 long terms (consisting of 4-6 words).
Keywords: specialized corpus; term extraction; Chinese teaching as foreign language; terminology base for Chinese teaching; C-value algorithm
收稿日期:2023-07-09 修回日期:2023-08-25 網络出版日期:2023-11-16
基金项目:“中国外语教育基金”项目“基于语料库的汉俄对外语言教学术语词典编纂方式探究”(ZGWYJYJJ11A102)阶段性成果
0 引言
术语作为描述和传播科学概念、定义和规律的基本要素,集中体现和负载了一个学科领域的核心知识,是人类科学知识在语言中的结晶,也是促进学科建设的有力工具。
一种学问要成为一门独立的学科,必须有一整套术语来描述其研究对象、目的、方法、规律和定理的基本概念。
科学、规范、系统的术语体系能促进一门学科的健康发展,相反,不科学、混乱的术语体系常常会阻碍一门学科的发展。
随着对外汉语教学在全球的推广,有关对外汉语教学法、教学理论的研究越来越多。
为促进对外汉语教学在全球的进一步发展,建立一个科学、规范的术语集具有重要意义。
它不仅可以辅助编纂专业词典,同时也可在知识传播、机器翻译、科技写作等方面发挥重要作用。
术语来源于文献资料,其中包括标准、词表、辞书、数据库、专著及论文等[1]277。
语料库是由大量在真实情况下使用的语言信息经过科学地收集和组织而集成的专供研究使用的资料库,其主要应用领域为词典编纂、语义学研究、语言教学、信息获取、未登录词(out of vocabulary)获取以及基于实例的机器翻译等[2]5。
对于自然语言处理而言,术语通常都是未登录词[3]。
为此,建设用于提取对外汉语教学领域术语的专用语料库(specialized corpus),并对其进行加工,使其信息更加丰富,可以大大提高术语的辨识和提取效率。
1 语料库的设计与建立
语料库并非语篇的简单堆砌或集合,它应具有样本代表性、规模有限性、机读形式化等特征[2]2。
本研究中创建语料库的目的是提取对外汉语教学术语,同时形成一个术语数据库,因此在创建该专用语料库时,遵循以下语料选取原则。
1.1 主题取向性
对外汉语教学是指对外国人的汉语教学。
作为应用语言学下的一个分支学科,其理论基础是语言学理论(包括心理语言学、社会语言学、人类语言学)、心理学理论和教育学理论。
它的研究对象就是对外汉语教学中的一般原则、方法和规律,以及与此相关的各种内部联系和外部联系。
对外汉语教学研究围绕“怎样教”“教什么”“如何学”三方面展开,其实质就是作为第二语言或外语的汉语本体研究及其教学规律与习得过程研究。
在目标领域文本中,术语具有较高的出现频率,而在其他领域文本中出现的频率则较低[3]。
为保证该领域术语的识别和提取效率,减少噪声和漏提现象,在建库过程中,应选择专门研究以上对外汉语教学理论和方法论的书面文献,同时作者应是以中文为母语的对外汉语教学领域的学者。
1.2 语料科学性
术语作为专业领域中用来表示特定理论体系中普遍概念的专用词汇单位[4]60,具有专业性、科学性、理据性、确切性、系统性等特点。
科技语体通常用来准确表述科学原理和科学规律,或系统地表述研究成果,因术语的含义固定、概念明确而大量运用术语,术语性就成为科技语体的首要和显著特点。
因此,研究中仅选择符合上述主题取向的科技语体文献作为目标文本纳入语料库。
1.3 样本代表性
所选择的文献资料是否具有科学性和权威性,能否从总体上体现学科整体框架,直接影响术语抽取的精确率。
1983年“中国教育学会对外汉语教学研究会”的成立标志着对外汉语教学作为一门学科正式诞生。
之后,随着我国经济的发展和综合国力的提升,世界范围内学习汉语的人数逐年增长,对外汉语教学的理论和方法也在不断完善。
2000年后,对外汉语教学事业飞速发展,学科内多个领域和方向的研究著作层出不穷,卷帙浩繁。
为此,本研究选择出版于2000年后能够较为全面地涵盖该学科理论与实践研究成果并切实反映该学科发展水平的科学著作作为目标文本纳入语料库。
1.4 规模有限性
根据上文,所建的专用语料库应覆盖目标领域内所有术语,并且每个术语应出现一定次数以上,才可能获得有关其使用信息的可靠统计结果。
因此,语料库需要达到相应的文本量。
统计研究显示,汉语每个词平均有2个义项,要求每个义项出现5次,那么,为编制10 000词的词典而创建的语料库应该包括10 000×2×5=100 000個句子。
若句子的平均长度是40个字,那么语料库要达到400万字[2]6。
在术语词典编纂中,影响其篇幅的主要因素是词典的学科取向、用途和功能。
术语词典的基本功能之一是清点功能,即最大限度地反映某一学科领域的专业词汇。
根据国际标准化组织的建议,规范术语词典的篇幅一般不宜超过1000个概念。
而某一题材术语教学词典的最佳篇幅也应该在1000个词汇单位左右[1]148-149。
因此,可以假设对外汉语教学领域的术语数量大约为1000个词汇单位,根据以上公式,旨在提取1000个术语的语料库规模应为40万字。
根据上述标准,选择了以下两部学术著作,以扫描识别加人工校对的方式录入文本,创建语料库:
1)商务印书馆于2014年出版的《对外汉语教学概论》,陈章太、于根元主编,全书共计304 756字[5];
2)商务印书馆于2016年出版的《汉语可以这样教——语言技能篇》,赵金铭主编,全书共计95 479字[6]。
以上两部著作系统全面地阐述了对外汉语教学的基本理论、教学法、教材基本理论研究、汉语作为第二语言的习得与测试、汉语综合技能训练等各方面的内容,理论基础扎实,实践性强,作为对外汉语教师的培训教材,具有较高的权威性和代表性。
2 语料库加工
语料库加工分为不同层次。
本研究的建库目的是提取对外汉语教学领域的术语,为此对语料库进行下列多层次加工。
2.1 预处理
将目标领域文本数字化是为随后的计算机自动处理文本所做的初步准备。
为避免出现后续的标注和检索错误,以获得可靠统计结果,需要对文本进行预处理(语料清理),从而获取一个整洁的文本。
在坚持原创原则的基础上,认真校对电子语料文本,删除乱码和嘈杂信息,检查错字漏字情况,然后借助软件“文本整理器”整理文本中空格、段落及标点符号方面的格式问题。
2.2 切词(segmentation)与词性标注(POS tagging)
汉语的最小书写单位是汉字,书面语句是连续字符串,除了标点符号之外,字与字之间没有空白。
切词就是按照特定规范,对汉语按切词单位进行切分。
经过切分,词与词之间的界限才会显现出来。
词性标注是对已经过切词的语料中的每一个词赋予一个词性标记[2]8。
按照国家标准《信息处理用现代汉语分词规范》(GB/T 13719—1992)和《信息处理用现代汉语词类标记规范》(GB/T 20532—2006),通过教育部语言文字应用研究所计算语言学研究室开发的“语料库在线”[7]中的汉语分词和词性自动标注系统,对语料进行自动切词与词性标注,如图 1所示。
2.3 词频分析
在目标领域文本中,术语与其他词语相比,出现频率较高。
因此可以提出假设,一个词语的出现次数越多,它作为术语的可能性也越大。
在对语料库文本进行切词与词性标注之后,使用“语料库在线”的词频统计功能确定词频。
该程序允许每次输入和处理的最大文本量为10万字,因此,所建规模为400 235字的语料库按前后顺序被分为4部分,最终得出4个词频表,其中不仅包括候选术语,还存在一些广为使用的不具备区分性的高频常用词汇。
为提高术语抽取的效率和准确率,去除词频表中的那些明确不是该领域内术语的词语是非常有必要的。
2.4 停用词处理
停用词是那些执行句法功能但不具有领域区分度的词。
在文本处理过程中,停用词具有很大的干扰性,因其严重影响文本处理效率和准确性而被视为噪声。
汉语常用停用词主要包括:数词、连词、代词、拟声词、感叹词、副词、成语、语气词、介词、处所词、助动词、时间词和状态词。
目前应用范围较广的停用词表有百度停用词表(baidu stopwords)、哈尔滨工业大学停用词表(hit_stopwords)、四川大学人工智能实验室编制的停用词表(scu_stopwords)。
百度停用词表中,除包含英文停用词外,两字词占比较大;四川大学停用词表则侧重三字词、四字词及常见俗语;哈尔滨工业大学停用词表囊括了大量的标点符号和特殊字符。
将这三个停用词表合并,构成一个新的停用词表,命名为《中文停用词全表》。
利用软件AntConc的自动删除停用词功能,过滤掉四个词频表中的停用词,然后将剩余部分词表合并(如表 1 所示),获取每个词的词频总数,之后进行下一步计算,抽取出单词候选术语。
在目标领域文本中,术语具有较高的出现频率,而在其他领域文本中出现的频率则较低[3]。
为保证该领域术语的识别和提取效率,减少噪声和漏提现象,在建库过程中,应选择专门研究以上对外汉语教学理论和方法论的书面文献,同时作者应是以中文为母语的对外汉语教学领域的学者。
1.2 语料科学性
术语作为专业领域中用来表示特定理论体系中普遍概念的专用词汇单位[4]60,具有专业性、科学性、理据性、确切性、系统性等特点。
科技语体通常用来准确表述科学原理和科学
规律,或系统地表述研究成果,因术语的含义固定、概念明确而大量运用术语,术语性就成为科技语体的首要和显著特点。
因此,研究中仅选择符合上述主题取向的科技语体文献作为目标文本纳入语料库。
1.3 样本代表性
所选择的文献资料是否具有科学性和权威性,能否从总体上体现学科整体框架,直接影响术语抽取的精确率。
1983年“中国教育学会对外汉语教学研究会”的成立标志着对外汉语教学作为一门学科正式诞生。
之后,随着我国经济的发展和综合国力的提升,世界范围内学习汉语的人数逐年增长,对外汉语教学的理论和方法也在不断完善。
2000年后,对外汉语教学事业飞速发展,学科内多个领域和方向的研究著作层出不穷,卷帙浩繁。
为此,本研究选择出版于2000年后能够较为全面地涵盖该学科理论与实践研究成果并切实反映该学科发展水平的科学著作作为目标文本纳入语料库。
1.4 规模有限性
根据上文,所建的专用语料库应覆盖目标领域内所有术语,并且每个术语应出现一定次数以上,才可能获得有关其使用信息的可靠统计结果。
因此,语料库需要达到相应的文本量。
统计研究显示,汉语每个词平均有2个义项,要求每个义项出现5次,那么,为编制10 000词的词典而创建的语料库应该包括10 000×2×5=100 000个句子。
若句子的平均长度是40个字,那么语料库要达到400万字[2]6。
在术语词典编纂中,影响其篇幅的主要因素是词典的学科取向、用途和功能。
术语词典的基本功能之一是清点功能,即最大限度地反映某一学科领域的专业词汇。
根据国际标准化组织的建议,规范术语词典的篇幅一般不宜超过1000个概念。
而某一题材术语教学词典的最佳篇幅也应该在1000个词汇单位左右[1]148-149。
因此,可以假设对外汉语教学领域的术语数量大约为1000个词汇单位,根据以上公式,旨在提取1000个术语的语料库规模应为40万字。
根据上述标准,选择了以下两部学术著作,以扫描识别加人工校对的方式录入文本,创建语料库:
1)商务印书馆于2014年出版的《对外汉语教学概论》,陈章太、于根元主编,全书共计304 756字[5];
2)商务印书馆于2016年出版的《汉语可以这样教——语言技能篇》,赵金铭主编,全书共计95 479字[6]。
以上两部著作系统全面地阐述了对外汉语教学的基本理论、教学法、教材基本理论研究、汉语作为第二语言的习得与测试、汉语综合技能训练等各方面的内容,理论基础扎实,实践性强,作为对外汉语教师的培训教材,具有较高的权威性和代表性。
2 语料库加工
语料库加工分为不同层次。
本研究的建库目的是提取对外汉语教学领域的术语,为此对语料库进行下列多层次加工。
2.1 预处理
将目标领域文本数字化是为随后的计算机自动处理文本所做的初步准备。
为避免出现后续的标注和检索错误,以获得可靠统计结果,需要对文本进行预处理(语料清理),从而获取一个整洁的文本。
在坚持原创原则的基础上,认真校对电子语料文本,删除乱码和嘈杂信息,检查错字漏字情况,然后借助软件“文本整理器”整理文本中空格、段落及标点符号方面的格式问题。
2.2 切词(segmentation)与词性标注(POS tagging)
汉语的最小书写单位是汉字,书面语句是连续字符串,除了标点符号之外,字与字之间没有空白。
切词就是按照特定规范,对汉语按切词单位进行切分。
经过切分,词与词之间的界限才会显现出来。
词性标注是对已经过切词的语料中的每一个词赋予一个词性标记[2]8。
按照国家标准《信息处理用现代汉语分词规范》(GB/T 13719—1992)和《信息处理用现代汉语词类标记规范》(GB/T 20532—2006),通过教育部语言文字应用研究所计算语言学研究室开发的“语料库在线”[7]中的汉语分词和词性自动标注系统,对语料进行自动切词与词性标注,如图 1所示。
2.3 词频分析
在目标领域文本中,术语与其他词语相比,出现频率较高。
因此可以提出假设,一个词语的出现次数越多,它作为术语的可能性也越大。
在对语料库文本进行切词与词性标注之后,使用“语料库在线”的词频统计功能确定词频。
该程序允许每次输入和处理的最大文本量为10万字,因此,所建规模为400 235字的语料库按前后顺序被分为4部分,最终得出4个词频表,其中不仅包括候选术语,还存在一些广为使用的不具备区分性的高频常用词汇。
为提高术语抽取的效率和准确率,去除词频表中的那些明确不是该领域内术语的词语是非常有必要的。
2.4 停用词处理
停用词是那些执行句法功能但不具有领域区分度的词。
在文本处理过程中,停用词具有很大的干扰性,因其严重影响文本处理效率和准确性而被视为噪声。
汉语常用停用词主要包括:数词、连词、代词、拟声词、感叹词、副词、成语、语气词、介词、处所词、助动词、时间词和状态词。
目前应用范围较广的停用词表有百度停用词表(baidu stopwords)、哈尔滨工业大学停用词表(hit_stopwords)、四川大学人工智能实验室编制的停用词表(scu_stopwords)。
百度停用词表中,除包含英文停用词外,两字词占比较大;四川大学停用词表则侧重三字词、四字词及常见俗语;哈尔滨工业大学停用词表囊括了大量的标点符号和特殊字符。
将这三个停用词表合并,构成一个新的停用詞表,命名为《中文停用词全表》。
利用软件AntConc的自动删除停用词功能,过滤掉四个词频表中的停用词,然后将剩余部分词表合并(如表 1 所示),获取每个词的词频总数,之后进行下一步计算,抽取出单词候选术语。
在目标领域文本中,术语具有较高的出现频率,而在其他领域文本中出现的频率则较低[3]。
为保证该领域术语的识别和提取效率,减少噪声和漏提现象,在建库过程中,应选择专门研究以上对外汉语教学理论和方法论的书面文献,同时作者应是以中文为母语的对外汉语教学领域的学者。
1.2 语料科学性
术语作为专业领域中用来表示特定理论体系中普遍概念的专用词汇单位[4]60,具有专业性、科学性、理据性、确切性、系统性等特点。
科技语体通常用来准确表述科学原理和科学规律,或系统地表述研究成果,因术语的含义固定、概念明確而大量运用术语,术语性就成为科技语体的首要和显著特点。
因此,研究中仅选择符合上述主题取向的科技语体文献作为目标文本纳入语料库。
1.3 样本代表性
所选择的文献资料是否具有科学性和权威性,能否从总体上体现学科整体框架,直接影响术语抽取的精确率。
1983年“中国教育学会对外汉语教学研究会”的成立标志着对外汉语教学作为一门学科正式诞生。
之后,随着我国经济的发展和综合国力的提升,世界范围内学习汉语的人数逐年增长,对外汉语教学的理论和方法也在不断完善。
2000年后,对外汉语教学事业飞速发展,学科内多个领域和方向的研究著作层出不穷,卷帙浩繁。
为此,本研究选择出版于2000年后能够较为全面地涵盖该学科理论与实践研究成果并切实反映该学科发展水平的科学著作作为目标文本纳入语料库。
1.4 规模有限性
根据上文,所建的专用语料库应覆盖目标领域内所有术语,并且每个术语应出现一定次数以上,才可能获得有关其使用信息的可靠统计结果。
因此,语料库需要达到相应的文本量。
统计研究显示,汉语每个词平均有2个义项,要求每个义项出现5次,那么,为编制10 000词
的词典而创建的语料库应该包括10 000×2×5=100 000个句子。
若句子的平均长度是40个字,那么语料库要达到400万字[2]6。
在术语词典编纂中,影响其篇幅的主要因素是词典的学科取向、用途和功能。
术语词典的基本功能之一是清点功能,即最大限度地反映某一学科领域的专业词汇。
根据国际标准化组织的建议,规范术语词典的篇幅一般不宜超过1000个概念。
而某一题材术语教学词典的最佳篇幅也应该在1000个词汇单位左右[1]148-149。
因此,可以假设对外汉语教学领域的术语数量大约为1000个词汇单位,根据以上公式,旨在提取1000个术语的语料库规模应为40万字。
根据上述标准,选择了以下两部学术著作,以扫描识别加人工校对的方式录入文本,创建语料库:
1)商务印书馆于2014年出版的《对外汉语教学概论》,陈章太、于根元主编,全书共计304 756字[5];
2)商务印书馆于2016年出版的《汉语可以这样教——语言技能篇》,赵金铭主编,全书共计95 479字[6]。
以上两部著作系统全面地阐述了对外汉语教学的基本理论、教学法、教材基本理论研究、汉语作为第二语言的习得与测试、汉语综合技能训练等各方面的内容,理论基础扎实,实践性强,作为对外汉语教师的培训教材,具有较高的权威性和代表性。
2 语料库加工
语料库加工分为不同层次。
本研究的建库目的是提取对外汉语教学领域的术语,为此对语料库进行下列多层次加工。
2.1 预处理
将目标领域文本数字化是为随后的计算机自动处理文本所做的初步准备。
为避免出现后续的标注和检索错误,以获得可靠统计结果,需要对文本进行预处理(语料清理),从而获取一个整洁的文本。
在坚持原创原则的基础上,认真校对电子语料文本,删除乱码和嘈杂信息,检查错字漏字情况,然后借助软件“文本整理器”整理文本中空格、段落及标点符号方面的格式问题。
2.2 切词(segmentation)与词性标注(POS tagging)
汉语的最小书写单位是汉字,书面语句是连续字符串,除了标点符号之外,字与字之间没有空白。
切词就是按照特定规范,对汉语按切词单位进行切分。
经过切分,词与词之间的界限
才会显现出来。
词性标注是对已经过切词的语料中的每一个词赋予一个词性标记[2]8。
按照国家标准《信息处理用现代汉语分词规范》(GB/T 13719—1992)和《信息处理用现代汉语词类标记规范》(GB/T 20532—2006),通过教育部语言文字应用研究所计算语言学研究室开发的“语料库在线”[7]中的汉语分词和词性自动标注系统,对语料进行自动切词与词性标注,如图 1所示。
2.3 词频分析
在目标领域文本中,术语与其他词语相比,出现频率较高。
因此可以提出假设,一个词语的出现次数越多,它作为术语的可能性也越大。
在对语料库文本进行切词与词性标注之后,使用“语料库在线”的词频统计功能确定词频。
该程序允许每次输入和处理的最大文本量为10万字,因此,所建规模为400 235字的语料库按前后顺序被分为4部分,最终得出4个词频表,其中不仅包括候选术语,还存在一些广为使用的不具备区分性的高频常用词汇。
为提高术语抽取的效率和准确率,去除词频表中的那些明确不是该领域内术语的词语是非常有必要的。
2.4 停用词处理
停用词是那些执行句法功能但不具有领域区分度的词。
在文本处理过程中,停用词具有很大的干扰性,因其严重影响文本处理效率和准确性而被视为噪声。
汉语常用停用词主要包括:数词、连词、代词、拟声词、感叹词、副词、成语、语气词、介词、处所词、助动词、时间词和状态词。
目前应用范围较广的停用词表有百度停用词表(baidu stopwords)、哈尔滨工业大学停用词表(hit_stopwords)、四川大学人工智能实验室编制的停用词表(scu_stopwords)。
百度停用词表中,除包含英文停用词外,两字词占比较大;四川大学停用词表则侧重三字词、四字词及常见俗语;哈尔滨工业大学停用词表囊括了大量的标点符号和特殊字符。
将这三个停用词表合并,构成一个新的停用词表,命名为《中文停用词全表》。
利用软件AntConc的自动删除停用词功能,过滤掉四个词频表中的停用词,然后将剩余部分词表合并(如表 1 所示),获取每个词的词频总数,之后进行下一步计算,抽取出单词候选术语。