基于语料库的对外汉语词汇例句收集研究
基于语料库的对外汉语习得研究
《基于语料库的对外汉语习得研究》招聘工作者关于项目:我校与兰卡斯特大学联手成功申报国际科研项目近日,我校科研工作传来喜讯,英国兰卡斯特大学语言学及英语语言系Richard Xiao教授带领的团队与我校外国语言学及应用语言学研究中心、留学生教育学院联合申报的课题“The Corpus-based Approach to the Acquisition of Mandarin Chinese as a Foreign Language”(《基于语料库的对外汉语习得研究》)获英国科学院(the British Academy)2013年度IPM项目资助。
英国科学院项目为英国政府资助的、享有很高声誉的高级别项目。
该课题的成功立项,是我校国际合作研究的又一突破,为我校实现高水平国际化大学的建设目标作出了贡献。
我校副校长兼外国语言学及应用语言学研究中心主任刘建达教授积极促成这一项目的联合申报,该项目我校主要成员有刘建达、徐海、梁学宏、王凤兰、郝红艳、范香娟等。
关于具体工作:第一阶段是留学生书面语和口语的转写工作,整个语料库是100万字,口语占30万字,书面语70万字,这些模板会正式启动后通知,书面语转写报酬是10000字转写是100元人民币,其中口语转写的报酬相对高些。
这个阶段从今年1月-10月。
书面语转写不难,基本是属于打字,把每篇小作文打到记事本中,txt格式,因为OCR光学识别软件的对手写体的识别率为0。
第二阶段是系统错误标注阶段,到时候应该会有一个完整的标注集和每个错误标注的操作定义,或许采用在线标注的方式,这个可能得看英国那边的意思--英国那边会在今年3月份(下学期初)派人过来进行培训(大致形式是几个工作坊)。
关于要求:转写没有字数要求,会更具每个组员的时间,由你们自己觉得自己能做多少,不过要求责任心和细心。
很欢迎语言学方向的童鞋参加参加项目可以丰富你们的简历(不过参加1天就不做的可能要考虑一下)-任务会根据你们个人的时间来定。
24语料库技术在对外汉语学习词典编纂中的应用实践_定稿
语料库技术在对外汉语学习词典编纂中的应用实践*――以《基于语料库的HSK多功能例解字典》为例郭曙纶200030上海市华山路1954号 上海交通大学国际教育学院摘要:本文结合对外汉语学习字典编纂实践探讨语料库技术在对外汉语学习词典编纂中四个方面的应用:一、确定字典字头的收字范围;二、确定字典例句的用字范围;三、限定字典释义的用字范围;四、确定字典字头的义项。
关键词:语料库技术 对外汉语 学习字典 应用郭曙纶曾在《基于语料库的HSK多功能例解字典:设想与样例》一文中提出编写《基于语料库的HSK多功能例解字典》(为行文简便,以下简称为“本字典”)的设想,本文想结合此字典编纂过程中碰到的一些具体问题进行分析讨论,着重探讨语料库技术在对外汉语学习词典编纂中的应用。
首先,通过语料库技术来确定字典字头的收字范围。
本字典虽然是以汉语水平考试大纲字为蓝本(计划先做甲级字字典,以后再逐步扩充到汉语水平考试整个2905个汉字字典),但是为了更科学而且也更实用,有必要增加一些字。
第一类是释义的需要,为了保证释义用字必须作为字头出现,即所有释义用字本身在字典中都有释义,必须把释义用字出现但不是汉语水平考试甲级字的字增加进来1;第二类是留学生生活的需要,因为汉语水平考试大纲中漏收了留学生生活中的部分常用字,如“签、证”等;第三类是构字构词的需要,比如“巴”,本身虽然不是常用字,但是它可以构成“把”“吧”和“爸”等常用字。
由于时间的关系,在我们目前的实际编纂中,后两类字暂时还没有增加进来,因为这两类字牵涉到比较多的理论与实践问题,需要深入研究才能解决,不是在短时间内会有确定答案的。
第一类字增加的数目是44个,以后随着字头的增加应该还会增加一些。
因为随着字头的增加释义用到的汉字会略有增加,尤其是某些特殊的字,必须用某些特定的字来解释,比如“钢”必须用“铁”来解释才更简明一些。
但是增加的比例肯定会大大缩小。
这是因为一方面这些释义用字在普通文本中虽不是很高,但也不是太低,所以当字典规模扩大时,第一类字的数量并不随之同步增加,比如本字典这次增加的44个字中仅有一个“叹”字是丙级字,其余43个都是乙级字。
《基于汉语语料库的中文词句快速检索算法研究》
《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的迅猛发展,中文词句检索技术在众多领域得到了广泛应用。
在大数据时代背景下,如何实现基于汉语语料库的中文词句快速检索,成为了一个重要的研究课题。
本文旨在探讨基于汉语语料库的中文词句快速检索算法的研究,分析其技术原理、实现方法和应用前景,为相关领域的研究和应用提供参考。
二、汉语语料库概述汉语语料库是中文词句检索的基础。
它包含了大量的中文文本数据,如新闻报道、文学作品、科技论文等。
通过对这些语料进行预处理和分词等操作,我们可以获取到用于检索的词句。
为了实现快速检索,需要构建高效的数据结构和算法。
三、快速检索算法研究(一)算法技术原理基于汉语语料库的中文词句快速检索算法主要采用倒排索引技术。
倒排索引是一种基于关键词的索引方式,它将每个词的所有出现位置进行记录和存储。
当用户输入查询词时,系统可以快速地找到所有包含该词的文本数据,从而实现快速检索。
(二)算法实现方法1. 预处理阶段:对语料库进行分词、去除停用词等操作,提取出用于检索的关键词。
2. 构建倒排索引:将关键词与对应的文本数据建立映射关系,形成倒排索引表。
3. 查询处理:当用户输入查询词时,系统根据倒排索引表快速找到所有包含该词的文本数据,并进行排序和展示。
(三)算法优化策略为了进一步提高检索速度和准确性,可以采取以下优化策略:1. 优化数据结构:采用更高效的数据结构存储倒排索引表,如压缩存储、稀疏矩阵等。
2. 引入机器学习技术:利用机器学习算法对语料库进行语义分析和理解,提高检索准确性。
3. 分布式计算:将检索任务分布式部署在多个计算节点上,实现并行计算和负载均衡。
四、应用前景展望基于汉语语料库的中文词句快速检索算法具有广泛的应用前景。
它可以应用于搜索引擎、信息推荐、自然语言处理等领域。
在搜索引擎中,用户可以通过输入关键词快速找到相关信息;在信息推荐中,系统可以根据用户的历史行为和兴趣偏好推荐相关内容;在自然语言处理中,该算法可以用于文本分类、情感分析等任务。
《基于汉语语料库的中文词句快速检索算法研究》
《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的飞速发展,中文信息处理已成为当前研究的热点。
在众多领域中,基于汉语语料库的中文词句快速检索算法研究显得尤为重要。
该研究旨在提高中文文本检索的效率和准确性,为中文信息处理提供强有力的技术支持。
本文将详细探讨基于汉语语料库的中文词句快速检索算法的研究背景、目的、方法及贡献。
二、研究背景及目的随着互联网的普及和大数据时代的到来,海量的中文信息给人们带来了极大的便利,同时也带来了信息检索的挑战。
传统的中文词句检索算法在处理大规模语料库时,往往存在检索速度慢、准确率低等问题。
因此,研究基于汉语语料库的中文词句快速检索算法,对于提高中文文本检索的效率和准确性具有重要意义。
本研究的目的在于:1. 提出一种高效的中文词句快速检索算法;2. 优化算法性能,提高检索速度和准确率;3. 为中文信息处理提供技术支持,推动相关领域的发展。
三、研究方法本研究采用以下方法:1. 语料库构建:构建大规模的汉语语料库,包括文本、词汇、句法等多个层面;2. 算法设计:针对中文词句检索的特点,设计一种高效的检索算法;3. 实验验证:通过实验验证算法的性能,分析其优点和不足;4. 优化改进:根据实验结果,对算法进行优化改进,提高其检索速度和准确率。
四、算法设计本研究提出的中文词句快速检索算法主要包括以下步骤:1. 预处理:对语料库进行分词、去除停用词等预处理操作;2. 索引构建:根据预处理后的结果,构建倒排索引;3. 查询处理:将用户输入的查询语句进行分词、去停用词等操作,生成查询关键词;4. 检索匹配:根据查询关键词,在倒排索引中进行检索匹配;5. 结果输出:将匹配结果按照相关度排序后输出。
五、实验验证及结果分析本研究通过实验验证了所提出算法的性能。
实验结果表明,该算法在处理大规模语料库时,具有较高的检索速度和准确率。
具体分析如下:1. 检索速度:该算法采用倒排索引技术,大大提高了检索速度。
《基于汉语语料库的中文词句快速检索算法研究》范文
《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的迅猛发展,中文词句检索技术在众多领域得到了广泛应用。
在海量数据中快速、准确地检索出所需的词句信息,已成为当今研究的重要课题。
本文针对基于汉语语料库的中文词句快速检索算法进行研究,旨在提高检索效率和准确性,满足不同领域的应用需求。
二、汉语语料库概述汉语语料库是中文词句检索的基础。
本文所使用的汉语语料库应具备以下特点:1. 丰富性:包含各类文本资源,如新闻、小说、论文等,以支持不同领域的检索需求。
2. 准确性:词汇、语法等信息的标注应准确无误,以提高检索的准确性。
3. 更新性:随着新词汇、新表达方式的不断涌现,语料库应具备更新能力,以保持其时效性。
三、中文词句快速检索算法研究针对中文词句检索的特点,本文提出以下几种快速检索算法:1. 基于倒排索引的检索算法倒排索引是中文词句检索中常用的技术。
该算法将文本中的词汇与其在文本中的位置信息进行关联,构建倒排索引表。
在检索时,根据用户输入的词句,快速查找倒排索引表,获取相关文本的位置信息,从而实现快速检索。
2. 基于词向量模型的检索算法词向量模型是一种将词汇转换为向量表示的方法。
通过训练大量文本数据,得到词汇的向量表示。
在检索时,将用户输入的词句转换为向量表示,然后与语料库中的文本向量进行相似度计算,从而找到相关文本。
该算法可以充分考虑词汇的语义信息,提高检索的准确性。
3. 融合多种算法的混合检索策略针对不同领域、不同需求,可以采用融合多种算法的混合检索策略。
例如,先使用倒排索引进行初步筛选,再结合词向量模型进行精确匹配。
此外,还可以引入其他技术手段,如自然语言处理、知识图谱等,进一步提高检索的效果。
四、实验与分析为验证本文提出的中文词句快速检索算法的有效性,我们进行了实验分析。
实验数据来源于一个大型汉语语料库,实验环境为高性能计算机集群。
通过对比不同算法的检索速度、准确率、召回率等指标,我们发现:1. 基于倒排索引的检索算法在速度上具有明显优势,适用于大规模语料库的快速检索。
基于语料库的对外汉语教学领域术语提取
基于语料库的对外汉语教学领域术语提取卢一鑫(河南财经政法大学外语学院,河南郑州㊀450046)摘㊀要:文章介绍了自动提取对外汉语教学领域术语的方法㊂以对外汉语教学领域文本为目标文本,遵循主题取向㊁语料科学性㊁样本代表性㊁规模有限性等原则,建立专用语料库,并对其进行分词标注等加工;将统计学和语言学规则相结合,引用C -value 方法计算术语度值,探索该领域内不同长度术语的发现㊁辨识及提取的 混合方法 (hybrid solution),最终建立对外汉语教学术语集,其中包含单词型术语238个,两词术语375个,三词术语121个和50个由4~6个单词组成的长术语㊂关键词:专用语料库;术语提取;对外汉语教学;对外汉语教学术语集;C -value 算法中图分类号:H083;TP391㊀㊀文献标识码:A㊀㊀DOI :10.12339/j.issn.1673-8578.2024.01.002Corpus-Based Term Extraction in Field of Chinese Teaching as a Foreign Language //LU YixinAbstract :This paper introduces a method to extract terms of Chinese teaching as a foreign language.We take the text in the field of Chinese teaching as a foreign language as the target text,follow the principles of subject orientation,scientific corpus,and limited sample representation to establish a specialized corpus,and process it such as word segmentation and POS tagging.We combine sta-tistical and linguistic rules,use the C -value method to calculate the term degree value,and explore the hybrid solution to find,de-fine and extract terms of different lengths in this field.Finally a terminology base for Chinese teaching as a foreign language is estab-lished,including 238single word terms,375two word terms,121three word terms,and 50long terms (consisting of 4-6words).Keywords :specialized corpus;term extraction;Chinese teaching as foreign language;terminology base for Chinese teaching;C -value algorithm收稿日期:2023-07-09㊀㊀修回日期:2023-08-25㊀㊀网络出版日期:2023-11-16基金项目: 中国外语教育基金 项目 基于语料库的汉俄对外语言教学术语词典编纂方式探究 (ZGWYJYJJ11A102)阶段性成果0㊀引言术语作为描述和传播科学概念㊁定义和规律的基本要素,集中体现和负载了一个学科领域的核心知识,是人类科学知识在语言中的结晶,也是促进学科建设的有力工具㊂一种学问要成为一门独立的学科,必须有一整套术语来描述其研究对象㊁目的㊁方法㊁规律和定理的基本概念㊂科学㊁规范㊁系统的术语体系能促进一门学科的健康发展,相反,不科学㊁混乱的术语体系常常会阻碍一门学科的发展㊂随着对外汉语教学在全球的推广,有关对外汉语教学法㊁教学理论的研究越来越多㊂为促进对外汉语教学在全球的进一步发展,建立一个科学㊁规范的术语集具有重要意义㊂它不仅可以辅助编纂专业词典,同时也可在知识传播㊁机器翻译㊁科技写作等方面发挥重要作用㊂术语来源于文献资料,其中包括标准㊁词表㊁辞书㊁数据库㊁专著及论文等[1]277㊂语料库是由大量在真实情况下使用的语言信息经过科学地收集和组织而集成的专供研究使用的资料库,其主要应用领域为词典编纂㊁语义学研究㊁语言教学㊁信息获取㊁未登录词(out of vocabulary)获取以及基于实例的机器翻译等[2]5㊂对于自然语言处理而言,术语通常都是未登录词[3]㊂为此,建设用于提取对外汉语教学领域术语的专用语料库(specialized cor-pus),并对其进行加工,使其信息更加丰富,可以大大提高术语的辨识和提取效率㊂1㊀语料库的设计与建立语料库并非语篇的简单堆砌或集合,它应具有样本代表性㊁规模有限性㊁机读形式化等特征[2]2㊂本研究中创建语料库的目的是提取对外汉语教学术语,同时形成一个术语数据库,因此在创建该专用语料库时,遵循以下语料选取原则㊂1.1㊀主题取向性对外汉语教学是指对外国人的汉语教学㊂作为应用语言学下的一个分支学科,其理论基础是语言学理论(包括心理语言学㊁社会语言学㊁人类语言学)㊁心理学理论和教育学理论㊂它的研究对象就是对外汉语教学中的一般原则㊁方法和规律,以及与此相关的各种内部联系和外部联系㊂对外汉语教学研究围绕 怎样教 教什么 如何学 三方面展开,其实质就是作为第二语言或外语的汉语本体研究及其教学规律与习得过程研究㊂在目标领域文本中,术语具有较高的出现频率,而在其他领域文本中出现的频率则较低[3]㊂为保证该领域术语的识别和提取效率,减少噪声和漏提现象,在建库过程中,应选择专门研究以上对外汉语教学理论和方法论的书面文献,同时作者应是以中文为母语的对外汉语教学领域的学者㊂1.2㊀语料科学性术语作为专业领域中用来表示特定理论体系中普遍概念的专用词汇单位[4]60,具有专业性㊁科学性㊁理据性㊁确切性㊁系统性等特点㊂科技语体通常用来准确表述科学原理和科学规律,或系统地表述研究成果,因术语的含义固定㊁概念明确而大量运用术语,术语性就成为科技语体的首要和显著特点㊂因此,研究中仅选择符合上述主题取向的科技语体文献作为目标文本纳入语料库㊂1.3㊀样本代表性所选择的文献资料是否具有科学性和权威性,能否从总体上体现学科整体框架,直接影响术语抽取的精确率㊂1983年 中国教育学会对外汉语教学研究会 的成立标志着对外汉语教学作为一门学科正式诞生㊂之后,随着我国经济的发展和综合国力的提升,世界范围内学习汉语的人数逐年增长,对外汉语教学的理论和方法也在不断完善㊂2000年后,对外汉语教学事业飞速发展,学科内多个领域和方向的研究著作层出不穷,卷帙浩繁㊂为此,本研究选择出版于2000年后能够较为全面地涵盖该学科理论与实践研究成果并切实反映该学科发展水平的科学著作作为目标文本纳入语料库㊂1.4㊀规模有限性根据上文,所建的专用语料库应覆盖目标领域内所有术语,并且每个术语应出现一定次数以上,才可能获得有关其使用信息的可靠统计结果㊂因此,语料库需要达到相应的文本量㊂统计研究显示,汉语每个词平均有2个义项,要求每个义项出现5次,那么,为编制10000词的词典而创建的语料库应该包括10000ˑ2ˑ5=100000个句子㊂若句子的平均长度是40个字,那么语料库要达到400万字[2]6㊂在术语词典编纂中,影响其篇幅的主要因素是词典的学科取向㊁用途和功能㊂术语词典的基本功能之一是清点功能,即最大限度地反映某一学科领域的专业词汇㊂根据国际标准化组织的建议,规范术语词典的篇幅一般不宜超过1000个概念㊂而某一题材术语教学词典的最佳篇幅也应该在1000个词汇单位左右[1]148-149㊂因此,可以假设对外汉语教学领域的术语数量大约为1000个词汇单位,根据以上公式,旨在提取1000个术语的语料库规模应为40万字㊂根据上述标准,选择了以下两部学术著作,以扫描识别加人工校对的方式录入文本,创建语料库:1)商务印书馆于2014年出版的‘对外汉语教学概论“,陈章太㊁于根元主编,全书共计304 756字[5];2)商务印书馆于2016年出版的‘汉语可以这样教 语言技能篇“,赵金铭主编,全书共计95479字[6]㊂以上两部著作系统全面地阐述了对外汉语教学的基本理论㊁教学法㊁教材基本理论研究㊁汉语作为第二语言的习得与测试㊁汉语综合技能训练等各方面的内容,理论基础扎实,实践性强,作为对外汉语教师的培训教材,具有较高的权威性和代表性㊂2㊀语料库加工语料库加工分为不同层次㊂本研究的建库目的是提取对外汉语教学领域的术语,为此对语料库进行下列多层次加工㊂2.1㊀预处理将目标领域文本数字化是为随后的计算机自动处理文本所做的初步准备㊂为避免出现后续的标注和检索错误,以获得可靠统计结果,需要对文本进行预处理(语料清理),从而获取一个整洁的文本㊂在坚持原创原则的基础上,认真校对电子语料文本,删除乱码和嘈杂信息,检查错字漏字情况,然后借助软件 文本整理器 整理文本中空格㊁段落及标点符号方面的格式问题㊂2.2㊀切词(segmentation )与词性标注(POS tag-ging )汉语的最小书写单位是汉字,书面语句是连续字符串,除了标点符号之外,字与字之间没有空白㊂切词就是按照特定规范,对汉语按切词单位进行切分㊂经过切分,词与词之间的界限才会显现出来㊂词性标注是对已经过切词的语料中的每一个词赋予一个词性标记[2]8㊂按照国家标准‘信息处理用现代汉语分词规范“(GB /T 13719 1992)和‘信息处理用现代汉语词类标记规范“(GB /T 205322006),通过教育部语言文字应用研究所计算语言学研究室开发的 语料库在线 [7]中的汉语分词和词性自动标注系统,对语料进行自动切词与词性标注,如图1所示㊂图1㊀分词和词性标注示例2.3㊀词频分析在目标领域文本中,术语与其他词语相比,出现频率较高㊂因此可以提出假设,一个词语的出现次数越多,它作为术语的可能性也越大㊂在对语料库文本进行切词与词性标注之后,使用 语料库在线 的词频统计功能确定词频㊂该程序允许每次输入和处理的最大文本量为10万字,因此,所建规模为400235字的语料库按前后顺序被分为4部分,最终得出4个词频表,其中不仅包括候选术语,还存在一些广为使用的不具备区分性的高频常用词汇㊂为提高术语抽取的效率和准确率,去除词频表中的那些明确不是该领域内术语的词语是非常有必要的㊂2.4㊀停用词处理停用词是那些执行句法功能但不具有领域区分度的词㊂在文本处理过程中,停用词具有很大的干扰性,因其严重影响文本处理效率和准确性而被视为噪声㊂汉语常用停用词主要包括:数词㊁连词㊁代词㊁拟声词㊁感叹词㊁副词㊁成语㊁语气词㊁介词㊁处所词㊁助动词㊁时间词和状态词㊂目前应用范围较广的停用词表有百度停用词表(baidu stopwords)㊁哈尔滨工业大学停用词表(hit_stopwords)㊁四川大学人工智能实验室编制的停用词表(scu _stop-words)㊂百度停用词表中,除包含英文停用词外,两字词占比较大;四川大学停用词表则侧重三字词㊁四字词及常见俗语;哈尔滨工业大学停用词表囊括了大量的标点符号和特殊字符㊂将这三个停用词表合并,构成一个新的停用词表,命名为‘中文停用词全表“㊂利用软件AntConc 的自动删除停用词功能,过滤掉四个词频表中的停用词,然后将剩余部分词表合并(如表1所示),获取每个词的词频总数,之后进行下一步计算,抽取出单词候选术语㊂表1㊀各词频表中部分术语的词频统计词词频表1词频表2词频表3词频表4总计语言8877992922532231汉语3955399722732179文化2502117972612语法19611325348610汉字624541451572词汇1216217853414习得35337193394表达774246180345词语113589190325句子162685186313母语391687316296语音385614736277教学法147172734225课文6508132196音节0138423120 3㊀术语抽取不同语言中,术语的构词方式有着本质的不同,特殊的语法结构在一定程度上也是术语特征㊂因此,汉语术语的构词规则可以成为识别术语的语言学标准㊂冯志伟[8]㊁韩红旗[9]㊁Sui Zhifang等[10]众多学者对中文术语的长度㊁词性㊁构词规则等方面进行了研究㊂对以上学者的相关研究进行分析,可得出如下结论:(1)包含在术语中的单词数,被称作术语的长度㊂术语通常由一个或多个单词组成㊂由一个单词构成的术语为单词型术语(simple-word term),其长度为1;由多个单词组成的术语称作词组型术语或多词术语(multi-word term),其长度大于1㊂单词型术语不仅能单独用作术语,还可以用作词组型术语的组成成分㊂(2)术语的主要功能是称名概念㊂在各个词类中,名词最常执行称名功能㊂因此,名词有很大的机会充当术语㊂与此同时,用于描述特定情况下的过程或现象的动词也可以是独立的术语㊂单词型术语更多地是由单个名词或动词构成的㊂除此之外,名词和动词也可以作为词组型术语的组成部分,而形容词㊁副词等其他词类在大多数情况下作为一个组成部分出现在词组型术语中,很少单独用作术语㊂(3)词组型术语在数量上远超单词型术语㊂词组型术语的主要特点是具有稳定性和再现性,比单词型术语更能反映其命名概念的区分特征及种属关系,可以使术语更好地满足 系统性 有序性 准确性 等要求㊂词组型术语的这些属性在形式上具有语法标志,这就意味着,确定词组型术语的基本构词模式,并借此对它们进行自动识别的客观前提是存在的[4]184㊂基于上述研究,确定了由2~3个单词组成的词组型术语的构词规则,如表2所示㊂(4)汉语词组型术语通常由2~3个单词组成,在某些领域存在少量由4~6个单词组成的多词术语,但由于其使用不便,它们往往被缩减成缩略语(单词型术语)进行使用㊂随着术语长度的增加,长术语的构词模式也不断增加,但其覆盖率却急剧下降,大部分长术语构词模式的覆盖率不足1%,可见长度超过3的术语已不适合采用构词规则作为识别手段㊂因此,在上述研究的对比分析过程中,可以总结出识别由4~6个单词构成的多词术语的如下一般特征:①4~6词候选术语中不包括:代词,习用语,状态词,处所词,拟声词,感叹词,标点符号和成语;②4~6词候选术语不以连词或助词开头;③4~6词候选术语不以连词㊁方位词作词尾㊂3.1㊀单词型术语的抽取单词型术语更多地由单个名词或动词构成㊂因此,从经过停用词处理后的词频汇总表中抽取所有名词和动词,并对它们进行术语度值(Termhood)的计算㊂术语度用来计算候选术语与特定领域的关联程度,术语度值越高,候选术语成为术语的可能性就越大㊂表2㊀由2~3词组成的词组型术语的构词规则术语类别构词规则示例构词规则示例2词术语n +n 语言/n 行为/n a +n 基本/a 能力/n v +n 表达/v 能力/n f +n对外/f 汉语/nn +v 笔头/n 练习/v a +v 完全/a 掌握/v v +v阅读/v 理解/vm +n第二/m 语言/n3词术语n +n +n 中介/n 语/n 理论/n d +n +n 对外/d 汉语/n 教材/n n +v +n 汉字/n 输入/v 法/na +n +n 多/a 语言/n 背景/n v +v +n教学/v 辅助/v 手段/n v +n +v 跨/v 文化/n 交际/vv +n +n 产出/v 性/n 技能/n n +v +v汉语/n 写作/v 教学/vn +n +v汉语/n 水平/n 考试/v m +n +v 第二/m 语言/n 教学/v m +n +n第二/m 语言/n 习得/nd +n +v对外/d 汉语/n 教学/v备注:n 代表名词,v 代表动词,a 代表形容词,d 代表副词,f 代表方位词,m 代表数词㊂㊀㊀C -value 作为自动术语提取研究中常见的术语度计算方法,在计算时不仅考虑了候选术语的长度及其在目标领域文本中出现的频率,同时也考虑了它作为组成部分嵌套在其他词组型术语中的频率㊂一个词若能被嵌套在更多词组中,它成为术语的可能性就越大㊂一般情况下,C -value 计算公式只能计算词组型候选术语的术语度值,因其公式中的log 2|t |恒为0,使得所有计算结果均为0,为此Barron-Cedeno 等[11]提出了适用于计算单词型术语的术语度值的C -value 计算公式,将公式中的系数log 2|t |改为C (t ),并设置C (t )=1+log 2|t |:C -Value(t )=c (t )㊃TF (t )c (t )㊃(TF (t )-ðs TF (s )|{s ʒt ⊂s }|)ìîíïïïï其中:t 表示候选术语,TF 表示嵌套术语的频率,s 表示包含t 的候选术语的数量㊂通过上述公式计算出所有单词型候选术语的术语度值,并据此对它们进行排序㊂与此同时,将计算出的平均值作为阈值,之后提取出术语度值高于阈值的候选术语,构建最终的单词型术语列表㊂3.2㊀词组型术语抽取如上所述,词组型术语结构稳定,并形成特有的固定搭配㊂从统计学角度看,词组型术语各组成部分的共现频率通常较高[3],由高频词汇组成且高频率出现的字符串更有可能成为词组型术语,由此提出假设,该领域词组型术语嵌套已提取的单词型术语㊂通过日本早稻田大学Laurence Anthony 设计的语料库分析工具AntConc 的索引(Concordance)功能对词组型术语进行处理㊂索引又被称为 语境中关键词 (key word in context,KWIC),是指运用索引功能在语料库中查询某词或短语的使用实例,然后将所有符合条件的语言使用实例及其语境以清单形式列出并可对其进行排序,使用者可以设定不同的排序方法对检索词的前后语境进行排序,以便从索引行中寻找规律㊂需要特别指出的是,中文语料只有经过分词和标注后才能使用AntConc 索引功能,西文语料可以直接使用该功能㊂词组型术语最常由2或3个单词组成,而中文单词多由1~3个汉字组成,因此可将三词术语的最大长度设定为9,即最多包含9个汉字㊂以抽取出的单词型术语为关键词,为了避免漏提可能成为候选术语的字符串,需将关键词的上下文视界宽度在其左侧和右侧均设定为9,即只呈现关键词在上下文中直接相连的9个汉字㊂图2所示为从语料库中检索 语音 一词所得索引结果的一部分㊂在这些索引行中,每一行中检索词 语音 都位于中间,前后各有若干词及其词性标注㊂一共检索到以 语音 为关键词的322条字符串,并统计了其出现频率㊂图2㊀索引示例㊀㊀将符合表2中2~3词词组型术语构词规则的字符串抽取出来,分别构成两个候选术语列表:由双词构成的候选术语列表和由三词组成的候选术语列表㊂需要注意的是,这些列表中不仅包含了术语,还可能存在常用词组及无意义字符串㊂确认最终的2~3词词组型术语,需要通过以下公式,计算抽取出的候选词组型术语的术语度值㊂C -Value(t )=log 2|t |㊃f (t )㊀㊀㊀㊀㊀㊀㊀㊀t 未被嵌套log 2|t |㊃(f (t )-ðs f (t )|{s ʒt ⊂s }|)㊀其他ìîíïïïï其中:t 表示候选术语,|t |是候选术语t 的长度(以汉字字数为单位),f (t )是t 在语料库中出现的频率,s 是包含候选术语t 的候选词组型术语(即候选术语t 嵌套在候选术语s 中)㊂计算候选术语列表中的平均值作为阈值,提取高于阈值的候选术语组成该领域术语表㊂使用Concordance 索引功能的优势在于可以直接观察到核心词汇的前后搭配规律,并对其上下文的自动分词标注结果进行人工校对,避免因分词或标注错误产生漏提或错提㊂与此同时,可以在检索到符合2~3词词组型术语构词规则的字符串时,拓宽其上下文视界宽度,使其呈现出与关键词相连的更多汉字,挑选出符合上文所提到的由4~6个单词构成的词组型术语一般特征的字符串,然后人工判断这些术语的真假㊂最后,将所有提取出的由2词㊁3词㊁4~6词组成的词组型术语进行列表归纳,组成对外汉语教学领域的词组型术语表,如表3所示㊂4㊀结语为构建对外汉语教学术语集,本文以对外汉语教学领域的文本为目标文本,遵循主题取向性㊁语料科学性㊁样本代表性㊁规模有限性原则,选择出版表3㊀词组型术语表示例2词术语3词术语㊀㊀㊀㊀㊀由4~6词组成的词组型术语㊀㊀㊀对外/d汉语/n 对外/d汉语/n教学/v对外/d汉语/n教学/v大纲/n 对外/d汉语/n教学法/n对外/d汉语/n教学/v理论/n 对外/d汉语/n教材/n对外/d汉语/n教材/n编写/v第二/m语言/n 第二/m语言/n教学/v第二/m语言/n习得/n第二/m语言/n教材/n第二/m语言/n学习者/n第二/m语言/n教学/v实践/v第二/m语言/n教学/v领域/n第二/m语言/n习得/n研究/v第二/m语言/n习得/n理论/n第二/m语言/n教材/n编写/v第二/m语言/n教材/n评估/v第二/m语言/n学习/v过程/n交际/v能力/n 跨/v文化/n交际/v跨/v文化/n交际/v能力/n 汉语/n交际/v能力/n无口语/n交际/v能力/n无㊀㊀㊀㊀㊀㊀备注:n代表名词,v代表动词,a代表形容词,d代表副词,f代表方位词,m代表数词㊂于2000年后且能够较为全面地涵盖该学科理论与实践研究成果并切实反映该学科发展水平的科学著作作为语料纳入语料库,规模约为40万字㊂㊀㊀提取术语主要分为两个阶段:第一阶段提取候选术语;第二阶段利用C-value方法对候选术语进行术语度值的计算和评估㊂在此过程中,为提高效率,避免漏提或者错提术语,引用了停用词表,删去了不可能成为术语的词,并引用了语言学知识,用预设的汉语术语构词规则对候选术语进行筛选㊂最终共提取对外汉语教学术语784个,其中包括单词型术语238个,两词术语375个,三词术语121个和长术语(由4~6个单词组成)50个㊂实验研究发现,本文使用的基于语料库的将统计学和语言学规则相结合的方法,在提高术语提取效率的同时,可有效避免漏提或错提,特别是用于提取由2~3词组成的高频术语,效果十分明显㊂与此同时,因为语言学规则的引用,自动分词标注程序不完善,会出现标注错误的情况进而影响候选术语的产生,因此需要对语料库文本进行词类标注处理㊂为此,如何减少术语自动提取过程中的人工核校工作,减少噪声,提高低频术语的识别效率,仍是今后术语提取研究中需要进一步解决的重要问题㊂参考文献[1]刘青.中国术语学概论[M].北京:商务印书馆,2015.[2]郭曙纶.汉语语料库的建设及应用[M].上海:上海外语教育出版社,2011.[3]常宝宝.科技术语自动提取技术:现状与思考[J].中国科技术语,2022,24(1):3-13.[4]吴丽坤.俄罗斯术语学探究[M].北京:商务印书馆, 2009:278.[5]陈章太,于根元.对外汉语教学概论[M].北京:商务印书馆,2014:516.[6]赵金铭.汉语可以这样教:语言技能篇[M].北京:商务印书馆,2016:191.[7]语料库在线[CP/OL].[2023-05-30].http://corpus. .[8]冯志伟.现代术语学引论[M].增订本.北京:商务印书馆,2011:599.[9]韩红旗,安小米.C-value值和unithood指标结合的中文科技术语抽取[J].图书情报工作,2012:85-89.[10]SUI Z F,CHEN Y R,HU J F,et al.The research on theautomatic term extraction in the domain of information sci-ence and technology[C]//Proceedings of the5th EastAsia Forum of the Terminology.Haikou.2002:444-451.[11]BARRON-CEDENOА,SIERRA G,DROUIN P,et al.An improved automatic term recognition method for Span-ish[M]//Computational Linguistics and Intelligent Text Processing.Springer.2009:125-136.作者简介:卢一鑫(1989 ),女,博士,河南财经政法大学讲师㊂主要研究领域为应用语言学,汉俄对比语言学㊂先后参与 外汉多语言词典数据库建设 中国传统哲学在俄罗斯的译介与传播历史研究 等科研项目㊂在国内外学术会议及期刊发表论文近10篇㊂通信方式:yixinhn@mail.ru㊂‘中国科技术语“开展科学数据出版为顺应大数据时代的发展,‘中国科技术语“开展科学数据出版服务,为作者和读者提供集文献和数据于一体的信息化服务㊂本刊的数据出版分为2种模式:(1)科技论文附加数据:本刊鼓励作者在提交科技论文时,附加支撑数据集,在文中对相关数据集进行描述和管理,为使用者在阅读论文的同时提供科学数据的访问㊁引用㊁分析等㊂作者按照本刊投稿流程将附加数据集上传到本刊投审稿系统()或科学数据银行(),如果是已发表的数据集,添加已注册的DOI到论文中即可㊂(2)数据论文:如果作者认为阶段性数据处理工作具有发表和共享意义,可直接发表数据论文㊂数据论文须详细描述所对应的数据集,包括数据采集和处理方法㊁样本描述㊁质量控制方法以及数据价值㊁使用方法和建议等相关信息㊂请作者将拟发表的数据集存储到科学数据银行(),在数据论文中添加已注册的DOI即可㊂请务必确保数据论文信息与保存到数据存储库的元数据信息一致㊂作者提交的数据包括但不限于:原始数据㊁处理后的数据㊁软件㊁算法㊁协议㊁方法㊁材料㊁数据文件或电子表格㊁术语数据库㊁语料库㊁术语集以及其他多种形式,如视频㊁问卷或幻灯片等㊂作者所存储的数据将永远存在并且开放访问㊂本刊对两种模式的数据出版论文投稿均按流程进行审稿㊂本刊‘中国高铁 出海 术语库建设与应用“为数据出版论文,扫描右侧二维码可查看相关数据㊂更多信息,请联系本刊编辑部:010-********,84010681㊂。
《基于汉语语料库的中文词句快速检索算法研究》
《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的发展和互联网的普及,信息量的急剧增长使得文本数据的检索成为了一项重要任务。
而作为全球最大的汉语使用者群体,中文词句检索在众多领域具有重要应用价值。
本文旨在研究基于汉语语料库的中文词句快速检索算法,以提升检索效率和准确性。
二、汉语语料库概述汉语语料库是用于自然语言处理和文本分析的数据库,包含了大量的中文文本数据。
这些数据可以用于训练和测试中文词句检索算法。
汉语语料库的构建需要考虑词汇的丰富性、句子的多样性以及文本的时效性等因素。
三、中文词句快速检索算法研究1. 分词技术分词是中文词句检索的基础。
本文采用基于统计和规则相结合的分词方法,将文本数据切分成单个词汇。
同时,为了处理未登录词和专有名词等问题,引入了词典扩展和机器学习等技术。
2. 索引构建索引是提高检索速度的关键。
本文采用倒排索引技术,将词汇与其在文本中的位置信息建立映射关系。
同时,为了进一步提高检索效率,采用了压缩存储和优化索引结构等技术。
3. 检索算法本文研究了一种基于向量空间模型的检索算法。
该算法通过计算查询与文档之间的相似度,返回与查询最相关的词句。
为了提高检索准确性,引入了词频、词性、语义等信息。
4. 算法优化针对中文词句检索的特点,本文提出了一种基于词汇关联性的优化策略。
通过对词汇之间的关联性进行分析,提高检索结果的准确性和相关性。
同时,采用多线程技术和并行计算等技术,进一步提高检索速度。
四、实验与分析为了验证本文提出的算法的有效性,我们采用了一个大型汉语语料库进行实验。
实验结果表明,本文提出的算法在检索速度和准确性方面均取得了较好的效果。
与传统的检索算法相比,本文算法在处理大规模语料库时具有更高的效率和更好的性能。
五、结论与展望本文研究了基于汉语语料库的中文词句快速检索算法,通过分词技术、索引构建、检索算法和算法优化等方面的研究,提高了检索速度和准确性。
实验结果表明,本文提出的算法在处理大规模语料库时具有较高的效率和性能。
建立在语料库基础上的汉语本体研究与对外汉语教学_以现代汉语离合词研究为例
解。
钱先生的评价,就“排印、打电报、打字”来说,基本合理;只是对汉字的总体评价显得“以偏盖全”,“攻其一点而不计其余”和“矫枉过正”。
但20世纪最后二三十年汉字处理电脑化成功实现后,他们论断的失当就显得非常明显。
在汉字成功适应信息新技术的今天,仍然把这些论断视为至理名言,完全无视活生生事实,就真让人匪夷所思了。
参考文献[1]周有光《汉字的技术性和艺术性》,刊于《科学地评价汉语汉字》(尹斌庸,苏培成选编,华语教学出版社,1994)12—16页[2]高等院校文字改革委员会筹备组《语文现代化》71页,1980[3]钱玄同《汉字革命》,《国语月刊》(汉字改革号),1923[4]王开扬《汉字现代化研究》,齐鲁书社,2004[5]苏培成《语言文字应用探索》,商务印书馆,2004[6]潘钧《汉字研究文集》,云南大学出版社,2007[7]马克思、恩格斯《马克思恩格斯全集》第7卷382页,人民出版社,1979[8]马克思、恩格斯《马克思恩格斯全集》第30卷318页,人民出版社,1974[9]许寿椿《文字处理技术的历史发展》见《文字编辑与电脑打字》(许寿椿编著,中央民族学院出版社,1989年)第一章[10]许寿椿《文字信息处理技术的三个历史时代和汉英文字比较》见《文字比较研究散论》(许寿椿编著,中央民族学院出版社,1993年,50—66页)—文字信息处理技术的历史通观》,《中国计算机报》1992年,No.2,37,41版[11]许寿椿《电脑打字的历史文化意义——[12]许寿椿《文字处理技术与汉字文化兴衰》,《现代与传统》第九辑74—79页,1995[13]林立勋《电脑风云五十年》,电子工业出版社,1998[14]王蒙《新世纪讲稿》,上海文艺出版社,2005(作者为中央民族大学教授)建立在语料库基础上的汉语本体研究与对外汉语教学—以现代汉语离合词研究为例——王海峰王铁利1.语料库与本体研究和语言教学1.1语料库的作用上世纪60年代初,世界上第一个机读语料库在美国布朗大学建成,此后大量的语料库陆续建成。
《基于汉语语料库的中文词句快速检索算法研究》范文
《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的迅猛发展,海量中文信息的处理与检索成为了研究的热点。
在众多领域中,基于汉语语料库的中文词句快速检索算法研究显得尤为重要。
本文旨在探讨基于汉语语料库的中文词句快速检索算法的原理、实现方法及优势,以期为相关研究与应用提供参考。
二、研究背景及意义随着互联网的普及,海量的中文信息每天都在产生和传播。
如何从这些海量的信息中快速准确地检索到用户所需的词句,成为了亟待解决的问题。
基于汉语语料库的中文词句快速检索算法研究,可以帮助我们更高效地处理和检索中文信息,提高信息检索的准确性和效率,对于推动中文信息处理技术的发展具有重要意义。
三、汉语语料库概述汉语语料库是中文词句检索的基础。
本文所提到的汉语语料库应包含丰富的中文文本资源,如新闻报道、学术论文、网络文章等,并具备较高的准确性和完整性。
此外,语料库还应支持高效的查询和检索功能,以满足不同领域的需求。
四、中文词句快速检索算法研究1. 算法原理基于汉语语料库的中文词句快速检索算法主要依靠分词技术、词频统计、倒排索引等原理。
首先,通过分词技术将文本切分成单个词或词组;然后,根据词频统计结果对词句进行排序;最后,通过倒排索引实现快速检索。
2. 算法实现方法(1)分词技术:采用基于规则和统计的分词方法,将文本切分成词或词组。
其中,基于规则的分词方法主要依据语言学的知识,而统计分词方法则依赖于大量语料库的统计结果。
(2)词频统计:对分词后的结果进行词频统计,将高频词或词组排在前面,以便于用户快速找到所需信息。
(3)倒排索引:建立倒排索引是实现快速检索的关键。
倒排索引将词汇表中的每个词汇与其在文本中的位置信息进行关联,通过查询词汇表即可找到包含该词汇的文本位置信息,从而实现快速检索。
3. 算法优势基于汉语语料库的中文词句快速检索算法具有以下优势:一是准确度高,通过分词技术和词频统计可以准确地提取出文本中的关键信息;二是检索速度快,通过建立倒排索引可以实现快速检索;三是支持大规模语料库的处理,可以满足海量中文信息的处理需求。
基于语料库的词语搭配研究与对外汉语词汇教学
( X )和 日本 ( 人 ) 。其 中男 生 9 、女 生 l 名 ;年 龄 分 3 1 名 1 问题 的 提 出 词 语 搭 配 是 指 词 的横 向组 合 关 系 或 共 现 关 系 , 即哪 些 布 在 1  ̄ 4 岁 之 间 ,2  ̄ 2 岁 的 占 总 数 的 四分 之 三 , 有 1 8 0 0 8 5
作 为 第 二 语 言 的 习 得 中 , 关 于 词 语 搭 配 的 教 学 都 显 得 非 常 兴 ” ,但 不 能 是 其 他 词 类 。 “ 加 ”是 普 通 动 词 ,所 以应 增
重要 。
我 们 知 道 , 语 言 由 大 量 的 板 块 构 成 , 汉 语 的 语 言 板 块 尤 其 丰 富 , 以 虚 词 为 出 发 点 , 可 以 组 成 大 量 的 语 言 板 块 。但 以往 的研 究 和 教 学 ,对 由虚 词 构 成 的语 言 板 块 尤 为
语 音 搭 配 是指 共 现 词 之 间音 节 节 奏 韵律 要 和 谐 。 如 : 病 ( 1 ): 国庆 节 即 将 来 。 15
汉 语 的 音 节 具 有 声 韵 调 统 一 的 特 点 。音 节 之 间 具 有 相 养学 生的 语 感 ,在 词 汇 教 学 中没 有 将 其 作 为 一个 语 言 训练 项 同的音 长 ,通常每 两个音节 构成一个音 步,两两搭配 ,节 目。对 外 汉 语 教 学 的教 学 对 象 是来 自海 外 的 留学 生 ,他 们缺 奏 匀 称 , 和 谐 流 畅 。 “ 将 ” 是 双 音 节 词 , 一 般 应 与 双 音 即 乏汉 语 语 感 。尽 管 中 高 级阶 段 的 留学 生 已经 掌 握 了相 当数 量 节 词 搭 配 , 所 以 “ 将 来 ”就 不 如 “ 将 到 来 ”或 “ 即 即 即将 的语 汇 ,但用 某一 词 语 时 也 常 常会 遇 到 不 知道 该 用 哪 个 词 与 来 临 ”好 。
《基于汉语语料库的中文词句快速检索算法研究》范文
《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的飞速发展,海量的中文信息在网络上迅速增长,如何快速、准确地从这些信息中检索出用户所需的词句成为了一个重要的研究课题。
基于汉语语料库的中文词句快速检索算法研究,旨在解决这一问题,提高中文信息检索的效率和准确性。
本文将介绍一种基于汉语语料库的中文词句快速检索算法,并对其原理、实现及性能进行详细分析。
二、算法原理基于汉语语料库的中文词句快速检索算法主要基于分词技术、倒排索引和向量空间模型等原理。
首先,将汉语语料库进行分词处理,将句子拆分成单个的词语或词组。
然后,为每个词语或词组建立倒排索引,以便在用户输入查询时能够快速定位到包含该词语或词组的文档。
此外,为了进一步提高检索的准确性,可以采用向量空间模型对文档进行向量化表示,计算文档与查询之间的相似度。
三、算法实现基于汉语语料库的中文词句快速检索算法的实现主要包括以下几个步骤:1. 语料库预处理:对汉语语料库进行分词、去除停用词等预处理操作,以便后续的检索处理。
2. 建立倒排索引:为每个词语或词组建立倒排索引,包括词语或词组及其在文档中的位置信息。
3. 查询处理:当用户输入查询时,首先进行分词处理,然后根据倒排索引快速定位到包含查询中词语或词组的文档。
4. 相似度计算:采用向量空间模型对文档进行向量化表示,计算文档与查询之间的相似度,返回相似度较高的文档作为检索结果。
四、性能分析基于汉语语料库的中文词句快速检索算法具有以下优点:1. 高效性:通过建立倒排索引,可以快速定位到包含查询中词语或词组的文档,提高了检索效率。
2. 准确性:采用向量空间模型对文档进行向量化表示,可以计算文档与查询之间的相似度,提高了检索的准确性。
3. 灵活性:算法支持多种查询方式,包括单词查询、词组查询、短语查询等,可以满足用户的不同需求。
然而,该算法也存在一些不足之处。
例如,对于一些语义复杂的句子,分词结果的准确性会影响到检索的效果。
基于语料库的对外汉语词汇例句收集研究
( 2 ) 冷 静 下 来 ,好好 儿想 想 。 例( 1 ) 所 对 应 的意 思 为 “ 人 少 而 静 ; 不 热 闹 ” ,例 ( 2 )
对应 的为 “ 沉 着 而 不 感 情 用 事 ” ,每 条注 释 后 只 举 … 个 例 例 句 既 能帮 助 学 生 体 会 词 汇 意 义 , 又 能 指 导 学 生 掌 握 子 , 数 量 太 少 。 而 “ 冷 饮 ”一词 则仅 仅标 注 了词 义 “ 餐 i 可 汇 在 语 境 中 的 用 法 ,帮 助 对 外 汉语 教 师 顺 利 地 进 行 语 言 饮 业 中 指 温 度 低 的 饮 料 , 大 多 是 甜 的 , 如 汽 水 、 酸 梅 汤 教 学 。 好 的 例 句 能 有 效 地 展 示 所 教 生 词 的 意 义 ,体 现 其 使 等 ”, 并没 有给 出例 句 。
阶梯—— 中级 汉语教程》第十课 中另一个词语 “ 执着 ”,
《 现 汉 》给 出例句 :
( 4 ) 执 着地献身于祖 国的教育事业。
例( 4 ) 首 先 是 一个 不完 整 的句 子 。其 次 , “ 献 身 祖 国的 词 典例 旬存 在 以下 几方 面的 问题 : 教育 事 业 ”在 当代 中 国 的现 实 背 景 下 是 一 种 倡 导 的 理 念 、 1 . 词 典 例 句 数 量 少 且 形 式 单 一 , 每 个 词 条 后 边 …般 只 既定 的 说 法 , 而 对 外 国学 生 来 说 , 则 可 能 带 有 意 识 形 态 色
语 百压用研. 谙 言应用研究 冗
基于语 料库 的对外汉语 词汇 例句收集研究
口单天 罡
摘 要:本 丈首先明确 了例 句在词汇教 学中的重要价值 ,剖析 了传统收集词 汇例 句的两种途径所 出现 的问题。鉴于利
《基于汉语语料库的中文词句快速检索算法研究》
《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的发展,大量的文本数据正在迅速增长,对中文词句的快速检索需求日益增强。
为了满足这一需求,基于汉语语料库的中文词句快速检索算法的研究显得尤为重要。
本文旨在探讨基于汉语语料库的中文词句快速检索算法的研究,为中文信息处理领域提供一种有效的检索方法。
二、研究背景在信息技术飞速发展的今天,海量的文本数据给人们带来了极大的便利,但同时也带来了巨大的检索压力。
中文的复杂性、词汇的多样性以及句法的独特性使得中文词句的检索成为一项具有挑战性的任务。
因此,研究基于汉语语料库的中文词句快速检索算法具有重要的现实意义。
三、算法概述基于汉语语料库的中文词句快速检索算法主要包括以下几个步骤:预处理、分词、索引构建、词句检索和结果输出。
1. 预处理:对原始文本数据进行清洗、去噪和标准化处理,以便后续的算法处理。
2. 分词:将预处理后的文本数据进行分词处理,将连续的中文句子分割成单个的词语或词组。
3. 索引构建:根据分词结果,构建倒排索引,以便快速定位到包含特定词语或词组的文本数据。
4. 词句检索:用户输入关键词或词组后,算法在倒排索引中进行检索,找到与关键词或词组相关的文本数据。
5. 结果输出:将检索到的文本数据按照相关度进行排序,并输出给用户。
四、算法实现1. 预处理阶段:采用自然语言处理技术对原始文本数据进行清洗、去噪和标准化处理。
例如,去除标点符号、停用词等,将文本数据转化为统一的格式。
2. 分词阶段:采用基于深度学习的分词算法对文本数据进行分词处理。
通过训练大量的语料库,使分词算法能够准确地识别出单个的词语或词组。
3. 索引构建阶段:采用倒排索引技术构建索引。
倒排索引是一种基于关键词的索引方式,能够快速定位到包含特定关键词的文本数据。
在构建倒排索引时,需要记录每个关键词在文本数据中的位置信息,以便后续的词句检索。
4. 词句检索阶段:用户输入关键词或词组后,算法在倒排索引中进行检索。
基于语料库的词语搭配研究与对外汉语词汇教学
基于语料库的词语搭配研究与对外汉语词汇教学作者:刘凤芹来源:《现代语文(语言研究)》2010年第06期摘要:中高级阶段的对外汉语词汇教学中,留学生在词语搭配方面所犯的错误比较突出。
出现词语搭配偏误的原因在于汉语缺乏形态变化、教师教学的疏漏和学生的个体差异三个方面。
本文基于语料库的对外汉语词汇教学,采用定量和定性相结合的方法,概括出词语的搭配特征和范围,帮助学生构建词语的搭配模式,并加以训练,以便形成学生的词汇网络。
关键词:语料库词语搭配对外汉语词汇教学一、问题的提出词语搭配是指词的横向组合关系或共现关系,即哪些词可以与另一些词搭配使用或共现在一个句子中。
英国语言学家Firth是最早注意到语言中的搭配现象并提出“搭配”这一概念的专家之一。
他曾说:“You shall know a word by the company it keeps.”(1957)。
张志公先生也曾指出:“在任何语言里,词语搭配都是一个重要问题,在汉语里,尤其突出。
”(张寿康、林杏光主编《现代汉语实词搭配词典》)。
从客观角度讲,汉语缺乏形态变化,词与词搭配起来无语法形式的约束,只要意义上、逻辑上说得过去就可以搭配,很自由、很灵活,所以搭配的结果也就异常丰富,因此,无论是在汉语作为母语还是作为第二语言的习得中,关于词语搭配的教学都显得非常重要。
我们知道,语言由大量的板块构成,汉语的语言板块尤其丰富,以虚词为出发点,可以组成大量的语言板块。
但以往的研究和教学,对由虚词构成的语言板块尤为重视,教学中也常常以此作为重点;另外,汉语的固定短语也异常丰富。
如成语、俗语、惯用语,都是作为一个词块进行教学的。
汉语中还有另外一块,即实词与实词的搭配,这是一个很大的类,包括形名、数量名、动名、形动、副动、副形等许多子类,并且每一类涉及的词语非常丰富,尤其是动名、形名的搭配。
在实词的搭配方面,以往的研究缺乏可操作性。
教师大多数时候都是在不自觉地培养学生的语感,在词汇教学中没有将其作为一个语言训练项目。
利用语义韵研究改进对外汉语学习词典释义及用例——以“可想而知”为例
2 8 辞 书研 究 2 0 1 3年第 6期
ቤተ መጻሕፍቲ ባይዱ
出 一 种 较 为 明显 的 消极 性 的 语 义 氛 围 , 积 极 语 义 韵 则 与 之 相 反 。 而 在 中性 语 义 韵 中 , 关 键 词 项 所搭 配 的 词 或 短 语 有 的 带 有 积 极 性 语 义 特 征 , 有 的 带有 消极 性 语 义特 征 。
的词 汇信 息 。
国外词 典学 界在 二 十世 纪八 九 十年代 已开 始将 “ 语 义韵 ” 的研 究 方法 应 用 于词 典 编纂 工作 , 纪 玉华 等 ( 2 0 0 0 ) 曾提 到 , 目前世 界 上 最 大 的英语 语 料 库之 一—— 柯 林 斯一伯 明翰 大 学 国际语 料库 ( C O B U I L D)的主创 人 J o h n S i n c l a i r 是 首 先 注意 到 语义 韵 现象 的语料 库 语 言 学 家兼词 典编 纂家 , 他通过 定位 检 索 发 现 “ h a p p e n ” 和“ s e t i n ” ( 发生 ) 常 常与 “ 不 愉 快 的事 件” ( u n p l e a s a n t e v e n t s ) 联 系在一起 , 并 在词 典 的释义 中加 以标 注 。国外 词典 学 界 的这 一 经 验也 值得 对外 汉语学 习词 典编纂 者学 习 和借 鉴 。
的方 向之 一。 ’
关键 词
对 外汉语 学习词典
语 料库 语 言 学
语 义韵
一
、
引
言
作为二语学习词典的成员 , 对外汉语学习词典是汉语学习者课外进行 自主学习的重要 参考资料 , 也是对外汉语教材体系的有机组成部分。章宜华( 2 0 1 1 ) 概括了二语学习词典应
《基于汉语语料库的中文词句快速检索算法研究》范文
《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的飞速发展,海量的中文信息不断涌现,如何快速、准确地从这些信息中检索出用户所需的词句,成为了当前研究的热点问题。
基于汉语语料库的中文词句快速检索算法研究,旨在提高中文信息检索的效率和准确性,满足用户对信息的需求。
本文将介绍基于汉语语料库的中文词句快速检索算法的研究背景、研究意义、研究内容及方法,以及研究成果和结论。
二、研究背景与意义随着互联网的普及和信息技术的发展,海量的中文信息不断涌现,如何快速、准确地从这些信息中检索出用户所需的词句,成为了亟待解决的问题。
基于汉语语料库的中文词句快速检索算法研究,能够有效地解决这一问题。
该研究不仅有助于提高中文信息检索的效率和准确性,还能够满足用户对信息的需求,促进中文信息处理技术的发展。
三、研究内容与方法1. 研究内容本研究主要针对中文词句快速检索算法进行研究,包括以下几个方面:(1)汉语语料库的构建:建立大规模的汉语语料库,为中文词句检索提供数据支持。
(2)中文分词技术:采用合适的分词技术,将连续的中文文本切分成单个的词语,便于后续的检索处理。
(3)词句检索算法:研究基于汉语语料库的中文词句快速检索算法,包括关键词提取、索引构建、检索匹配等关键技术。
(4)算法性能评估:对所提出的算法进行性能评估,包括准确率、召回率、F1值等指标。
2. 研究方法(1)文献综述:通过查阅相关文献,了解国内外中文词句检索算法的研究现状和发展趋势。
(2)实验分析:采用实验方法,对所提出的算法进行性能评估和验证。
(3)对比分析:将所提出的算法与现有算法进行对比分析,评估其优劣和适用范围。
四、研究成果1. 汉语语料库的构建本研究建立了大规模的汉语语料库,包括新闻、博客、论坛、微博等各类文本数据,为中文词句检索提供了数据支持。
2. 中文分词技术本研究采用了基于深度学习的分词技术,对连续的中文文本进行切分,取得了较好的分词效果。
《基于汉语语料库的中文词句快速检索算法研究》范文
《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的飞速发展,海量的中文信息在网络上迅速增长,如何快速、准确地从这些信息中检索出用户所需的词句成为了一个重要的研究课题。
基于汉语语料库的中文词句快速检索算法研究,旨在解决这一问题,提高中文信息检索的效率和准确性。
本文将首先介绍研究背景和意义,然后阐述研究内容和方法,最后总结研究成果和展望未来研究方向。
二、研究背景和意义随着互联网的普及,海量的中文信息在网络上迅速增长,人们对于快速、准确地获取所需信息的需求也越来越强烈。
然而,传统的中文词句检索算法在处理大规模语料库时,往往存在检索速度慢、准确率低等问题。
因此,基于汉语语料库的中文词句快速检索算法研究具有重要的研究意义和应用价值。
首先,该研究有助于提高中文信息检索的效率和准确性。
通过研究高效的检索算法,可以快速定位用户所需的词句,提高检索速度和准确率,从而提升用户体验。
其次,该研究有助于推动中文自然语言处理技术的发展。
中文词句检索是中文自然语言处理领域的一个重要研究方向,该研究将为中文自然语言处理技术的发展提供有力支持。
三、研究内容和方法本研究主要基于汉语语料库,针对中文词句快速检索算法进行研究。
具体研究内容包括:1. 语料库的构建与处理:构建大规模的汉语语料库,并进行预处理,包括分词、去停用词等操作。
2. 检索算法的设计与实现:设计高效的中文词句检索算法,包括基于倒排索引的检索算法、基于深度学习的检索算法等。
3. 算法性能的评价与优化:通过实验评估算法性能,包括检索速度、准确率等指标,并进行算法优化。
本研究采用的方法包括文献调研、实验设计和数据分析等。
首先,通过文献调研了解相关研究进展和现有算法的优缺点;其次,设计实验方案,包括语料库的构建、检索算法的设计和实验评估指标等;最后,进行实验并收集数据,通过数据分析评估算法性能并进行优化。
四、实验结果与分析本研究通过实验评估了所设计的中文词句快速检索算法的性能。
基于语料库的词语知识提取与外向型词典编纂
作者: 邢红兵
作者机构: 北京语言大学汉语水平考试中心,北京100083
出版物刊名: 辞书研究
页码: 36-41页
年卷期: 2013年 第3期
主题词: 语料库 词汇知识 外向型词典
摘要:第二语言词汇习得的本质是获取目的语的词汇知识,其中学会使用目标词是词汇习得的关键。
本研究从基于语料库的词汇知识提取角度,对外向型汉语学习词典的编纂提出以下建议:从语料库获取词语的使用频度、词语的功能及分布、词语的搭配及搭配频度,并充分考虑词语使用的典型结构框架。
基于对外汉语教学语料库的应用研究的开题报告
基于对外汉语教学语料库的应用研究的开题报告一、选题背景及意义作为世界上最广泛使用的语言之一,汉语在国际交流中扮演着重要的角色。
随着中国在国际经济和文化领域的不断崛起,越来越多的外国人希望学习汉语,以与中国建立更紧密的联系。
因此,对外汉语教学的需求也在不断增加。
然而,传统的教学方法存在一些问题,如课程内容单一、教学效果不能满足学习者的不同需求等。
因此,建立对外汉语教学语料库,以便更好地支持汉语教学的创新方法,已成为一个备受关注的课题。
对外汉语教学语料库是指收集、整理、分类、储存汉语相关的语言样本、语料以及汉语教学资源和工具等资源的一种信息平台。
它可以为汉语教学提供丰富的素材和案例,促进教师和学生的教学和学习。
同时,对外汉语教学语料库也是语言研究的重要资源,可以研究汉语的语言规律、理解语言使用背后的文化和社会背景,提高汉语教学的有效性和适应性。
二、研究目的及内容本研究旨在建立适用于实际对外汉语教学的语料库,探究对外汉语教学语料库的应用,以提高对外汉语教学的有效性和适应性。
具体内容包括:(1)对外汉语教学语料库的建立。
收集汉语语料和教学资源,建立分类系统和数据库,开发应用程序和工具,为对外汉语教学提供支持。
包括从新闻、文学、电影等多种来源收集汉语语料,整理汉语教材和辅助教材,开发查询和分析工具等。
(2)对外汉语教学语料库的应用研究。
基于语料库,开展对外汉语语料的分析和研究,探究汉语的语言规律,了解汉语语言和文化的背景,为汉语教学提供更丰富的素材和教学策略,提高教学效果。
(3)对外汉语教学语料库的实践应用。
开发基于语料库的对外汉语教学典型案例,并在不同层次和背景的学生中开展教学实验,评估应用效果。
三、研究方法和计划本研究将采用文献调研、语言素材收集、数据统计和分析、实验设计和应用评估等多种研究方法,包括如下步骤:(1)进行对外汉语教学语料库领域的文献调研,了解国内外相关研究进展和创新成果。
(2)收集汉语语料和教学资源,建立分类系统和数据库,开发应用程序和工具。
汉语语料库对对外汉语教学中语法研究的作用
汉语语料库对对外汉语教学中语法研究的作用汉语语料库对对外汉语教学中语法研究的作用语料库是存放语言素材或语料文本的仓库,是按照语域分类收集并经过特殊编码的自然语篇总集,编码即对词语进行类别和功能的定义以及对以小句为单位的文法结构进行分析。
这些由大量实际使用的语言信息组成的真实材料,是语言统计的基础,是分析和研究语言规律和特征,开发软件,编纂辞书的可靠依据,更是语言教学中绝好的第一手资料。
对外汉语教学是将汉语作为外语或第二语言的教学,是一门新兴的边缘交叉学科,需要不断地从相关学科中汲取研究方法和应用成果以丰富自身的学科理论,促进学科发展。
由于计算机技术的飞速发展,其存储容量越来越大,速度也越来越快。
在这种条件下,以计算机存储的语料为基础的语言研究方法,便成为当今语言学任何分支学科研究的一种自然的、现代化的、甚至是不可或缺的辅助方法。
语法教学是对外汉语教学中的重点和难点,也是留学生如何把已知的词、词组组成句子、篇章的关键。
本文着重探讨这种将语料库作为主要信息来源,用统计来获取语言中的规律的方法对对外汉语教学中语法研究的作用和意义。
一、为对外汉语语法教材的编写提供真实的语言素材和科学的参考依据教材是教学过程中的重要依据,是教学和学习的资源,教材的内容要符合学习者的认知规律和学习需要。
20世纪80年代中期以前,现代汉语语法研究基本上或主要是对汉语语法现象、语法规则的描写说明,为了说明规则是什么而编写例句,甚至有些例子是编者依靠经验,按照语法规则演绎编造出来的。
英国语言学家Quirk曾说:从这些自己编写的例证出发,把材料仅仅当作例证来使用,用来证明先验的,或者是语法学传统规定的、甚至是凭直觉认定的某些语法上的区别和结构,而不是从大量自然语言材料中归纳的这些语法上的差别,这只能是一种很不令人满意的权宜之计。
基于语料库中大量口头和书面语的真实语言素材,要求语法研究更注重对语法现象、语法规则的解释,说明例句为什么这么说。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于语料库的对外汉语词汇例句收集研究本文首先明确了例句在词汇教学中的重要价值,剖析了传统收集词汇例句的两种途径所出现的问题。
鉴于利用各类语料库收集例句成为一种新趋势,我们又通过例证提出:利用专门语料库或是开放的网络新闻搜索寻找到的例句仍然存在词汇超纲、句式复杂、句群数量巨大等诸多问题,缺乏可操作性和便利性。
基于以上分析,本文提出了建立国际汉语教学词汇例句语料库的设想,并阐述了收集例句语料的原则和方法。
标签:对外汉语词汇教学例句语料库词汇教学在对外汉语教学中占有相当重要的地位,很多学者认为词汇学习是语言学习的核心问题,如何帮助非母语学习的学生有效地理解和掌握词汇,成为很多学者研究的课题。
目前对外汉语教学领域倾向于使学生在语境中掌握词汇,词的教学与句子的教学相结合是词汇教学的有效途径之一,因而例句就成为词汇学习过程中重要的组成部分。
例句既能帮助学生体会词汇意义,又能指导学生掌握词汇在语境中的用法,帮助对外汉语教师顺利地进行语言教学。
好的例句能有效地展示所教生词的意义,体现其使用的典型情景,给学生留下深刻的印象,使教学活动事半功倍。
对处于不同阶段、不同环境的汉语学习者,例句都十分重要。
中高级阶段,虚词用法复杂,例句可以更全面地展示语用特征;初级阶段,学习者语言水平低,很难理解词汇的专门解释,具体的例证既能帮助学生体会词汇意义,又能指导学生掌握词汇的用法。
另外,在国外学习汉语的学生,缺乏汉语语言环境,接触到的目的语十分有限,例句便成为重要的语言输入材料。
一、传统例句设计的途径及利弊例句在对外汉语词汇教学中具有如此重要的地位,但教材中为词汇提供的例句却十分有限,教师往往需要补充大量的例句丰富课堂教学。
对外汉语教师设计例句主要有以下两种传统方法:词典查询与教师在生活中收集或自创。
这些方法虽各有优势,却也存在很多不足。
(一)词典例句词典例句的优势在于方便查询,言简意赅,权威性强,但现在常用的汉语词典都是为母语使用者所设计的。
词典例句存在以下几方面的问题:1.词典例句数量少且形式单一,每个词条后边一般只跟一至两个例句,有的词条甚至没有例句,不能满足教学例句数量上的需求。
如“冷静”和“冷饮”,“冷静”在《现代汉语词典(第6版)》(以下简称《现汉》)中给出的例句:(1)夜深了,街上显得很冷静。
(2)冷静下来,好好儿想想。
例(1)所对应的意思为“人少而静;不热闹”,例(2)对应的为“沉着而不感情用事”,每条注释后只举一个例子,数量太少。
而“冷饮”一词则仅仅标注了词义“餐饮业中指温度低的饮料,大多是甜的,如汽水、酸梅汤等”,并没有给出例句。
2.词典例句包含提示信息少,隐性预设多,语境提示能力差。
大多数义项中的用例甚至只是短语而非句子。
以《新阶梯——中级汉语教程》第十课中出现的动词“动心”为例,在《现汉》中给出的例句:(3)经人一说,他就动了心了。
对于例(3),中国人一看就明白,因为中国人在理解时可以自动激活大脑中的相关知识补足句子所隐匿或省略的信息,字典例句自然无需赘述。
但对于留学生来说,省略了语境信息,理解上就会出现困难,“什么人?”“说了什么?”“为什么别人说就动心?”“动心想干什么?”语境信息的缺失使这个例句空有架子,无助于理解。
3.词典例句多以中华文化为背景,对于母语为非汉语的学习者或文化差异较大的学习者来说,例句中的文化元素本身就难以理解,更不用说辅助理解词语了。
比如《新阶梯——中级汉语教程》第十课中另一个词语“执着”,《现汉》给出例句:(4)执着地献身于祖国的教育事业。
例(4)首先是一个不完整的句子。
其次,“献身祖国的教育事业”在当代中国的现实背景下是一种倡导的理念、既定的说法,而对外国学生来说,则可能带有意识形态色彩,会影响他们理解这句话中“执着”的含义。
4.词典例句中的用词等级往往高于词条本身。
如“HSK词汇等级大纲”中的甲级词汇“代表”:(5)这三个人物代表了三种不同的性格。
“代表”一词是“HSK词汇等级大纲”中的甲级词汇,而“性格”一词则是乙级词汇。
(二)教师自创的例句在教学过程中,很多时候教师常常采用自己创造例句的方式以适应教学进度和学生水平,但很多教师在创造例句时,受限于自己的固定思路、专业领域、兴趣爱好或生活圈子,创造的例句存在诸多问题:1.例句题材的选择单一。
比如有的老师要么热衷于以自己熟悉或感兴趣的领域为取材对象,例句中多是购物、孩子教育等话题范围;要么主要以学生的学习为话题,所造例句枯燥乏味。
如:(6)只要学习努力,就会有进步。
(7)小丽能够熟练地说汉语。
(8)杰克上汉语课很专心。
以上三个例句是有的老师为“进步”“熟练”“专心”创造的例句,例句题材全部同汉语课堂有关,容易使学生产生疲劳感,不利于学生通过发散思维理解例句。
2.例句真实性差,有的教师为了例句而创造例句,脱离具体语境,难免不自然。
二、利用语料库设计词汇例句的尝试与困惑语料库是一个由大量的语言真实使用的信息所组成、专供语言研究、分析和描述的语言资料库。
语料库提供了大量丰富的语言材料,而这些材料都是通过词语切分、属性标注等方式存入语料库的。
研究者利用计算机可以从数百万的语料中调出某个词、短语或者句子的实例。
所以,使用语料库可以快速针对某一个词汇搜索出海量的句子,这些句子涉及面广、内容真实、题材多样、表达自然,如能恰当使用,应该能满足对外汉语词汇教学对于例句的需求。
我们这里尝试收集例句所使用的语料库包括两种:一种是专门建设的封闭性语料库(如北京大学CCL语料库、国家语委现代汉语通用平衡语料库),一种是开放性的语料库,即时更新的网络新闻资源(如百度新闻搜索栏)。
在利用这两种语料库进行例句检索的过程中,我们同样发现了不少问题。
(一)专门语料库用于检索例句存在的问题我们以《博雅汉语·准中级II》第八课中的词汇“单调”为例,利用“北大语料库”检索语料,寻找合适的例句。
部分句子如下:(9)课业过分繁重、生活单调、未来就业压力巨大等因素,是造成青少年普遍心理失衡和焦虑的重要社会原因。
(10)旅游产品单调明显成为三亚旅游创汇的一大弱项。
(11)日渐富裕的中国人已不再满足于过去那种单调的家庭生活,开始懂得走出家庭生活,开始懂得走出家庭的小圈子去看看祖国的大好河山。
(12)小饭馆门前大声的叫卖、拉客的吆喝以及招揽顾客的刺耳音乐,高声录音机反复播放的语言单调的广告,如今,这类声音越来越多,不绝于耳。
通过整理例句,我们发现专门语料库用于例句检索存在的问题如下:1.例句数量繁多,这是利用专门语料库检索语料寻找例句存在的一个不可避免的问题。
用“北大语料库”检索“单调”一词,共得到包含“单调”一词的句子1715条,如此巨大的句量让教师很难有精力穷尽性阅完所有句子。
2.时效性仍有局限。
北大语料库最后更新时间是2009年,如果仅采用其中收集的语料,则有时难以与当今社会环境相结合,影响语料的鲜活度。
3.词汇超纲。
例句(9)、(10)、(11)、(12)中的“繁重”“失衡”“焦虑”“创汇”“吆喝”“招揽”都不是HSK词汇大纲中的词汇,属于超纲词。
4.句子结构复杂。
例句(11)、(12)给出的句子信息太多,语境难以清晰明了地帮助学生理解“单调”的含义。
(二)开放性语料库用于检索例句存在的问题在教学备课过程中,有的教师会通过互联网的新闻专栏检索词语寻找例句。
因为网络新闻时效性强、贴近日常生活,而且网络例句语境真实,网络资源丰富、涉及范围极广。
但是在进行了大量的操作性试验之后,我们发现,网络新闻作为开放语料库的例句来源渠道存在更多棘手的问题。
先看收集到的例句:(13)在英超教练里曼奇尼绝对可以算得上“文雅”,但今天他憋不住火,阿圭罗第88分钟进球被判越位,已经让他怒上心头,比赛快结束时对方在禁区内的犯规还被裁判视而不见,哨声一响曼奇尼便冲进场地对着裁判发泄怒火。
(14)林书豪被寄望成为火箭的领袖,大合同让他任何出色的发挥都被视为理所应当,他对自己的发挥期许很高,林林总总,让他在球场上变得患得患失,束手束脚。
(15)科比上场比赛虽然个人得分再次超过30分,但如果他继续执迷不悟的沉溺于单打独斗,湖人想要赢球恐怕依然很难。
以上三个例句分别是通过网络新闻为“憋不住”“患得患失”“执迷不悟”寻找的较为合用的例句,从中大致可以发现这样几个与我们预期的效果相悖的问题。
1.涉及面受限。
网络新闻为了吸引更多的点击量,内容题材上多是体育新闻或娱乐新闻,在检索结果列表的前10页中,涉及面很有限。
2.篇幅过长。
检索出的例句存在于整篇新闻中,能达到较好的语境提示作用。
但描写事件前因后果的篇幅过长,既不符合例句简洁明了的要求,又有喧宾夺主之嫌,容易把学生的注意力从词汇引向别处。
如果继续删节,则会导致事件因果关系不明确,希望通过语境理解词汇意义的目的便也达不到了。
3.重复语料太多。
网络媒介的特性之一,就是大量转载、转发的存在,而网络新闻的搜索结果为按时间排序,各媒体在同一时间段的新闻关注点较为相似。
这就造成一个困局:利用搜索引擎会找到大量的重复语料,如2012年搜索“杞人忧天”,搜索结果的前46页全部是“‘2012世界末日’?专家批杞人忧天”这一条新闻,如果希望找到多样性的例句,则会造成检索时间过长成本过高的状况。
4.词汇意义在使用过程中变异。
网络媒体为了寻找新的视觉冲击来吸引受众,满足人们的求新心理,往往会对原有的语言形式进行各种语义变异,如“节奏”一词:(16)腾讯文学这是要干掉盛大的节奏啊!“节奏”一词在《现汉》中有两个义项:①音乐或诗歌中交替出现的有规律的强弱、长短的现象;②泛指均匀的、有规律的进程。
在例句(16)中,网络媒体故意删除了“节奏”的第二个义项中“均匀的、有规律的”这一修饰成分,把“节奏”等同于“进程”来使用,给人一种新奇的感觉。
对于这种没有规范的语义引申,我认为应该采取保守态度,避免学生在掌握词汇本义时与引申义产生混淆。
所以,不论是利用专门语料库还是开放性的网络新闻搜索例句,在具有信息量大、语料丰富优势的同时,同样存在诸如词汇超纲、语境提示过于庞杂、筛选成本过高等问题,实际使用中难以满足对外汉语教师收集例句的需求。
三、关于构建汉语例句语料库的思考在对外汉语领域,为了满足多种教学活动的需求,不少学者提出了构建口语语料库、中介语语料库、韵文语料库等新型语料库的设想,比如张则顺先生提出构建学习者主动参与的“学习者语料库”,李如龙提出建设“课本配套语料库”等等。
为了满足课堂教学对词汇例句的需求,建立一个方便快捷的词汇例句语料库是十分必要的。
(一)例句语料库构建的原则根据前人对于词汇例句设计的研究,如果要建立一个对外汉语教学词汇例句语料库,我们认为语料的收集应该遵循以下原则:1.例句设计要有效展示词汇的用法特点例句的设计终究是为学生理解并掌握词汇而服务的,所以例句应该紧紧围绕被解释词语的意义和用法来设计。