基于语料库的“感动”一词词类标注问题研究

合集下载

浅谈《现代汉语词典》(第五版)词性标注的几个问题

浅谈《现代汉语词典》(第五版)词性标注的几个问题

浅谈《现代汉语词典》(第五版)词性标注的几个问题摘要:本文主要从功能的角度对《现代汉语词典》(第五版)的词性标注进行了初步的探索,主要涉及词性标注及其与释义和配例相一致、兼类词的释义等几个方面的问题,对《现汉》(五)的成功和不足之处作了一定说明。

关键词:《现代汉语词典》(第五版)词性标注释义《现代汉语词典》是目前国内最有影响的语文辞书之一。

对现代汉语词典质量产生影响的根本性因素,是词典的释义问题。

一、《现代汉语词典》(第五版)词性标注现代汉语词典标注词性,给汉语教学、用户的学习和使用和中文信息处理等带来了很大的方便。

标注词性必须要对词类系统和词与非词进行界定。

科学的给词归类,主要根据词的语法功能。

陆俭明提出的词类划分标准是:1、词充当句法成分的功能,2、词跟词结合的功能,3、词表示类别的功能,即语法意义。

《现代汉语词典》(第5版)依据的词类是中学语文课本的教学词类系统,是比较科学的。

如:集成:【动】同类著作汇集在一起(多用做书名):《丛书~》|《中国古典戏曲论著~》。

(《现汉》(五)p592)集锦:【名】编辑在一起的精彩的图画、诗文等(多用做标题):图片~|邮票~。

(《现汉》(五)p593)《现代汉语词典》(第5版)中的“集成”与“集锦”根据配例来看,“丛书集成”、“图片集锦”、“邮票集锦”,二者看似相同,但是语法意义不同。

根据“语料库在线”的检索结果,“集成”66条例句中,17个做谓语例句,13个做定语例句,且能带宾语;“集锦”6条例句中5个做中心语。

前者语法意义表示事物的动作、行为或变化、存在,后者的语法意义表示事物名称。

所以二者词性标注不同。

另外,在根据功能判断词性的基础上,也不能完全脱离意义。

“集成”与“集锦”词汇意义也不同,“集:1.集合;聚集”(《现汉》(五)p639),“成:3.【动】成为;变为”(《现汉》(五)p171),“集成”有“汇集成为”的意思,释义行文体现为动词性。

“锦:有彩色花纹的丝织品”(《古汉语常用字字》p150),这里应为比喻义,指美好的东西,所以“集锦”释义行文应体现为名词性。

基于语料库的古汉语第一人称代词研究

基于语料库的古汉语第一人称代词研究
语义角色标注的工具:使用现有的语料库和标注工具进行语义角色标 注,如S等。
语义角色标注的优缺点:能够全面揭示句子中的语义关系,但标注 过程需要人工参与,成本较高。
第一人称代词的语义角色标注示例
标注方法:使用语料库技术对古汉语第一 人称代词进行语义角色标注
古汉语语料库的选择和特点
选择依据:语料库的规模、语料的代表性、语料的可获取性
常用语料库:古代汉语语料库、现代汉语语料库、混合语料库
语料库特点:全面性、客观性、可重复性 语料库的作用:为语言研究提供丰富的语料资源,促进语言学理论的发展 和完善
语料库的标注和处理技术
标注方法:采用分词、词性标注、句法标注等标注方法对语料库进行标注 处理技术:包括去除停用词、词干提取、词性还原等技术,以提高语料库的质量和可用性 工具使用:可以使用开源工具如StanfordNLP、Spacy等对语料库进行标注和处理 标注规范:应遵循统一的标注规范,以确保语料库的质量和可比性
语义角色的层级关系:主谓关系、动宾关系、定中关系等 语义功能分析:施事、受事、起因、时间、工具等
06
结论和展望
基于语料库的古汉语第一人称代词研究结论
结论:基于语料库的古汉语第一人称代词研究,我们发现古汉语第一 人称代词的使用频率和分布情况与现代汉语存在较大差异。
展望:未来研究可以进一步探讨古汉语第一人称代词的演变过程及 其与其他语言第一人称代词的对比分析。
研究意义:通过深入探究第一人称代词的语义网络和语境关联,为古汉语语言学研究和 汉语教学提供有益的参考和借鉴。
05
基于语料库的语义角色标注和分析
语义角色标注的方法和工具
语义角色标注的定义:对句子中的词语关系进行标注,明确词语之间 的语义关系。

“最后”的词类标注问题及其对汉英词典编纂的启示--一项基于语料库的个案研究

“最后”的词类标注问题及其对汉英词典编纂的启示--一项基于语料库的个案研究

“最后”的词类标注问题及其对汉英词典编纂的启示--一项基于语料库的个案研究段继香【期刊名称】《成都师范学院学报》【年(卷),期】2016(032)007【摘要】The accurate notes of speech of words are very essential for dictionary compiling. This paper takes an empirical study of the Chinese word "zuihou" as an example based on the Corpus of Na-tional Language Committee of China to find out a comprehensive usage of this word and offer the appropri-ate suggestions of Chinese-English dictionaries.%准确的词类标注对词典编纂来说极其重要。

文章通过使用国家语委语料库对“最后”一词在实际生活中的使用情况开展了实证研究,以期对该词的词类做更全面的鉴定,并在此基础上对汉英词典编纂提出合理的建议。

【总页数】4页(P76-79)【作者】段继香【作者单位】四川外国语大学研究生院,重庆 400031【正文语种】中文【中图分类】H16;H316【相关文献】1.“矫情”的词类标注问题及其对汉英词典编纂的启示--一项基于语料库的个案研究 [J], 叶志新2.“矫情”的词类标注问题及其对汉英词典编纂的启示——一项基于语料库的个案研究 [J], 叶志新;3.基于语料库的汉英词典词类标注个案研究 [J], 张建红4."最后"的词类标注问题及其对汉英词典编纂的启示——一项基于语料库的个案研究 [J], 段继香;5.汉英词典中“祝福”的词类标注问题--一项基于语料库的个案研究 [J], 何滟秋因版权原因,仅展示原文概要,查看原文内容请购买。

“破晓”一词的词类标注问题:一项基于语料库的个案研究

“破晓”一词的词类标注问题:一项基于语料库的个案研究

“破晓”一词的词类标注问题:一项基于语料库的个案研究【摘要】文章从基于使用的语言学理论和词类范畴化两个视角出发,采取基于语料库的研究方法,对“破晓”的使用模式进行调查,结果表明“破晓”经过词类范畴化这一动态过程在词典中应处理为动名兼类词。

本研究试图对词典编纂中词类标注不明确的词语的完善贡献绵薄之力。

【关键词】词类标注;语料库;范畴化;“破晓”一、研究问题词类标注是词典编纂的重要环节之一,特别是对兼类词而言。

各部词典对词类标注的标准不一,造成了词语义项的不一致,为读者掌握词语用法带来了一定的困扰。

随着电子计算机技术的普及推广,语料库被越来越多地投入到词典编纂的工作当中,成为词类标注的重要依据之一。

然而在编纂词典的过程中,业界一直沿用传统方法即以总结实际用法为主,这必然是不科学的,也是不客观的,因此将语料库引入词典编纂迫在眉睫。

经过对多部词典的调查取证,笔者发现“破晓”一词在各个词典中的词类标注不一致,读者很难对该词的词类做出快速准确的判断,那么就需要借助语料库这一现代技术了。

本文以范畴化理论为基础,以“破晓”为例考查它的词类、释义以及例证,试图探究出一种借助语料库而进行词类标准的全新方法。

二、研究过程(一)词典考证为确保研究的客观公正,笔者选取了21部较权威的词典对“破晓”一词的词类进行统计,其中汉英词典中已标注词类的7部,未标注词类的6部,汉语词典已标注词类的6部,未标注词类的2部:7部已标注词类的汉英词典:【破晓】dawn;daybreak:我们必须在~前出发。

We must start before dawn./这时天已~。

By this time it was daybreak.《新汉英词典》(2007)【破晓】dawn:~时分at daybreak /天色~。

Day is breaking.《牛津·外研社英汉汉英词典》(2010)【破晓】dawn;daybreak:~时分at the crack of dawn;at daybreak / 天将~。

语文词典词类标注中词与非词的区分问题

语文词典词类标注中词与非词的区分问题

语文词典词类标注中词与非词的区分问题
姜明宇
【期刊名称】《肇庆学院学报》
【年(卷),期】2017(038)001
【摘要】区分词与非词,是语文词典词类标注中应自始至终加以贯彻的一条重要原则.一方面,要严格区分词与短语;另一方面,要严格区分词与不成词语素.《现代汉语词典》(第6版)在区分词与非词特别是区分词与不成词语素方面,与同类语文词典相比,具有鲜明特色并做出突出成绩.当然,在标准确立及具体操作的科学性和一致性上,还存在有待深入研究并求得解决的问题.
【总页数】5页(P37-40,51)
【作者】姜明宇
【作者单位】惠州经济职业技术学院外语系,广东惠州516057
【正文语种】中文
【中图分类】H164
【相关文献】
1.关于"突破"一词的词类标注问题考察——一项基于认知视角的个案实证研究 [J], 吕林芳
2."疑惑"一词的词类标注问题及对策——基于双层词类范畴化模型的研究 [J], 贾晓云
3.基于语料库的\"感动\"一词词类标注问题研究 [J], 王春雨
4."气恼"一词的词类标注问题研究——基于语料库的个案分析 [J], 王正奎
5.非熟练的韩国汉语学习者合成词加工中词优效应的特点 [J], 陈琳;钟罗金;冷英因版权原因,仅展示原文概要,查看原文内容请购买。

基于语料库的高考英语一词多义现象研究

基于语料库的高考英语一词多义现象研究

第22卷第2期2020年4月V ol. 22, No. 2April, 2020基础外语教育Basic Foreign Language Education88基于语料库的高考英语一词多义现象研究广东省佛山市南海区第一中学 曹红娟摘 要:高考英语中的一词多义现象一直备受关注。

随着全球化的影响和网络的发展普及,英语语料日益丰富,词汇意义也不断发展变化。

本文以2019年高考全国I卷为例,借助自建的近10年高考英语试题语料库和美国当代英语语料库(COCA),分析高考英语中的一词多义现象并讨论其对高中英语词汇教学的启示。

关键词:语料库;一词多义;英语词汇教学中图分类号:G623. 31文献标识码:B文章编号:1009–2536 (2020) 02–0088–09一、引言2019年高考英语试卷公布后,一线高中英语教师纷纷感叹试卷阅读难度和词汇量较往年又增加了,词汇在语篇语境中的灵活应用更加突显了。

尽管身经百战的高中英语教师一直把“一词多义”和“熟词生义”挂在嘴上,在平时的教学中进行了大量的词汇拓展,提供了丰富的列表或清单,但还是没有能够击中2019年高考英语全国I卷中“trip (绊倒)”“envelope(笼罩)”这种少见的熟词生义。

本文通过自建的近10年高考英语全国卷试题语料库和可在线检索的美国当代英语语料库,分析高考英语中的一词多义现象并思考其对高中英语词汇教学的启示。

二、检索工具与内容笔者收集了2010年至2019年高考英语全国卷共24套试题,建成一个小型的“英语10年高考全国卷试题语料库”,约含10万词。

语料库以Antconc为检索工具,目的在于检索词汇在历年高考全国卷中的出现频率、词汇意义和词汇所在的语篇语境。

为了检索词汇在本土英语语境中的使用情况,本文使用可在线检索的美国当代英语语料库(Corpus of Contemporary American English,简称COCA)对词汇进行相关语料收集和分析。

“温暖”的词类标注问题刍议——一项基于语料库的研究

“温暖”的词类标注问题刍议——一项基于语料库的研究

第28卷第3期2019年6月重庆电子工程职业学院学报Journal of Chongqing College of Electronic EngineeringVol.28No.3Jun2019DOI:10.13887/ki.jccee.2019(3).25“温暖”的词类标注问题刍议——一项基于语料库的研究欧阳灵卿(四川外国语大学研究生院,重庆400031)摘要:科学编纂词典的前提便是准确的词类划分,然而现代汉语词类问题一直以来都是哥德巴赫猜憩式的老大难问题#根据“双层词类范畴化理论”,通过国家语委语料库和北京语言大学汉语语料库对“温暖”一词的使用模式进行调查,从个例频率和类型频率对“温暖”一词用法的规约化程度进行分析,确定其在现代汉语社群语言层面词库中的词类归属&并针对其词类标注问题提出了对策,就汉语、汉英词典中如何处理“温暖”一词给出了具体建议&关键词:温暖;双层词类范畴化理论;语料库;词类标注;国际汉语教育中图分类号:H042文献标识码:A文章编号:1674-5787(2019)03-0097-05随着国际汉语教育的推广和普及,汉语越来越受到国际社会的关注,有不少国家甚至将汉语纳入必修课程。

在推广汉语的过程中,汉语、汉英词典的编纂更应科学严谨,而科学编纂词典的前提便是准确的词类划分。

然而现代汉语词类问题一直以来都是哥德巴赫猜想式的老大难问题%日,学界对此议论纷纷。

王仁强、黄昌宁认为:“兼类指一个多义的概括词或词项在社群语言系统层面词库中兼属两个或两个以上词类范畴的语法多功能现象”眯然而目前学界的主流观点是承认概括词的语法多功能现象,却坚持兼类尽可能少的“简略原则”卩"〕。

王仁强、杨旭据理力争,“正如量子力学中所发现的波粒二象性一样,语言和言语两个维度才构成完整的语言学研究”叫我们应坚持“量子思维”而非简单的“一阶逻辑”。

鉴于言语层面句法中词类的本质是指称、陈述和修饰等命题言语行为构式功能皆9),基于复杂适应系统语言观和跨语言词类本质观,王仁强提出了“双层词类范畴化理论”,指出词类范畴化在词的两个层面发生,即词例的词类范畴化和概括词的词类范畴化,这适用于包括汉语和英语在内的数千种分析语㈣,语言演变呈现出一种“双螺旋结构”%&1〕。

汉英词典中“研究”的词类标注问题与对策

汉英词典中“研究”的词类标注问题与对策

汉英词典中“研究”的词类标注问题与对策作者:黄丹来源:《赤峰学院学报·哲学社会科学版》2019年第07期摘要:近年来,词类标注问题成为汉语词典和汉外词典编纂的热点,更是一个难点。

“研究”一词在几部认可度较高的漢语、汉英词典中的词类表征问题上存在很大分歧。

根据双层词类范畴化理论,基于语料库对“研究”进行使用模式的调查结果表明,“研究”表指称的用法也具有很高的个体频率和类型频率,概括词“研究”在现代汉语社群语言层面词库中兼属动、名词,因而汉语和汉英词典应将其处理为动名兼类词。

通过对“研究”一词的词类归属探讨,以期对汉语词典和汉英词典的编纂有所启发。

关键词:词类标注;兼类词;双层词类范畴化理论;使用频率;规约化中图分类号:H06; 文献标识码:A; 文章编号:1673-2596(2019)07-0107-04讲语法,先要讲词类,因为词类是讲语句结构必不可少的“道具”(或叫“理论构件”),有了这个道具才方便我们讲语法[1]。

概括词的兼类问题一直被视为一个老大难问题,尤其兼类与词频是否相关是一个涉及语言本质观差异的大问题。

兼类指的是一个多义的概括词或词项在社群语言系统层面词库中兼属两个或两个以上的词类范畴,在词典当中具体表现为兼类词[2],如在《汉英翻译大词典》(2015)中“哀怜”一词兼属形容词和名词。

在汉语词类研究中,“研究”等涉及自指用法的词是否应该处理为兼类是学界一直存在争论而没有妥善解决的问题[3]。

一、研究问题笔者查阅了国内认可度较高的几部汉语、汉英词典,发现“研究”一词的词类标注存在着诸多问题。

经调查,《现代汉语词典》(2016)、《当代汉语词典》(2009)、《现代汉语规范用法词典》(2000)3部汉语词典,以及《汉英词典》(2010)、《简明汉英词典》(2002)、《新汉英词典》(2007)、《新世纪汉英大词典》(2016)、《汉英翻译大词典》(2015)等5部汉英词典对“研究”一词的义项设置及释义基本一致,但对其配例用法与词类标注上却大相径庭,具体如下:第一,词类标注不一致。

基于语料库的就“heart”一词的语义分析

基于语料库的就“heart”一词的语义分析
t i o n t o t h e de g r a da t i o n o f
( 1 3 ) a n t a . I t w a s t h e c r y o f n o t j u s t o n e h e a r t ; i t s p o k e or f
分 了词语 的字面含义与非字面含义 。前者指说话人用 中立、 精 确的方式所表达 的含义 ,而后者指说话人为达到某种特殊的
( 1 1 ) 1 5 7 0t Gh i ma ng r i l y . 1 ’ h i s b r e a k s h i s h e a r t . Hewa n t st ob e
概 念 意 义 往 往 是 某 一 词 语 其 他 意义 的 基 础 , 它并 不 一定 是 该 词 语 所 有 义 项 中最 重 要 或使 用 最 频 繁 的义 项 。
这 对 我们 的 英 语 教 学及 词 典 编 撰 工 作 都 有 一 定 的指 导 意 义 。
【 关键 词】 h e a n ; 语料 库 ; 义项 ; 一词 多义 ; 概念 意思 中图分类号 : H 3 1 3 文献标识码: A 文章编号: 1 6 7 2 — 8 6 1 0 ( 2 0 1 3 ) 3 - 0 0 4 2 — 0 1
2 0条索引 。
( 1 ) 0 2 5 0 a s C i n e r a m a , he t m o v i e s a r e a t h e a r t a f o r m o f i t c —
t i o n , l i k e he t F 4 3 0 2 6 0
ma n yB 0 8 1 2 9 0i nt he c l
G e o f r e y L e e c h m 曾提 出“ 7种含义” 的说 法 , 分别指 的是 词语 的

当代汉语文本语料库分词词性标注加工规范

当代汉语文本语料库分词词性标注加工规范

973当代汉语文本语料库分词、词性标注加工规范(草案)山西大学从1988年开始进行汉语语料库的深加工研究,首先是对原始语料进行切分和词性标注,1992年制定了《信息处理用现代汉语文本分词规范》。

经过多年研究和修改,2000年又制定出《现代汉语语料库文本分词规范》和《现代汉语语料库文本词性体系》。

这次承担973任务后制定出本规范。

本规范主要吸收了语言学家的研究成果,并兼顾各家的词性分类体系,是一套从信息处理的实际要求出发的当代汉语文本加工规范。

本加工规范适用于汉语信息处理领域,具有开放性和灵活性,以便适用于不同的中文信息处理系统。

《973当代汉语文本语料库分词、词性标注加工规范》是根据以下资料提出的。

1.《信息处理用现代汉语分词规范》,中国国家标准GB13715,1992年2.《信息处理用现代汉语词类标记规范》,中华人民共和国教育部、国家语言文字工作委员会2003年发布3.《现代汉语语料库文本分词规范》(Ver 3.0),1998年北京语言文化大学语言信息处理研究所清华大学计算机科学与技术系4.《现代汉语语料库加工规范——词语切分与词性标注》,1999年北京大学计算语言学研究所5.《信息处理用现代汉语词类标记规范》,2002年,教育部语言文字应用研究所计算语言学研究室6.《现代汉语语料库文本分词规范说明》,2000年山西大学计算机科学系山西大学计算机应用研究所7.《資讯处理用中文分词标准》,1996年,台湾计算语言学学会一、分词总则1.词语的切分规范尽可能同中国国家标准GB13715《信息处理用现代汉语分词规范》(以下简称为“分词规范”)保持一致。

本规范规定了对现代汉语真实文本(语料库)进行分词的原则及规则。

追求分词后语料的一致性(consistency)是本规范的目标之一。

2.本规范中的“分词单位”主要是词,也包括了一部分结合紧密、使用稳定的词组以及在某些特殊情况下可能出现在切分序列中的孤立的语素或非语素字。

基于语料库的英语专业学生语用标记语的使用情况研究——以Ithink为例

基于语料库的英语专业学生语用标记语的使用情况研究——以Ithink为例

分类号学号M********* 学校代码10487密级硕士学位论文基于语料库的英语专业学生语用标记语的使用情况研究——以I think为例学位申请人:谷娟红学科专业:学科教学(英语)****:***答辩日期:2012年4月28日A Thesis Submitted in Partial Fulfillment of the Requirementsfor the Degree of Master of EducationThe Corpus-based Study of the Pragmatic Marker I think Used by the English MajorsCandidate : Gu JuanhongMajor : English TeachingSupervisor : Yang WenxiuHuazhong University of Science and TechnologyWuhan 430074, P. R. ChinaApril, 2012独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。

尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。

对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。

本人完全意识到本声明的法律结果由本人承担。

学位论文作者签名:日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。

本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

保密□,在年解密后适用本授权书。

本论文属于不保密□。

(请在以上方框内打“√”)学位论文作者签名:指导教师签名:日期:年月日日期:年月日华中科技大学硕士学位论文AbstractPragmatic markers (hereafter abbreviated as PMs) are the words or expressions that can provide guidance for the comprehension of utterance or constraint understanding of the discourse in the communication. PMs can convey rich pragmatic information and are widely used in the verbal communication. The appropriate use of PMs will facilitate our understanding of the speaker‟s meaning in the conversation and make daily communication go on successfully.The thesis chooses the frequently used PM I think as a case study aiming to give a detailed analysis on how Chinese English majors use this PM in the spoken English. According to the dictionaries and previous research, the author summarizes seven pragmatic functions of I think. This thesis adopts the corpus-based method and uses SECCL2.0 which is a learner corpus of oral test for English majors. From SECCL2.0 the author finds that all the seven pragmatic functions of I think are covered, and some English majors use I think in a redundant way while others fail to use it appropriately. The reasons may lie in language proficiency, negative pragmatic transfer and anxiety in the examination. In addition, some variants of I think like I still think are picked out and discussed. It is discovered that these variants appear in certain circumstances to reinforce the pragmatic functions of I think.This study emphasizes the importance of PMs in the oral English. The study of one of the PMs I think, in a sense, reflects Chinese English l earners‟ pragmatic competence. It may have some implications for oral English learning and teaching.Key words: pragmatic markers I think pragmatic functions SECCL2.0华中科技大学硕士学位论文摘要语用标记语是在交际中起着引导制约话语理解的作用的一些词或短语。

基于语料库的汉英词典词类标注个案研究

基于语料库的汉英词典词类标注个案研究

2 《 英词典 ( 汉 修 订版 ) ( 95 ecut y hne 》 19 ) non r ac eb c 3 《 远东汉英大》 acac cut n e non r h e e (95 19 )
(95 、 汉 英 双 解 》( 97 、 2 19 ) 《 19 ) 《 1世 纪 汉 英 》 (99 、 新汉英》 20 ) 19 ) 《 (0 3 四部词典把“ 巧遇” 作名
词译义 。以上所调查 的大 中型汉英词典 中仅《 新汉 英》 20 ) 巧遇” (07 把“ 标注为动词兼 名词来译义 的,

《 汉英双解》 【 意外遇到的有趣 的 名】
(97 19 ) 或 符 合 自 己 愿 望 的 事
c n c n o tr ha e e c une
徐妈一家投奔上海舅舅, 到街 头卖唱度 日。一 天, 他们巧遇从国外留学归来的何子英。
释义处 理 又如 何 呢?我 们 对 《 国语 文 大 辞典》 中 (95 、 应用汉语词典》 20 ) 《 19 ) 《 (00 、 当代汉语词典》
b c ie tc a c p n y a cd n ; h n eu o
从上表我们可以看出,汉英逆引》 18 ) 《 《 (9 5 、汉
英词典 ( 修订) (95 、新世纪汉英大》 20 ) 》 19 ) 《 (03 这 三部词典把 “ 巧遇 ” 作动词译义 , 远东汉英 大》 而《
汉语词类 问题 至今 仍 被认 为是 一个 老 大难 的 问 题 , 中个体词的归类与兼类( 】其 及词的再范畴化 )
更是一个长期没有解决好的问题 , 以至于汉语词典 和汉英词典 长期 以来都没有标 注词类 。本文采 J
6 《 世 纪 汉 英 昨天我巧遇多年不见的老 新 大》 20 ) (03 友oY s r y naI s e e a r c s td Ia D

基于现代汉语语法信息词典的词语情感评价研究1

基于现代汉语语法信息词典的词语情感评价研究1

583
言知識庫。語法信息詞典的擴充作為其中一個子任務,要求在 2004 年年底增至到 8 萬詞 條,利用這次詞典擴充的機會,擬將情感評價特徵納入語法信息詞典的屬性描言學界稱之為詞語的感情色彩(詞的褒貶)。相關的詞彙 學著作有過論述[符淮青 1985; 劉叔新 1990],但他們只是簡單地說明詞語感情色彩的定 義和枚舉相應的例子,語法信息詞典的情感評價屬性描述和傳統語言學的詞語感情色彩 研究有一定區別。為了能夠和語言學的感情色彩相區別,我們在以后的描述中使用“情 感評價"這一術語。
1 相關研究得到中國國家 973 項目(2004CB318102)和國家 863 計劃(2001AA114210,2002AA117010) 的支持。
∗ 北京大學計算語言學研究所,100871 中國 Institute of Computational Linguistics, Peking University, 100871 China E-mail: {wangzm, yusw}@
經研究,我們發現詞語蘊涵的情感屬性對其句子中共現的詞語有很大的限制,其共 現詞語往往也要求具有統一的情感傾向。例如:以“潰逃"為例,“潰逃"是個貶義詞, 當它進入句子中與其共現的主語成分大都是含有貶義的壞人。例如:敵軍~、匪軍~、 反動派~、土匪~、壞蛋~、罪犯~、走私犯~。與其共現的狀語成分也表示貶義的含 義。例如:倉惶~、 狼狽~。也有互為共現的詞語表現出不一致的情感傾向。例如:“擺 脫"不是貶義詞,但通常與表示消極情感傾向的詞語共現,如:~困難、~困境、~貧 困、~不發達狀態、~羞恥和孤獨、~危機、~老套套、~束縛、~危險、~制裁、~ 困擾。雖然后面所帶的詞語都是表示消極、負面的,但是整個句子卻表現一種積極、肯 定的情感傾向。由此“擺脫"也帶上了積極、正面的色彩。

《现代汉语词典》(第6版)兼类词表征策略

《现代汉语词典》(第6版)兼类词表征策略

《现代汉语词典》(第6版)兼类词表征策略杨旭;王仁强【摘要】以双层词类范畴化理论为指导,基于自建的"《现代汉语词典》(第6版)词类标注数据库"对其兼类词表征策略进行系统研究.研究发现:宏观结构上,《现汉》(第6版)的兼类词数量和比例与第5版相比虽改进明显,不过6.65%的兼类比例相对于同为分析语的现代英语而言仍然较低,且并未真实反映现代汉语的兼类现状;微观结构上,存在疑似词类缺标、释义与词类标注不协调及配例与词类标注不协调三类问题.背后的主要动因是盲目坚持兼类要尽可能少的"简约原则",但是该原则在理论和实践上都面临严峻挑战.【期刊名称】《广东外语外贸大学学报》【年(卷),期】2018(029)004【总页数】9页(P5-13)【关键词】《现代汉语词典》;兼类词;词类;简约原则;双层词类范畴化理论【作者】杨旭;王仁强【作者单位】复旦大学中文系, 上海 200433;四川外国语大学研究生院, 重庆400031【正文语种】中文【中图分类】H06一、引言在语言范畴研究中,词类尤其是兼类问题是语言学研究中的难点和热点。

汉语词类问题被誉为一个老大难问题(陆俭明,2013:34),其中兼类现象被称为“长期以来困扰语法学界而得不到妥善解决的老大难问题”(胡明扬,1996:215)。

兼类指一个多义的概括词在社群语言系统层面词库中兼属两个或两个以上词类范畴的语法多功能现象(王仁强,2013),而关注社群语言系统的重要语言学著作就是词典(Ilson,1985:1),因此以词典为基础来探讨兼类问题才是合理的选择。

反过来,兼类处理得如何直接关系到语文词典尤其是对外汉语学习词典的生命力。

语文词典兼类词表征策略体现在宏观和微观两个层面:宏观上指条目总体中的兼类比例和兼类词内部的类型和构成等;微观上指词类标注是否充分,释义、配例与词类标注是否协调等。

针对《现代汉语词典》(简称《现汉》,区别版本时则称之为第N版)的兼类词表征策略,已有一些定量研究:如针对第5版的单音节兼类词(陈蓓,2009)、动名兼类词(方清明,2010)、双音节动名兼类词(姜自霞,等,2011),甚至全部兼类词(王仁强,2013)等;再如针对第6版的双音节动名兼类词(徐汉英,2015)、双音节形名兼类词(汪锦绣,2013)等。

大规模中文文本语料库分词与词性标注一致性检验技术研究-山西大学

大规模中文文本语料库分词与词性标注一致性检验技术研究-山西大学

大规模中文文本语料库分词与词性标注一致性检验技术研究基本信息批准号60473139项目名称大规模中文文本语料库分词与词性标注一致性检验技术研究项目类别面上项目申请代码F020603项目负责人郑家恒负责人职称教授依托单位山西大学研究期限2005-01-01 到 2007-12-31资助经费23(万元)项目摘要中文摘要目前,在机器翻译、语音识别、信息检索等应用系统的开发中,广泛地使用语料库。

建设高质量的大规模语料库是中文信息处理领域的基础性工程。

由于自动分词和词性标注的正确率达不到百分之百;人工校对语料时,校对者对分词单位和词性标注认识上存在着差异,造成语料加工结果不一致现象的存在。

因此,研究语料库一致性检验技术是十分必要的,它不仅可以保证语料库加工的质量,也可以提高语料库加工的自动化程度,减轻人工校对的工作量。

课题研究的内容有:研究语料库加工规范的分词模式、词性标注模式的形式和生成;一致性检验模式库的构建、维护、优化策略,模式的选择,模式匹配条件的确定;建立组合型歧义字段语言环境和兼类词语言环境模型;应用基于范例推理、粗糙集、分类、聚类和模式识别技术,获取分词与词性标注一致性检验知识库,研究一致性检验算法;开发分词与词性标注一致性检验软件,为建设高质量的大规模语料库提供有力的保证。

中文主题词分词一致性;词性标注一致性;语言环境模型;语料加工规范模式英文摘要英文主题词consistency of segmentation;co结题摘要建设高质量的大规模语料库是中文信息处理领域的基础性工程,也是很多相关应用领域进行更深层次研究的根本保证。

由于自动分词和词性标注的正确率达不到百分之百;人工校对语料时,校对者对分词单位和词性标注认识上存在着差异,造成语料加工结果不一致现象的存在。

因此,研究语料库一致性检验技术是十分必要的,它不仅可以保证语料库加工的质量,也可以提高语料库加工的自动化程度,减轻人工校对的工作量。

现代汉语语料库加工规范——词语切分与词性标注

现代汉语语料库加工规范——词语切分与词性标注

现代汉语语料库加工规范——词语切分与词性标注1999年3月版北京大学计算语言学研究所1999年3月14日⒈ 前言北大计算语言学研究所从1992年开始进行汉语语料库的多级加工研究。

第一步是对原始语料进行切分和词性标注。

1994年制订了《现代汉语文本切分与词性标注规范V1.0》。

几年来已完成了约60万字语料的切分与标注,并在短语自动识别、树库构建等方向上进行了探索。

在积累了长期的实践经验之后,最近又进行了《人民日报》语料加工的实验。

为了保证大规模语料加工这一项重要的语言工程的顺利进行,北大计算语言学研究所于1998年10月制订了《现代汉语文本切分与词性标注规范V2.0》(征求意见稿)。

因这次加工的任务超出词语切分与词性标注的范围,故将新版的规范改名为《现代汉语语料库加工规范》。

制订《现代汉语语料库加工规范》的基本思路如下:⑴ ⑴ 词语的切分规范尽可能同中国国家标准GB13715“信息处理用现代汉语分词规范” (以下简称为“分词规范”)保持一致。

由于现在词语切分与词性标注是结合起来进行的,而且又有了一部《现代汉语语法信息词典》(以下有时简称“语法信息词典”或“语法词典”)可作为词语切分与词性标注的基本参照,这就有必要对“分词规范”作必要的调整和补充。

⑵ ⑵ 小标记集。

词性标注除了使用《现代汉语语法信息词典》中的26个词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,增加了以下3类标记:①专有名词的分类标记,即人名nr,地名ns,团体机关单位名称nt,其他专有名词nz;②语素的子类标记,即名语素Ng,动语素Vg,形容语素Ag,时语素Tg,副语素Dg等;③动词和形容词的子类标记,即名动词vn(具有名词特性的动词),名形词an(具有名词特性的形容词),副动词vd(具有副词特性的动词),副形词ad(具有副词特性的形容词)。

基于语料库的词类标注研究

基于语料库的词类标注研究

基于语料库的词类标注研究作者:梅晨莹来源:《北方文学》2017年第09期摘要:本文以日常用语中很常见的“方便”一词为例,在翻阅了多本英汉词典中对“方便”一词的释义后,发现其存在词类标注等方面的不足与不妥,进而又翻阅了相关的汉语词典,以及在参考了语料库的基础上,对“方便”一词进行个案研究与探索,以求对其进行准确全面的释义。

关键词:方便;语料库;词类标注;词典关于词类划分,常见的标准包括从词的形态、意义(包括词汇意义和语法意义)和语法功能来区分。

由于汉语缺乏像欧美语言那样的词形变化,所以形态不足以作为主要标准,加之词汇意义不能反映其表述功能,且语法意义不具有可观察性,因此根据词的语法功能作为标准最为合适。

本文以日常用语中很常见的“方便”一词为例,借助语料库和认知语言学相关理论来重新诠释其意义。

一、汉英词典对“方便”的释义《简明英汉—汉英词典》外研社(2007)——1.conveni-ent; available; accessible2.convenience3.have money to spare4.go an d wash one’ hands《現代英汉汉英词典》外研社(2005)——1.convenient 2.make things convenient for sb 3.have money to spare or lend 4. go to the lavatory《柯林斯英汉汉英词典》外研社(2007)——形:1.(便利)convenient 2.(适宜)appropriate《新汉英词典》商务印书馆(2007)——动:1.make things convenient for sb 2. go to the lavatory形:expedient; handy; convenient; cheap《新编汉英词典》南方出版社(2002)——convenient~群众 make things convenient for the people;suit the people’s convenience 交通~ have a good transport service《21世纪汉英词典》外文出版社(1999)——1.(便利)convenient 2.(上厕所)go to the lavatory 3.(有富余钱) have money to spare or lend《远东汉英大辞典》新华出版社远东图书公司(1995)——1.convenient;handy;a convenient method 2.to give sb a break; to do sb a favor 3.(colloquial) to go to the lavatory从以上7本汉英词典中,我们可以发现以下问题:1.有些词典缺乏词类标注。

语料库的词性标注

语料库的词性标注

词性标注方法
词性标注原理
TreeTagger (Multilingual Version 2.0)的操
作方法
词性标注集
词性标注集(tagset)即一整套符号,代
表各类词性。
词性标注集具有内在规律。
词性标注语料的检索
安装EditPad Pro
以赋码为线索,赋码(POS, Part-of-Speech Tagging),指对文本中的所有词进行分 析,确定其语法属性,并将该属性添加 到文本中的对应位置。
对经过词性标注后的语料库可以进行更 有效的检索和分析,可以方便从语料库 中提取语法相关信息,即Leech所说的 added value。
中国外语教育研究中心梁茂成词性标注的意义词性标注方法词性标注集词性标注语料的检索又称词性赋码pospartofspeechtagging指对文本中的所有词进行分析确定其语法属性并将该属性添加到文本中的对应位置
语料库的词性标注
中国外语教育研究中心 梁茂成
主要内容
词性标注的意义
词性标注方法
词性标注集 词性标注语料的检索
索 AntConc支持正则表达式
谢谢

基于语料库的双语词典编纂中的词性标注方法

基于语料库的双语词典编纂中的词性标注方法

基于语料库的双语词典编纂中的词性标注方法
刘红蕾
【期刊名称】《中北大学学报(社会科学版)》
【年(卷),期】2002(000)003
【摘要】语科库作为自然发生的语言资料的集合,它反映了某一种语言的用法特征及其多样性;它为词典编篡提供了翔实可靠的依据.利用英语语言学研究的成果,结合语料库中常见的词性标注方法,对运用于双语词典编纂的CONULExID语料库系统中的语料词性标注问题进行了初步的探讨.
【总页数】3页(P63-65)
【作者】刘红蕾
【作者单位】南京林业大学,人文学院,江苏,南京,210037
【正文语种】中文
【中图分类】H31
【相关文献】
1.基于语料库的双语词典编纂软件设计与实现 [J], 孙辉
2.基于语料库的“有”的词性标注研究及其对汉语词典编纂的启示 [J], 彭志斌
3.基于语料库的语义韵研究与双语词典编纂 [J], 薛雪
4.基于语料库的双语词典编纂平台的构建 [J], 常宝宝
5.英汉双语平行语料库对于双语词典编纂的影响 [J], 丁冬梅
因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第40卷㊀第3期2019年3月哈尔滨学院学报JOURNALOFHARBINUNIVERSITYVol.40㊀No.3Mar.2019㊀㊀[文章编号]1004 5856(2019)03 0117 04基于语料库的 感动 一词词类标注问题研究王春雨(四川外国语大学研究生院ꎬ重庆㊀400031)[摘㊀要]汉语兼类词一直是一个老大难的问题ꎬ兼类词的词性标注更是语文辞书编纂的难点ꎮ文章以语料库为研究工具ꎬ对现代汉语高频使用的 感动 的词性进行了查阅和探讨ꎬ发现目前大中型汉语词典对 感动 的词性处理有失允当ꎬ因此ꎬ在利用语料库占有充分语言材料的基础上ꎬ对 感动 的词性进行了深入探讨ꎮ[关键词] 感动 ꎻ兼类词ꎻ词性标注ꎻ语料库[中图分类号]H042㊀㊀[文献标识码]A㊀㊀doi:10.3969/j.issn.1004-5856.2019.03.029㊀㊀词类标注的正确性关乎整部汉英词典的可信度ꎮBeck指出: 词类在大多数(若非全部)句法理论中都起着关键作用ꎬ词类是词典学和词汇语义学的要素ꎮ [1]由此可见ꎬ词类研究在词典编纂与语言学习过程中的重要性ꎬ而词类标注是词性研究的重要方法ꎬ是词典编纂过程中注明词语用法的有效途径之一ꎮ近年来ꎬ虽然各类词典在词类标注方面已经取得了长足的进步ꎬ但是现有词典在词类标注方面仍然存在不同程度的问题ꎮ基于此ꎬ本文基于双层词类范畴理论ꎬ运用语料库的使用模式调查ꎬ采用不同于以往仅采用既定理论和依靠直觉判断的词类标注方法ꎬ用数据确保词类标注的科学性与可靠性ꎬ以期准确判断 感动 一词的词性ꎬ对于词类标注和词典编纂能够有所帮助ꎮ一㊁研究问题感动 一词在汉语言使用中极为广泛ꎬ然而各类词典对 感动 的义项和词类划分不尽相同ꎮ笔者从各大中型词典中选取出两部对词类做出标注的权威性汉语词典ꎬ并对其 感动 一词的词类标注情况进行检索ꎮ通过对比研究发现ꎬ 感动 一词在不同词典中的释义情况及词类标注各有千秋ꎬ不能做到仅凭一部词典就能对该词的词性做出准确判断ꎮ我们知道ꎬ汉语词目的词类标注是准确译义汉英词典的前提ꎬ但是ꎬ汉英词典对词类做出标注的依据是什么?有学者认为ꎬ汉英词典的词类标注可以参照已标注词类的汉语词典ꎮ那么ꎬ大中型汉语词典又该怎样对词类做出标注呢?通过对两部汉语词典和七部汉英词典ꎬ统计结果如下:从词典中的标注来看ꎬ 感动 一词的词性均被标注为动词ꎬ而且都具有共同的义项 使感动 ꎮ但在第二条义项上ꎬ«标准汉语词典»标出的意义范围比«现代汉语词典»(以下简称«现汉»)单纯的一个义项有所扩大ꎮ但是«现汉»中将 感动 一词标注为 动形兼类词 ꎬ即除了«标准汉语词典»中给出的动词词性之外ꎬ还给出了 感动 的形容词词性ꎮ在对以上标注词类的几部汉语词典比较研究中ꎬ我们发现以下几个问题:其一ꎬ归纳这几部词典中 感动 的主要义项有:作动词ꎬ(1)使感动ꎻ(2)受外界事物的影响而激动ꎬ产生同情㊁赞叹或向慕ꎻ(3)作形容㊀㊀[收稿日期]2018-05-10㊀㊀[作者简介]王春雨(1993-)ꎬ女ꎬ山东潍坊人ꎬ硕士研究生ꎬ主要从事认知语言学㊁语言教学研究ꎮ词使用ꎬ感动(的)ꎮ而第二个义项只在«标准汉语词典»中收录ꎬ第三个义项只收录于«现汉»5/6/7版中ꎮ那么我们该思考:以上归纳总结的这几种义项能囊括古今汉语中 感动 一词的所有含义吗?其二ꎬ各类汉语词典中ꎬ对 感动 的词类划分也不尽相同ꎮ«现汉»将其处理为 动形兼类词 ꎬ而«标准汉语词典»却将其处理为动词ꎮ由此可以看出ꎬ汉语词典部分词语的词类标注义项及词义不匹配ꎬ甚至存在分歧ꎮ表1㊀两部已标注词类的汉语词典 感动 释义词典释义«现代汉语词典»(第5/6/7版)ʌ感动ɔgǎndòng①[形]思想感情受外界事物的影响而激动ꎬ引起同情或向慕:看到战士舍身救人的英勇行为ꎬ群众深受~ꎮ②[动]使感动:他的话<谓>他的行为~了在座的人ꎮ«标准汉语词典»ʌ感动ɔgǎndòng[动]①受外界事物的影响而激动ꎬ产生同情㊁赞叹或向慕ꎮ<谓>他的行为令我十分~|被这件事所~ꎮ<定>十分~的样子ꎮ(不能带宾语ꎬ不能带 了㊁着㊁过 ꎬ不能重叠)ꎮ②使感动ꎮ<谓>他们的行为~了每一个人|这种景象很~人|用这些事迹~他|~着大家ꎮ(必带宾语ꎬ可以重叠)ꎮ㊀㊀为了进一步调查清楚 感动 一词的词性和词义ꎬ笔者同时又检索了七部汉英词典ꎬ其中有四部标注了 感动 的词类ꎬ三部未标注词类ꎬ其结果与汉语词典的标注还是有所区别的ꎮ表2㊀四部已标注词类的汉英词典 感动 释义词典释义«新世纪英汉大词典»ʌ感动ɔ[动]①bemoved/touchedꎻbeimpressed/affected:~得不知道说什么好betou ̄chedbeyondwords║~得热泪盈眶bemoved/affected/softenedtotears║深受~bedeep ̄lymoved/touched║被其献身精神所~bemoved/affectedbyhisdevotionmoveꎻ②touchꎻimpressꎻaffect:他的讲话深深地~了我ꎮHisspeechmoved/touchedmeprofoundly.║他们的热情好客真令我们~ꎮTheirhospitalityreallymovedus.牛津 外研社«英汉汉英词典»ʌ感动ɔgǎndòng[动]①(被感动)bemoved:~得不知说什么好betouchedbeyondwords║~得热泪盈眶bemovedtotears║深受~bedeeplymovedꎻ②(使人感动)move:他的讲话深深地~了我ꎮHisspeechmoved/touchedmeprofoundly.外研社 柯林斯«英汉汉英词典»ʌ感动ɔgǎndòng[动]move:他很容易被感动ꎮHe sveryeasilymoved.精选«英汉汉英词典»ʌ感动ɔgǎndòng[动]moveꎻtouch:~得流下眼泪bemovedtotears.表3㊀三部未标注词类的汉英词典 感动 释义词典释义新时代«汉英大词典»ʌ感动ɔgǎndòng[无]moveꎻtouchꎻaffect:~得说不出话来betoomovedtoutteraword/我被他那真挚的友情深深地~了ꎮIwasdeeplytouchedbyhissincerefriendship./他的演讲~了所有观众ꎮHisspeechstruckadeepchordintheentireaudience.«英汉汉英词典»ʌ感动ɔgǎndòng[无]bemovedꎻbetouched深受~:bedeeplymoved.«汉英词典A»ʌ感动ɔgǎndòng[无]moveꎻtouch:~得流下眼泪bemovedtotears/深为他的革命精神所~bedeeplytouchedbyhisrevolutionaryspirit.㊀㊀从表2㊁表3中可以看出ꎬ在本文所选取的七部汉英词典中ꎬ有新时代«汉英大词典»㊁«英汉汉英词典»㊁«汉英词典A»三部词典没有明确标注词类ꎬ其他四部都明确把 感动 一词当做动词译义ꎮ即使那三部没有标明词类的词典也将 感动 一词处理为动词ꎬ但是在汉英词典中ꎬ我们可以发现:在«新世纪英汉大词典»㊁牛津 外研社«英汉汉英词典»㊁新时代«汉英大词典»和«汉英词典A»中都对 感动 的两个义项做出了释义ꎬ而外研社 柯林斯«英汉汉英词典»中只包含 受/被感动 这一个义项ꎬ而精选«英汉汉英词典»中却只包含 使(人)感动 这一个义项ꎮ由此可见ꎬ对于 感动 的标注并非是统一的ꎬ而且词典间存在着巨大的差异ꎮ那么ꎬ 感动 到底有几个词类?上述对该词的词类划分是否科学?进行词类标注的判断标准是什么?如何对词汇进行科学标注?有什么理论依据?当使用者面对不同词典中的众多811㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀哈尔滨学院学报2019年不同标注时ꎬ应该如何做出选择? 要准确回答这些问题ꎬ就必须掌握充分的语料证据ꎮ下面本文在 国家语委语料库 中对 感动 一词的词类标注及用法情况进行检索ꎬ通过研究ꎬ总结该词的全部义项及词类ꎬ以期能够对 感动 一词的义项及词类做出准确标注和合理解释ꎮ二㊁研究方法Biber指出: 基于语料库的分析是经验性的ꎬ分析的是自然语篇中语言的真实使用模式ꎮ [2]基于语料库对词汇所作的分析具有其他传统分析方法无法比拟的优越性ꎮ因此ꎬ本文采用基于国家语委语料库语言研究方法ꎬ尽可能对 感动 一词的义项及词类标注情况做出全面详尽的分析ꎮ为了准确判断 感动 一词的释义情况及其语法属性ꎬ笔者首先通过国家语委语料库 感动 进行了检索ꎮ在现代汉语语料库中一共检索到451条关于 感动 的索引ꎬ其中有效索引448条ꎬ对 感动 词目分析整理如下:表4㊀ 感动 在国家语委语料库中检索后的词类分析表标注词类词频百分比(%)动词42895.6名词184形容词20.4合计448100㊀㊀在分析的过程中ꎬ笔者又对 感动 一词在国家语委语料库中的释义作了分析并对 感动 一词在语料中的使用模式和义项分布进行了归纳(见表5ꎬ表6)ꎮ由此可见ꎬ在实际的语用中ꎬ 感动 一词不仅在词类上与上述词典的标注相差甚远ꎬ同时其意义的使用范围也更加广泛ꎮ由于 感动 一词在国家语委语料库中的有效索引量较大ꎬ可信度较高ꎬ因此也就没有继续在 北语语料库 中进行再次检索ꎮ三㊁研究结果与讨论1.义项分析感动 在大多数词典中只收录了两个义项: 使(人)感动 和 受外界事物的影响而激动ꎬ产生同情㊁赞叹或向慕 ꎬ甚至有的词典中只收录了其中某一义项ꎮ而通过检索语料库我们可以发现ꎬ 感动 大致包含以下几个意思:受外界事物的影响而激动ꎻ触动ꎻ被感动ꎻ使(人)感动等ꎮ表5㊀ 感动 在国家语委语料库中检索后的使用模式分析表词类使用模式索引数百分比动词人 感动 / 感动 人14532%感动 得 357.8%受/被/觉得 感动 15434.4%名词有点儿 感动 71.6%xx的 感动 133.7%受了 感动 112%形容词很/十分/非常/相当/挺 感动 368%感动 的173.8%感动 地306.7%统计(索引数/比例)448100%表6㊀ 感动 在国家语委语料库中检索后的义项分布表义项索引数百分比使(人)感动15634.8%受外界事物的影响而激动ꎬ产生同情㊁赞叹或向慕17940%㊀㊀2.词类分析从国家语委语料库的检索结果中ꎬ我们不难发现ꎬ 感动 一词不只有«现汉»和«标准汉语词典»中标注的动词㊁形容词用法ꎬ它还可用作名词ꎮ如:语料库中ꎬ例句 这几句说得有声有色ꎬ似乎梅女士也受了感动ꎬ从昨天起的不大喜欢这位少年的意思也在无形中减少几分ꎬ她沉吟着慢慢地说 所体现的就是 感动 的名词性用法ꎮ所以ꎬ根据语料库分析的结果ꎬ我们得知ꎬ 感动 是 动名形 兼类词ꎮ由于词典中收录的只是 感动 的动词或形容词用法ꎬ所以有待商榷ꎮ3.讨论经过对比研究我们发现ꎬ不管是汉语词典还是汉英词典大部分都只设立了 感动 的动词义项ꎬ却没有其作为名词和形容词的义项ꎬ显然这违背了该词作为名词和形容词的用法在汉语中占较大比例这一事实ꎮ为什么词典编纂屡次出现类似于 感动 的词类功能义项缺失㊁词类标注与配例不搭配的问题呢?这可能与词典编纂者采用的词类判断标准㊁层面和程序密切相关ꎮ笔者认为ꎬ过去学界对于兼类词的认识有911第3期王春雨:基于语料库的 感动 一词词类标注问题研究误区:坚持兼类要尽可能少的 简略原则 ꎮ[3]所以ꎬ大多数汉语词典ꎬ包括«现代汉语词典»第5/6/7版在内ꎬ均将 感动 一词的词类标注为动词或形容词ꎬ忽视了其名词词性用法ꎬ仅将该用法置于言语层面作临时使用ꎮ对此ꎬ王仁强教授提出兼类的概念ꎬ兼类即 一个多义的概括词在社群语言系统层面词库中兼属两个或两个以上词类范畴的现象ꎬ在词典中体现为兼类词 ꎮ[4]本文采用基于国家语委语料库语言研究方法ꎬ通过对 感动 一词的词类属性识别情况探究发现ꎬ在汉语词典和汉英词典的编纂过程中普遍存在人为减少兼类的情况ꎬ这一做法明显违背了语言事实ꎬ不利于以汉语为母语者及非母语者利用词典进行学习㊁研究ꎮ四㊁结语综上所述ꎬ词典编纂者应该将双层词类范畴化作为理论指导ꎬ依据词的表述功能对词语所兼词类作出判断ꎮ词类的再范畴化取决于语料库中词汇的用法检索ꎬ以语料库为依据ꎬ只要体现出不同的使用模式ꎬ就应该单独设立义项ꎬ将其处理为兼类词ꎮ鉴于此ꎬ笔者对汉语词典和汉英词典中 感动 的词类标注分别提出以下处理建议:ʌ感动ɔgǎndòng①[形]思想感情受外界事物的影响而激动ꎬ引起同情或向慕:看到战士舍身救人的英勇行为ꎬ群众深受~ꎮ②[动]使感动:他的话‹谓›他的行为~了在座的人ꎮ③[名]指令人感动的人或事:原来他受了那老头子话的~ꎮ汉英词典可处理为:ʌ感动ɔgǎndòng[动]①(被感动)bemoved:~得不知说什么好betouchedbeyondwords║~得热泪盈眶bemovedtotears║深受~bedeeplymoved.②(使人感动)move:他的讲话深深地~了我ꎮHisspeechmoved/touchedmeprofoundly.③[形]deeplymovingꎻemotive.④[名]theactionorpeoplethatmakesb.beingmoved.由此ꎬ可得出以下启示:(1)各类词典在对词语进行词类标注时应当以汉语语料库的用法调查为依据ꎬ不能仅凭主观臆断或已有权威词典的标注ꎻ(2)以双层词类范畴理论为基础ꎬ对典编纂实践进行指导ꎬ正确区分语言系统层面和言语层面的词ꎬ使词目㊁义项和例证三者协调统一ꎬ增强词典的科学性㊁准确性和逻辑性ꎻ(3)汉英词典应坚持词类对译原则ꎬ坚持 汉语本位 ꎻ(4)汉语词典应尽量实现全面显性的词类标注ꎬ以提高英汉词典的科学性和实用性ꎮ[参㊀考㊀文㊀献] [1]BeckD.TheTypologyofPartsofSpeechSystems:TheMarkednessofAdjectives[M].NewYork:Routledgeꎬ2002.[2]BiberDꎬConradSꎬCambridgeR.CorpusLinguistics:InvestigatingLanguageStructureandUse[M].Cam ̄bridge:CambridgeUniversityPressꎬ1998. [3]陆俭明.关于词的兼类问题[J].中国语文ꎬ1994ꎬ(1).[4]王仁强.现代汉语兼类问题研究 兼评索绪尔语言学思想的重要价值[J].外国语文ꎬ2013ꎬ(2).责任编辑:思㊀动Corpus ̄basedStudyonPart ̄of ̄speechTaggingfor gandongWANGChun ̄yu(SichuanInternationalStudiesUniversityꎬChongqing400031ꎬChina)Abstract:Chinesemulti ̄categorywordshavealwaysbeenadauntingproblem.Fur ̄thermoreꎬwordclasstaggingisthedifficultyincompilingtheChinesedictionaries.Withcorpusasresearchinstrumentꎬ gandong ꎬafrequentlyusedChinesewordꎬisanalyzed.Itisdiscoveredthattherearemanycasesofmis ̄interpretationonwordcategoryinbigandmedi ̄umsizeddictionaries.Thewordclassof gandong isdiscussedonthebasisofcorpusthatcontainfulllanguagematerial.Keywords: gandong ꎻmulti ̄categorywordsꎻwordclasstaggingꎻcorpus021㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀哈尔滨学院学报2019年。

相关文档
最新文档