基于语料库同义词辨析的一般方法
基于语料库的英语同义词的语义韵辨析——以beginstart为例
《长江丛刊.理论研究》2017. 11基于语料库的英语同义词的语义韵辨析------以 begin%start 为例柴雨蕾【摘要】本研究在回顾语义韵研究的基袖上,选用中国学习者英语语料库(Chinese Learner English Corpus;CLEC),利用WordSmithTools5.0软件,将英语学习中常见的同义词begin和start作为研究对象,辩析其语义韵分布特征以及词汇搭配特征,并对英语教学提出建议。
【关键词】语义韵语料库同义词9'前言语料库语言学是一门独立的学科,兴起于20世纪中后 期,它研究大量真实的语言数据并对其进行深层次、多方 位的语言实证和理论研究。
可以说,语料库语言学的出现 为语言及其应用带来了一场革命性的变化,它不仅揭示了 隐藏于语言现象背后的语言意义及语言规律,也为国内对语 言学习的教育研究提供新路径。
同义词是语言中普遍存在的 现象,而对于国内学习英语的二语习得者来说,英语中的同 义词现象一直都是难题,不恰当的用词会造成信息交流的有 效传递。
词语搭配是最能显现同义词之间的差别,词语搭配 中的语义韵研究是近年来语料库语言学研究的一大热点。
二、 语义韵的研究回顾Stubbs(2001)指出,话语的主要目的是传递说话人的 态度、立场与观点,此目的是由语义韵完成的。
语义韵的 主要有态度标识、讽刺修辞三大主要功能,是用来表达说 话人或者语言使用者的态度和评价。
需要注意的是,语义 韵不同于传统词汇学的褒贬概念,褒贬是词汇本身固有的 属性,具有独立性。
但是,语义韵是由节点词和搭配词共 同形成的语义氛围,构成一种具有意识性的语义联想,因此语义韵对词项具有依赖性。
这种依赖性需要借助文本的 语境和语料库的研究方法,才能得到对语义韵的定性描述。
三、 研究方法本研究在语义韵的理论指导下,采用语料库的的研究 方方法,利用中国学习者英语语料库(Chinese Learner English Corpus;CLEC)和 WordSmith Tools 5.0 作为目标语 料库和研究工具,选定begin和start这一组同义词,辨析其 语义韵特征以及搭配词的非配特征。
基于语料库的同义词辨析
基于语料库的同义词辨析在语言学研究中,同义词辨析一直是一个重要的课题。
同义词指的是意义相近的词语,它们在用法、语境和语义等方面存在差异。
为了更好地理解和使用同义词,我们需要进行深入的研究和分析。
本文将介绍一种基于语料库的同义词辨析方法,并运用该方法对一组同义词进行分析。
选择合适的语料库是进行同义词辨析的关键步骤。
语料库是大量真实语料的集合,可以为同义词辨析提供丰富的语境信息。
我们可以选择电子书、论文、新闻等多种类型的语料库,以获取不同领域和体裁的语料。
在准备好数据集后,我们就可以运用各种方法进行同义词辨析。
同义词辨析的方法有很多,其中比较常用的有构词法、形似度比较和语音比较等。
构词法是通过分析词语的构词成分来辨析同义词。
例如,“看见”和“目睹”是一组同义词,但它们的构词成分不同,“看”和“睹”在意义上有一定的差异。
形似度比较是通过比较词语的形状来辨析同义词。
例如,“唯一”和“独一”是一组同义词,但它们的形状不同,因此在一些情况下可能存在用法上的差异。
语音比较是通过比较词语的发音来辨析同义词。
例如,“以后”和“之后”是一组同义词,但它们的发音不同,可能会影响词语的语感和情感色彩。
在进行同义词辨析时,我们需要根据实际需要选择合适的方法。
同时,我们还需要注意以下两点:重视语境信息。
同义词在不同语境下可能有不同的用法和意义,因此我们需要结合具体语境来进行辨析。
在借助语料库进行同义词辨析时,我们需要从大量真实的语料中提取相关信息,并通过对上下文的分析来理解同义词的用法和差异。
保持客观公正。
同义词辨析要求我们在分析时保持客观公正,不能主观臆断或带有偏见。
为了确保分析的准确性,我们需要充分了解同义词之间的细微差异,并依据语料库中的实际语料来进行判断。
下面,我们以“马上”和“立刻”为例,说明如何运用基于语料库的同义词辨析方法。
我们选择一个电子书语料库作为数据集,并使用检索工具在其中检索“马上”和“立刻”这两个词语的出现情况。
基于COCA语料库的英语近义词辨析
基于COCA语料库的英语近义词辨析作者:***来源:《校园英语·月末》2021年第03期【摘要】作为世界上词汇量最大的语言之一,英语中存在着大量的近义词,传统的词汇辨析一般依赖于权威的英语大词典,如牛津,朗文,柯林斯等,但学习者并不能通过词典来寻找到他们所需要的某些词之间的细微差别。
而语料库的出现,则使研究者们在辨析近义词时有了大量真实发生的语料为支撑,也为他们提供了一套极为科学有效的分析工具。
本文则将借助COCA语料库辨析具有“限制”一义的三个词:confine,restrict和restrain,通过检索这组近义词在COCA语料库中的使用情况,从词频分布、显著搭配词、在语域中的搭配特征等方面来分析他们的异同,为英语学习者提供借鉴,进而提高英语学习者利用真实语料对近义词的辨析能力。
【关键词】COCA语料库;近义词;搭配;辨析【作者简介】卢明远(2001.01-),男,汉族,安徽人,巢湖学院外国语学院,本科在读,研究方向:英语语言学。
一、引言随着英语的不断发展,大量的借词、隐喻与转喻、升格与降格等原因使得英语中出现了大量的近义词。
据统计,英语语言中同义词、近义词的数量约占总词汇量的 60 %以上(贺晓东,2003,它们通过词形、词义、结构或用法等方方面面的相同或相近构成了庞大的英语词汇体系,而如何正确地辨析这些近义词之间的细微差距,从而更加确切地使用这些词,使用成了英语外语学习者(EFL)甚至是本族语学习者面临的一大难题。
突破了这一重要环节,也就突破了提高英语阅读写作以及口语交际等技能的关键。
值得庆幸的是,语料库语言学的兴起与发展为词汇研究开辟了新的视角,同时也为近义词辨析提供了新的方法和依据。
机读语料库因其语料真实丰富、覆盖不同文体语域、反映语言全貌、易于检索分析等根本优势,在很大程度上弥补了过去英语词汇辨析因为语言材料不够充分而多依赖主观自省的不足,使词语辨析开始从传统的直觉经验方法转向基于科学实验、定量统计和定性分析的方法。
基于语料库的近义词识解和辨析——以“凸显”“凸现”“突显”“突现”为例
基于语料库的近义词识解和辨析——以“凸显”“凸现”“突显”“突现”为例基于语料库的近义词识解和辨析——以“凸显”“凸现”“突显”“突现”为例基于语料库的近义词识解和辨析——以“凸显”“凸现”“突显”“突现”为例-汉语言文学基于语料库的近义词识解和辨析——以“凸显”“凸现”“突显”“突现”为例姜淑珍摘要:“凸显”“凸现”“突显”“突现”四词发音、词义、用法相近,容易混淆。
从大型语料库中可见其通用性差异;四词的理据性不相伯仲,系统性有强弱之分。
通过语义解构,可以辨析四词的细微区别。
“凸显”和“凸现”应为近义词;“突显”可推荐为“凸显”的异形词;“突现”和“凸现”为义项同义词。
“突现”在语例中展示出新的义项是词语原有的两个义项互相作用的结果。
大型词典在4个中词的立目和注释上还有值得商榷之处。
关键词:Tuxian 语料库认知识解语义解构一、使用现状考察查找北京大学中国语言学研究中心(CCL)网络版-现代汉语语料(http://:8080/ccl_corpus)我们发现,标题中四组词在现代汉语中的用法非常混乱。
以下例句①,均出自报章语篇,Tuxian②的意义和语境基本相同,却使用了不同的词汇形式,不免让读者眼花缭乱。
(1)随着改革开放和现代化建设的不断深入,发展的深层次矛盾和问题日益[凸显]。
(2)但令人担忧的是,在用水矛盾日益[凸现]的今天,中国西北地区的水资源浪费现象却依然严重。
(3)……对美国说“不”的勇气将会越来越大,欧美矛盾会越来越[突显]。
(4)世界上几乎所有国家都有国有企业,其经营机制上的矛盾日益[突现]。
郑林丽,董斌[1]就4个词的混用现象做过简要讨论,提出“它们出现的频率似乎不相上下。
”笔者认为“频率不相上下”的说法欠妥,CCL中4个词使用频次相去甚远。
二、相似度和通用性考察笔者在北京大学计算语言学的相似词网络平台(http://:8080/seek/check.php)上对这4个词进行查询,其相似度排序如下:“凸显-凸现”:0.999;“凸显-突显”:0.914;“凸现-突显”:0.907;“凸现-突现:”0.867;”凸显-突现”:0.782;“突显-突现”:0.754。
基于语料库同义词辨析的一般方法
基于语料库同义词辨析的一般方法
1、从感情色彩上进行辨析。
也就是从词的褒贬义去辨析。
如“顽强”与“顽固”前者表示赞许,后者则表示憎恨。
2、从语意轻重上进行辨析。
如“破坏”与“摧毁”前者程度浅,后者程度深。
3、从范围大小上展开辨析。
例如“战争”与“战斗”前者范围小,后者范围大。
4、从“具体”与“概括”的不同进行辨析。
如“衣服”与“衬衫”,“衣服”是概括性的,指还有衣服,而“衬衫”是具体的,可以指长袖衬衫或短袖衬衫,男式衬衫或女式衬衫等。
5、从指对象的`相同回去分辨。
例如“沈重”与“艰巨”,都存有分量轻的意思,但“沈重”指精神或思想负担轻,而“艰巨”则所指工作、任务的数量轻。
6、还可以从普通话和方言。
如“讨饭”与“乞丐”,口头语与书面语,如“爸爸”与“父亲”,旧词与新词,如“薪水”与“工资”,外来语与本民族词,如“水门汀”和“水泥”常用语和专门术语,如“盐”和“氯化钠”等几方面进行辨析。
基于语料库的近义词识解和辨析
基于语料库的近义词识解和辨析作者:姜淑珍来源:《现代语文(语言研究)》2015年第12期摘要:“凸显”“凸现”“突显”“突现”四词发音、词义、用法相近,容易混淆。
从大型语料库中可见其通用性差异;四词的理据性不相伯仲,系统性有强弱之分。
通过语义解构,可以辨析四词的细微区别。
“凸显”和“凸现”应为近义词;“突显”可推荐为“凸显”的异形词;“突现”和“凸现”为义项同义词。
“突现”在语例中展示出新的义项是词语原有的两个义项互相作用的结果。
大型词典在4个中词的立目和注释上还有值得商榷之处。
关键词:Tuxian 语料库认知识解语义解构一、使用现状考察查找北京大学中国语言学研究中心(CCL)网络版-现代汉语语料(http://:8080/ccl_corpus)我们发现,标题中四组词在现代汉语中的用法非常混乱。
以下例句①,均出自报章语篇,Tuxian②的意义和语境基本相同,却使用了不同的词汇形式,不免让读者眼花缭乱。
(1)随着改革开放和现代化建设的不断深入,发展的深层次矛盾和问题日益[凸显]。
(2)但令人担忧的是,在用水矛盾日益[凸现]的今天,中国西北地区的水资源浪费现象却依然严重。
(3)……对美国说“不”的勇气将会越来越大,欧美矛盾会越来越[突显]。
(4)世界上几乎所有国家都有国有企业,其经营机制上的矛盾日益[突现]。
郑林丽,董斌[1]就4个词的混用现象做过简要讨论,提出“它们出现的频率似乎不相上下。
”笔者认为“频率不相上下”的说法欠妥,CCL中4个词使用频次相去甚远。
二、相似度和通用性考察笔者在北京大学计算语言学的相似词网络平台(http://:8080/seek/check.php)上对这4个词进行查询,其相似度排序如下:“凸显-凸现”:0.999;“凸显-突显”:0.914;“凸现-突显”:0.907;“凸现-突现:”0.867;“凸显-突现”:0.782;“突显-突现”:0.754。
单字:“凸-突”的相似度为:0.626;“现-显”的相似度为:0.333。
基于BNC语料库的近义词辨析
基于BNC语料库的近义词辨析目录一、前言 (2)1. 研究背景与意义 (2)2. BNC语料库简介 (3)3. 近义词辨析的重要性 (4)二、BNC语料库介绍 (5)1. BNC语料库的发展历程 (7)2. BNC语料库的特点 (8)3. BNC语料库的应用领域 (9)三、近义词辨析的理论基础 (10)1. 同义词的定义与分类 (11)2. 近义词的辨析方法 (12)3. 近义词辨析的常见误区 (13)四、基于BNC语料库的近义词辨析实践 (14)1. 选取分析样本 (15)2. 数据预处理与标注 (16)3. 近义词的识别与辨析 (17)4. 结果展示与分析 (19)五、近义词辨析的应用 (20)1. 教学领域中的应用 (21)2. 语言学习中的应用 (23)3. 文化交流中的应用 (24)六、结论与展望 (25)1. 研究成果总结 (25)2. 存在的问题与不足 (26)3. 未来研究方向展望 (27)一、前言随着语言学研究的不断深入,越来越多的研究者开始关注词汇之间的细微差别。
近义词辨析作为词汇研究的一个重要方面,对于提高语言表达的准确性和丰富性具有重要意义。
在实际的语言使用中,许多近义词往往具有相似的含义,这使得区分它们的差异变得尤为困难。
为了更好地帮助学习者和研究者理解和使用这些近义词,本文基于BNC语料库进行近义词辨析的研究。
BNC语料库是一个广泛用于语言学研究的语料库,包含了大量的英语句子和词汇,涵盖了多种语境和语义领域。
通过利用BNC语料库中的丰富资源,我们可以更加准确地分析和比较近义词的用法和含义。
1. 研究背景与意义随着自然语言处理技术的不断发展,近义词辨析在文本挖掘、信息检索等领域具有重要的应用价值。
BNC语料库作为我国最大的英语语料库之一,包含了丰富的词汇和句法信息,为近义词辨析研究提供了宝贵的数据资源。
目前关于基于BNC语料库的近义词辨析的研究还相对较少,尚未形成系统的理论和方法体系。
基于语料库方法在同义词辨析上的应用
关键词 : 同义 词 , 辨析 , 语 料 库
一
、
引言
为原 型 ,其 同义 词 或 词 组 有 s i n c e , b y r e a s o n o f , i n t I l a t , o n a c . c o u n t o f , o w i n g t o , t } l a n k s t o 等 。再 根 据 中国 学 习 者 的 习惯 , 加 上f o r , d u e t o , b e c a u s e o f , a s a r e s u l t o f 等词 和 词 组 。 根 据用 法 , 可 初步将 其 分为两 大类 : 1 .后 接 从 句 。 如 b e c a u s e , s i n c e , i n t h a t , o f r 。2 . 后接名词 性短语 。如 b y r e a s o n o f , o n a c c o u n t o f ,
b e c a u s e 直 接 明确 , 带有 很 大 的偶 然 性 。
另 一 本权 威 语 法 参 考 书 《 英语 常见 问题 解 答 大 辞典 》 却 认
为[ 4 1 :
同义 词 辨 析 参 考 书 , 如《 韦 氏 同义词词 典 》 , 选 词上 存在 “ 错 位” : 即英 美 人 认 为 是 同义 需 要 区 别 的 词 , 中 国学 习者 不认 为
理难理解 , 且 辨 析 词组 合 不 能 满 足 学 习 者 的 需 要 。 而 英 文 版 的
如b e c a u s e直 接 , 该词所 引原因或解释相对独立 , 常放 在 主句
之后 。 s i n c e “ 既然 , 由于 ” , 不如 b e c a u s e正式 , 所 表示 原 因不 如
如何借助语料库来辨析同义词
种 新 的研 究 方 法 , 辟 了 一 个 新 的研 究 领 域 。 开
行 比较 研 究 及 综 合 分 析 。
( ) 较 研 究 “ o e 和 “ s” 为 及 物 动 词 时 二 比 h p” wi 作 h 的 异 同
英 语 词 汇 根 据 来 源 可 分 为 两 大 类 : 族 词 语 和 本 外 来 词 。 英 语 中 存 在 着 大 量 的 同 义 词 , 英 语 中 我 在
用 法
当前 。 言 学 研 究 中 存 在 很 多 关 于 这 两 个 词 的 语
t e s e i ls m m i ha g n o m 一 h p c a wi ng c n i g r o 一;n t t a n o he m i
c a g n o m . h n igro
计算 机 语 料库 最 早 出现 于 2 0世 纪 6 0年 代 初 .
( ) 料 库 的 索取 及 分 析 方 法 一 语
由 纳 尔 逊 ( . l n 和 库 切 拉 ( K cr) 立 的 F Ne o ) s H. u ea 建
B ROW N美 国英 语 语 料 库 。 语 料 库 语 言 学 是 基 于 语 言 学 、 算 机 科 学 、 知 语 言 学 和应 用 语 言 学 边缘 计 认
基于COCA语料库英语同义词辨析——以Compulsory和Mandatory为例
- 217 -校园英语 / 语言文化研究基于COCA语料库英语同义词辨析——以Compulsory和Mandatory为例成都理工大学外国语学院/郭齐园 金铠【摘要】本文基于语料库的研究方法,以compulsory和mandatory为例,利用美国当代英语语料库COCA从不同语域的词频分布、搭配特征、句法结构等方面,结合定性和定量的方法,辨析英语同义词。
本研究对英语教学和实践提供了一种有效的手段和视角,以语料库为基础的英语同义词教学有一定的借鉴意义。
【关键词】COCA语料库 同义词 搭配特征 类连接统计数据表明,同义词占到所有英语单词的60%以上。
传统方法是词典学习,老师自身经验,学生内化。
此类学习方法宏观,不具体。
而COCA 语料库在辨析同义词,微观,具体。
一、语料库语言学背景20世纪中后期,语料库语言学对于辨析同义词的研究成为一种新的方法,具有语言真实,数据量大,检索快速。
在语言学中,语料库即大量文本的集合,库中的文本(称为语 料),通常经过整理,具有既定的格式与标记,特指计算机存储的数字化语料库。
语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。
应用于词典编纂、语言教学、传统语言研究、自然语言处理中基于统计或实例的研究等方面。
语料库可分成四种类型:(1)异质的:没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的:只收集同一类内容的语料;(3)系统的:根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的:只收集用于某一特定用途的语料。
COCA 是当前重要的语料库工具之一,全称为美国当代英语语料库,可免费在线使用且分布均匀,其涵盖SPOK ,FIC ,MAG ,NEWS ,ACAD 五个部分。
二、研究对象及工具1. compulsory 和mandatory 在字典中的定义。
《牛津高阶英汉双解词典,(7th Edition)》中,compulsory 解释为:that must be done because of a law or a rule (因法律或规则 而)必须做的,强制的,强迫的;短语和例句有:Compulsory education / schooling 义务教育、Compulsory redundancies 强制裁员等。
基于 COCA、 BNC 和 CLEC 语料库辨析同义词--以learn与study为例
基于 COCA、 BNC 和 CLEC 语料库辨析同义词--以learn与study为例杨惠丽【摘要】正确运用英语词汇,尤其是同义词是学生英语学习的一个难点,而基于语料库进行教学方法的研究是语言教学的一个新趋势。
基于美国当代英语语料库( COCA)、英国国家语料库( BNC)、中国英语学习者语料库( CLEC)三个语料库从语域、类连接和搭配三个方面对动词同义词learn和study进行辨析,可以发现这learn与study在类连接、搭配方面存在明显差异,而在语域的运用方面差别不明显。
learn与study在不同语料库中存在语域方面的差异,而在类连接与动词搭配方面无显著性差异。
%The correct use of English vocabulary , especially a synonym is one of the students'difficulties in English learning , while the teaching methods research based on corpus is a new trend of language teaching .This paper, based on the Contemporary English Corpus (COCA), the British National Corpus (BNC), and Chinese Learners of English Corpus (CLEC), aims to analyze verb synonyms “learn” and“study” from registers, colliga-tion structures and collocation features , and finds that the two words have obvious differences in colligation struc-tures and collocation features , while little difference in registers .However , the usages of these two words in regis-ters have differences among these three corpora , while no significant differences in colligation structures and verb collocation.【期刊名称】《洛阳师范学院学报》【年(卷),期】2015(000)007【总页数】5页(P112-116)【关键词】语料库;同义词;learn;study;辨析【作者】杨惠丽【作者单位】郑州大学外语学院,河南郑州450001【正文语种】中文【中图分类】H313.2英语学习过程中,词汇知识在听、说、读写中都起着很关键的作用。
基于iWeb语料库的英语同义词辨析研究——以shape和form为例
收稿日期:2021-3-9基于iWeb语料库的英语同义词辨析研究——以shape 和form 为例□ 李恩耀广州中医药大学外国语学院[摘 要] 同义词作为英语词汇的重要组成部分,一直是英语教学的重点和难点。
在传统的词汇教学中,教师主要通过词典中的中英文释义或举例来区分同义词,难以全面解释其不同用法。
近年来,随着计算机网络技术的飞速发展,语料库在英语教学尤其是词汇教学中发挥着日益重要的作用。
本文基于iWeb 在线语料库,以同义词shape 和form 为例,从词典释义、话题、搭配、词簇、语境共现等方面对英语同义词进行辨析研究,以期对英语词汇教学与研究提供一定的启示。
[关键词] iWeb ;语料库;同义词;英语教学[中图分类号] H0-0 [文献标识码] A [文章编号] 1009-6167(2021)11-0057-05作者简介:李恩耀,博士在读,讲师。
研究方向:功能语言学、应用语言学。
基金项目:广州中医药大学2020年高等教育教学改革项目“基于语料库的中医药院校英语专业词汇教学模式研究”。
词汇学习是提高英语听、说、读、写等技能的前提,而同义词作为英语词汇的重要组成部分,一直是英语教学的重点和难点。
在传统的词汇教学中,教师主要通过词典中的中英文释义或举例来区分同义词,难以全面解释其不同用法。
近年来,随着计算机技术的发展,语料库在语言学研究和语言教学中发挥着越来越重要的作用。
语料库具有容量大、速度快、效率高的特点,能够提供丰富、真实的口语或书面语语料,并为英语同义词辨析提供全新的研究视角。
鉴于此,本文借助iWeb 语料库,以同义词shape 和form 为例,从词典释义、话题、搭配、词簇、语境共现等方面对英语同义词进行辨析研究,以期为英语词汇教学与研究提供一定的启示。
1 研究设计本研究选取的一对动词同义词shape 和form 来自新世纪高等院校英语专业本科生系列教材《综合教程(修订版)》第一册第八单元Text A 的课后练习,也是实际教学中的重难点。
基于语料库的近义词辨析
基于语料库的近义词辨析作者:卢相如来源:《北方文学》2017年第30期摘要:英语近义词辨析一直是英语学习的重难点。
文章以近义词 clever,brilliant,intelligent,smart,bright为例,通过检索它们在语料库 COCA 中的使用情况,分析词义、搭配、语义韵、语域来说明语料库检索工具对于近义词辨析具有重要的辅助作用,同时对于英语教学和英语学习者也具有重要的意义。
关键词:英语近义词;搭配;语义韵;语域语料库在语言研究和教学领域都有广泛的应用并且广受关注。
语料库提供大量真实语料,对词义、句意、语篇意义的研究大有帮助。
近义词在英语中占有很大比例,它们通过词义、用法等方面的相同或相近构成了复杂的英语词汇体系(张继东,2005)。
教师在传统的英语教学中总是先对比这些近义词对应的汉语语义层面上的差异,然后给出各个词相应的例句。
这样的英语语言输入脱离了真实的语境,使得学生容易混淆近义词的用法。
随着语料库语言学的兴起,利用语料库的真实数据和语料库工具来辨析近义词的成为了一种有效的方法。
本文将探讨基于语料库区分近义词的方法,以在字面上都表示“聪明的”的clever,brilliant,intelligent,smart,bright为例来说明如何运用语料库工具来辨析近义词。
一、近义词很多词典把近义词(synonym)定义为:在同一种语言里有共同或相近意思的词或词组。
J.Lyons(1981)认为近义词是意义上相近但不相同的词。
本文把 synonym称为“近义词”,也就是 J.Lyons(1981)所定义的近义词的概念,但用法存在区别的词或词组[1]。
学习者在学习近义词时往往没有全面了解近义词的区别,因此在写作和讲话时常出现错误。
用语料库的方法可以有效地区分近义词,学习者可以利用大量真实的语料对近义词的用法进行分析和判断。
Biber(2000)用语料库的方法研究了近义词的用法、近义词使用的语境和语域的不同。
基于语料库的近义词辨析
摘要:在汉语作为第二语言教学当中,近义词的辨析成为语言学习的一大难点。
基于ccl 语料库,针对近义词“永远”、“永远”,本文从近义词分布的语域,节点词的高频搭配词,通过观察检索行中所呈现的近义词搭配特征,揭示出它们的搭配关系,对传统的词汇辨析起到行之有效的补充作用。
关键词:近义词;语域;搭配;语义偏好;搭配结构作者简介:刘欣(1990-),女,汉族,湖北黄冈人,硕士,研究方向为语言学及应用语言学。
[中图分类号]:h195 [文献标识码]:a[文章编号]:1002-2139(2016)-20--01在汉语作为第二语言教学当中,近义词的辨析是语言学习的一大难点。
下面以“永远”和“永远”为例,先介绍传统的教学当中现状和问题,再基于ccl语料库,通过大规模、真实的语料,从定量和定性两个层面,来归纳近义词的异同点,作为辅助手段来促进汉语近义词的教和学。
一、近义词“永远”、“永久”的问题探究“永远”和“永久”是该教材第十课练习第三题中出现过的一对近义词。
在练习过程中,学生试图按照“永远”、“永久”的词性、句法功能和语义的角度来解题,但容易得到错误的答案,而感情色彩这一区别特征又不够明确。
可见,仅仅依靠词典和教材是不够的,由于习得者受到接受程度和理解能力的限制,必须将词汇的字典释义转化成具有应用可能的辨析规则。
二、基于语料库的“永久”和“永远”辨析(一)“永远”和“永久”在不同语域中的词频(1)统计近义词在不同语域的分布差异语域是人们在实际的语言活动中出于交际的需要而产生言语变体。
近义词在不同的语域中会呈现出不同的分布特征,统计“永远”、“永久”在不同的语域中的出现频次,所占比例及其差异,有助于将两者区分开来。
(2)针对近义词不同语域的分布差异来观察和分析观察语料可得:①从总频次来看,“永远”比“永久”更常用。
②在不同的语域中,“永远”倾向于当代文学;“永久”则是应用文。
③差异最为显著的是在报刊这一语域,说明“永久”比“永远”更多地用于报刊。
基于语料库的名词类同义词研究
基于语料库的名词类同义词研究随着互联网技术的不断发展,海量的语料库数据已经成为各种自然语言处理技术的重要支撑。
其中,基于语料库的名词类同义词研究也备受关注。
本文将对基于语料库的名词类同义词研究进行探讨,并分析其存在的一些问题和未来的发展方向。
一、基于语料库的名词类同义词研究的意义名词是语言中最重要、最基本的词类之一,也是人类表达概念和思想的重要工具。
名词类同义词研究是语言学、计算机科学、人工智能等学科的重要研究方向。
基于语料库的名词类同义词研究,可以实现以下目标:1、加深名词的理解和运用语言是为了交流而存在的,而交流的基础是理解。
对于同义词的理解和运用,可让人们更准确、更深入地交流。
基于语料库的名词类同义词研究能够帮助人们理解名词的用法和含义,丰富心智词汇库。
2、提升搜索与推荐的效果在搜索引擎和推荐系统中,同义词往往被认为是不同查询之间的桥梁。
基于语料库的名词类同义词研究可以让搜索引擎更加智能,能够将用户搜索的同义词、相关词汇等自动匹配到相关的信息中去;也能使得推荐系统推荐更加准确。
二、基于语料库的名词类同义词研究的方法基于语料库的名词类同义词研究主要有以下方法:1、基于共现分析的方法同义词往往会在语料库中出现在比较相似的上下文中。
基于共现的方法能够挖掘同义词之间的相似性,从而得到一组同义词集合。
2、基于词向量的方法词向量表示法是近年来比较流行的一种方法,其使用的算法包括word2vec,GloVe等。
这些算法可以让词向量之间进行相似度计算,并将相似度高的词划分到一组中。
3、基于分类器的方法分类器可以通过学习大量的语料库数据,自动识别同义词,准确识别同义类别。
三、存在的问题及未来发展方向基于语料库的名词类同义词研究面临着以下问题:1、语言变化的影响语言是一个不断变化的体系,词汇的变化是常见的现象。
因此,语料库研究应该考虑到语言的变化所带来的影响。
2、同义词的多义性同义词往往具有多个意思,如何对词汇的不同意思进行分类,也是一个需要解决的问题。
基于语料库同义词辨析的一般方法_张继东
需要, 如 Great B ritain、 g reat grandfather 等。
第 6期
张继东 , 刘
萍
基于语料库同义词辨析的一般方法
51
表 4. GREAT 在 FLOB 语料库与其搭配词的相 互信息值
搭配词 GREAT DEAL BR I TA I N HA LL M ANY CARE W AR GRAN DFATHER LENGTH PART PLEA SURE 总计 546 34 16 8 5 4 4 3 3 3 3 M I值 * 9 05 6 87 7 18 3 61 5 18 4 39 7 64 6 01 3 61 6 60
收稿日期 : 作者简介 : 2005- 3- 28
1 . 基于英语语料库的同义词辨析 1 1 同义词在不同语域中词频分布差异 语域是人们在实际的语言活动中 , 出于交际的 需要, 或因其所从事的职业和兴趣相异 , 亦或因其 话语发生的情景、说话的对象、地点和话题的不同 而产生的一种言语变体, 体现为语言中的不同语体 风格、用语格 调等。同义词 由于其 内在 意义的 差 异 , 在不同 的语域 中往往 会呈现 出不同 的分 布特 征 , 所以统计它们不同语域中的频率差异 , 有助于 将它们区分开来。 为了说明同义词在不同语域中的分布频率对同 义词的辨析具有宏观指导作用 , 本文选取了一组同 义形容词 : big 、 great 、 large, 对 朗文英语口语和 书面语语料库 ( 简称 LGS WE ) 所提供的数据进行 搜集, 按会话、小说、新闻、学术文章四个语域进 行分类。 b ig、 great 、 la rge 之间的词义差异, 学习者似乎 能够直接从词典类工具书中就可以查询出来, 但是
基于语料库的英语同义词辨析的认知分析
基于语料库的英语同义词辨析的认知分析作者:梅晴来源:《黑龙江教育学院学报》2018年第10期摘要:在梳理国内外研究现状的基础上,基于语料库的真实语料,从概念范畴化和识解理论出发提出英语同义词辨析的认知视角。
通过对美国当代英语语料库COCA提供的一组名词同义词(Authority/power/right)的搭配特征检索,探索语言现象的理据性,并进行了认知分析。
基于语料库的英语同义词辨析的认知分析揭示了语言使用的规律,对今后的词汇教学具有一定的启示作用和指导意义。
关键词:COCA语料库;英语同义词;概念范畴;识解;认知分析中图分类号:H313.2文献标志码:A文章编号:1001-7836(2018)10-0116-03同义词(Synonymy or near-synonymy)是英语词汇学习中一种普遍而有趣的语言现象。
据统计,英语语言中同、近义词的数量约占总词汇量的60%以上[1]。
“Synonym”(同义词)一词来源于希腊单词“Synonymon”,意为“意思基本相似名字相似”。
英语中真正意义、用法完全相同的同义词很少。
绝大多数同义词尽管基本意义相同,但在某些方面,如方言地域、文体风格、用法搭配和语义韵等方面存在差别[2]。
英语同义词的辨析一直是英语词汇教学的重难点之一。
传统的同义词辨析教学方法,多依靠查字典或教师讲解。
但字典的解释和教师的讲解多凭借直接经验,由于脱离上下文和真实语境,学生在实际使用中很难准确把握和区分它们的细微区别,滥用、误用同义词的现象很常见。
近年来,语料库语言学和认知语言学的兴起和发展,为英语同义词辨析提供了新的研究途径和视角。
基于语料库获得的大量真实的语言材料,英语学习者们可以自己比较、归纳和总结同义词的差异,如分析它们的词频分布、观察其搭配等,在很大程度上弥补了过去词语辨析因语言材料不够充分而多依赖主观自省的不足。
目前,国内外基于语料库研究英语同义词辨析的成果很多,但少有研究涉及同义词搭配的认知机制和规律。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
收稿日期:2005-3-28作者简介:1.张继东(1965-),男,安徽安庆人,东华大学外语学院讲师,研究方向为语料库语言学;2.刘 萍(1965-),女,安徽芜湖人,上海交通大学技术学院副教授,研究方向为语料库语言学与英语教学法。
基于语料库同义词辨析的一般方法张继东1,刘 萍2(1.东华大学外语学院,上海200051;2.上海交通大学技术学院,上海200231)摘 要:基于语料库的同义词辨析方法包括:(1)统计出同义词在语料库的不同语域中的词频分布差异;(2)以节点词的跨距为参照,统计同义词的显著搭配词,并计算同义词与其搭配词相互信息值(M I 值)以及Z 值;(3)通过观察检索行中所呈现的同义词搭配特征,揭示出它们的类联结、搭配关系和语义韵等语言特征。
关键词:同义词;语料库;语域;搭配;语义韵中图分类号:H31312 文献标识码:A 文章编号:10022722X (2005)0620049204Corpus 2ba sed Approaches to the D i fferen ti a ti on of English Synony m sZ HANG J i 2dong 1,L I U Ping2(1.College of Foreign Languages,Donghua University,Shanghai,200051,China;2.Technical School,Shanghai J iao Tong University,Shanghai,200231,China )Abstract:W ithin cor pus 2based app r oaches,synony m s can be differentiated with reference t o:1)their distributi ons a mong different registers;2)their significant coll ocates,and the M I value and Z score bet w een synony m s and their coll ocates;3)their coll ocati onal behavi ors and se mantic p r os odies with regard t o certain colligati onal fra me works .Synony m s thus differentiated will have significant pedagogical i m p licati ons .Key W ords:synony m;cor pora;register;coll ocati on;semantic p r os ody 0.引言英语是世界上使用最广泛的语言之一,其词汇量极其庞大,其中同义词占有很大比例,是语言学习的难点。
据统计,英语语言中同义词、近义词的数量约占总词汇量的60%以上(贺晓东,2003),它们通过词形、词义、结构或用法等方方面面的相同或相近构成了庞大的英语词汇体系,切实学懂、用熟同义词是突破英语词汇的重要环节,更是提高英语写作、阅读、会话等技能的关键。
传统的同义词辨析方法,多依赖于直觉经验,采用内省的定性方法,对同义词的词目意义条分缕析,然而,一般的语言学习者在实际的运用中似乎仍然难得要领。
本文拟从语料库语言学的角度,通过对相关的语料库进行检索统计,发现同义词在不同语域中的词频分布差异,计算出词语搭配的不同相互信息值,通过观察检索行中所呈现的同义词搭配特征,揭示出它们不同的类联结、搭配关系和语义韵等语言特征。
1.基于英语语料库的同义词辨析111同义词在不同语域中词频分布差异语域是人们在实际的语言活动中,出于交际的需要,或因其所从事的职业和兴趣相异,亦或因其话语发生的情景、说话的对象、地点和话题的不同而产生的一种言语变体,体现为语言中的不同语体风格、用语格调等。
同义词由于其内在意义的差异,在不同的语域中往往会呈现出不同的分布特征,所以统计它们不同语域中的频率差异,有助于将它们区分开来。
为了说明同义词在不同语域中的分布频率对同义词的辨析具有宏观指导作用,本文选取了一组同义形容词:big 、great 、large,对《朗文英语口语和书面语语料库》(简称LGS W E )所提供的数据进行搜集,按会话、小说、新闻、学术文章四个语域进行分类。
big 、great 、large 之间的词义差异,学习者似乎能够直接从词典类工具书中就可以查询出来,但是第28卷 第6期2005年11月解放军外国语学院学报Journal of P LA University of Foreign Languages Vol .28 No .6Nov 12005一般的工具书对于词汇附加信息的语域分布信息却没有涉及。
从LGS W E每百万词中的显示频率来看,我们发现big、great、large三词在以上四个语域中的分布情况也有相当的差异。
以每百万词计为统计单位,B ig在前三个语域中的分布频率分别超过200词次,而在学术文章中则为0次;great在小说、新闻和学术文章中分布频率分别超过200词次,而在会话语域则为0次;large在会话中为0次,在小说、新闻语域分别为80多词次,在学术文章中超过200词次。
见下表1。
表1.B I G、GRE AT和LARGE在LGS W E中每百万词中分布频率会话小说新闻学术文章B I G******GRE AT******LARGE**** **表示大于200次;*表示大于80次以上的频率分布调查表明,对于同义词的辨析如果我们仅仅从概念意义或句法功能入手,是很难辨析出同义词之间的细微差异的,但是,如果我们以语域的频率分布情况为着眼点,我们就容易发现同义词在不同的语域中的概率,从而领会不同语域中的用词优先原则,这种方法对同义词的取舍能够起到一定的宏观指导作用,使学习者能够实现对同义词的辨析由感性认识向理性认识方向的发展。
112搭配词的计算与同义词的辨析搭配是词汇研究的重点,通过研究搭配词来区分同义词也是一种行之有效的研究方法。
具体来讲就是从语料库中将关键词的所有搭配词提取出来,采用统计手段来测量各搭配词与关键词共现的显著程度,以确定各词项之间在多大程度上相互吸引,进而概括出词项的典型搭配程度。
这种方法不考虑词项所处的句法结构,计算的方式参照了Krishna murthy(1987:70)对搭配的理解,即“有意义的搭配词是指在被研究词的两侧5个词的范围内出现频数比按均匀分布所期望出现的频数高得多的词”。
常规的统计测量手段有两种:Z值(或T值)测量和M I值测量。
(参阅桂诗春、杨惠中,2002)除big、great、large这组同义形容词外,我们还另选取cause、lead t o一组同义动词,并对它们在LOB和F LOB语料库分别进行检索,统计出两组同义词各自搭配词的相关Z值和M I值。
通常一个搭配要在0101水平上有显著意义,Z值必须等于或超过21576,搭配值越大,则搭配越密切;如果M I值在0附近,则表示搭配词之间没有什么联系,正值表示有搭配联系,值越大,关系越密切。
首先,我们对large的搭配词计算M I值(见表2),发现其右侧“频繁出现”的搭配词按M I值的大小排列,分别为表示数量的quantities、a mounts、nu mbers、number、a mount;表示范围的scale、part;表示面积的cities、fa m ily、gr oup、house;表示程度的defor mati ons、discrepancies、extent;后置程度副词多为enough。
表RGE在F LOB语料库中与其搭配词的相互信息值搭配词总计M I值LARGE395NUMBER166176SCALE128146NUMBERS87184P ART85149EXTE NT77161QUANTI TI ES79181AMOUNTS59138DEF OR MATI O NS411165D I SCREP ANC I ES49174F AM I L Y45113AMOUNT36156C I TI ES37195E NOUGH34168GROUP34166HOUSE34127 B ig搭配词的M I值(见表3)表示其显著搭配词分别为表示形体、面积的man、part、house;后置程度副词多为enough。
另外,当big与man、business、day搭配时,big的含义会演变为口语表达中的i m portant、great之义。
表3.B I G在F LOB语料库中与其搭配词的相互信息值搭配词总计M I值B I G263MAN85172BUSI N ESS66158E NOUGH66128P ART45109DAY34157HOUSE34187 从great搭配词来看(见表4),great与deal、many、care、length、p leasure等词汇形成常用搭配,表示“强度加大”的意思;great的其他含义多表示“伟大、重要”之义或是出于固定名词称谓表达的需要,如Great B ritain、great grandfather等。
・5・解放军外国语学院学报2005年 表4.GRE AT在F LOB语料库与其搭配词的相互信息值搭配词总计M I值GRE AT5463DE AL349105BR I T A I N166187HALL87118MANY53161CARE45118WAR44139GRANDF AT HER37164LE NGTH36101P ART33161P LE AS URE36160 对以上三个同义词的搭配词M I值的计算却具有重要的词汇搭配信息价值,它能够让学习者较为直观地了解到英语母语者在实际的语言交际中提取显著搭配词的特征,从一个侧面说明了母语者心理词汇的提取方式:词汇的通达不完全是按照概念范畴来进行的,而可能是按照词的搭配频率状况进行提取的,即高频搭配词汇的检索优先于低频搭配词的检索。
这与传统的同义词差异的解释不尽相同。
以下我们再对同义使役动词cause和lead t o进行比较。
通过T ACT软件计算它们在LOB语料库中的Z值,结果显示出它们的显著搭配词亦有很大的差异(见表5、表6)。
Cause的右侧搭配词多为suffering、alar m、har m、clash、strike等“问题类”名词;而lead t o的右侧搭配词既有表达消极意义的,如anarchy、intercep ti on、fears、reducti on等,也有表达积极意义的,如appease ment、ceasefire、p r ogress等。