浅析中文信息处理中的歧义问题

合集下载

浅谈现代汉语的歧义现象

浅谈现代汉语的歧义现象

浅谈现代汉语的歧义现象绪论歧义现象是现代汉语中存在的重要语言现象。

所谓歧义,就是指一个语言片段可以作两种或两种以上的语义理解。

众多前辈在有关现代汉语歧义现象的论著中,已经从宏观上全面的阐述了现代汉语中歧义的类型、歧义产生的原因以及消除歧义的方法。

根据语言的四要素,现代汉语的歧义现象可分为语音歧义、词汇歧义、语法歧义和语义歧义。

语音歧义是由语音原因引起的,汉语的一个音节可以对应多个不同的音素,语音歧义由此产生,如“产品全bù(不/部)合格。

”、“岸边停着一艘yóu chu án(游船/油船/邮船)。

”,这类情况一般见于口语,一旦进入书面语,歧义自行消失。

词汇歧义主要由词语的多义造成,如“我去上课”,可以理解为“我去讲课”,也可以理解为“我去听课”,这种歧义现象可以利用具体语境来分化。

语法歧义在歧义现象中时最复杂的,造成语法歧义的原因有以下几种:结构关系不同,结构层次不同,结构层次和结构关系都不同,词类不同,词与短语同形。

语义歧义主要是语义关系不同、语义指向不同而引起。

对于语法歧义和语义歧义,我们可利用层次分析、变换分析、语义特征分析和语义指向分析等方法来加以分化。

语言中要表达的意义是无限的,而表达意义的句法格式又是有限的。

要用有限的格式来表达无穷的意义,就致使同一句法格式可以表示多种意义,从而使语言中存在着大量的歧义句法格式。

在一些研究歧义格式的文献中,研究的最为深入的歧义格式有“名词(处所)+动词+着+名词语”、“在+Np+V+N”、“N1+的+N2”、“V+N1+的+N2”、“动词(及物)+的+是+名词语”等。

本文在前人详细论述的基础上,选取本人在学习过程中遇到的几种典型歧义结构,举例分析其分化方法,并最终得出产生此类歧义句式的原因。

一、“名词(表处所)+动词+着+名词语”格式先来举两个例子:a.戏台上摆着鲜花。

b.戏台上演着京戏。

这两个句子格式相同,都属于“名词(处所)+动词+着+名词语”句式。

AI自然语言处理 中文NLP的难点与解决方案

AI自然语言处理 中文NLP的难点与解决方案

AI自然语言处理中文NLP的难点与解决方案自然语言处理(Natural Language Processing,简称NLP)是人工智能领域的一个重要分支,它致力于让计算机能够理解、处理和生成人类语言。

然而,中文NLP相比于英文NLP存在一些独特的挑战和难点。

本文将探讨中文NLP的难点,并提出一些解决方案。

一、分词问题中文是一种以字为基本单位的语言,相比于英文以单词为基本单位的语言,中文的分词问题更加复杂。

中文语言中没有明确的单词边界,单个汉字的意义与它组成的词语有着密切的关联。

因此,准确地切分中文句子成为有意义的词语是一个非常关键的任务。

为了解决这一问题,研究者们提出了很多不同的方法。

其中最常用的方法是基于统计模型和规则的分词方法。

统计模型方法使用大量的词库和语料库进行学习和统计,通过概率模型来识别句子中可能的词语切分点。

规则方法根据语言学规则和规则库进行分词,但这种方法需要大量人工参与和维护。

二、语义理解问题语义理解是指将自然语言转换为计算机可以理解的形式。

对于中文NLP而言,由于中文的语法结构比较灵活,含义的表达方式多样,语义理解变得更加困难。

同样的意思可以有多种不同但等效的表达方式,这给中文NLP的语义理解带来了很大的挑战。

为了解决这一问题,研究者们提出了深度学习方法。

深度学习方法基于神经网络,通过构建深层的神经网络模型,对文本进行特征学习和表示,以实现更准确的语义理解。

此外,还有一些方法采用语义角色标注和实体识别等技术来辅助语义理解。

三、情感分析问题情感分析是指对文本中的情感倾向进行判断和分析。

中文表达情感的方式多样,且含有很多独特的表达方式,因此情感分析在中文NLP 中是一个具有挑战性的任务。

同时,中文的语法和结构也使得情感分析更加复杂。

为了解决这一问题,一种常用的方法是基于情感词典和机器学习的方法,通过构建情感词典和训练情感分析模型来判断文本中的情感倾向。

另外,一些研究者还提出了基于深度学习的方法,通过构建深层神经网络模型来提取文本中的情感特征。

汉语产生歧义原因及消除歧义方法

汉语产生歧义原因及消除歧义方法

汉语产生歧义的原因和消除歧义的方法2008—06—24 11:56一、产生歧义的原因1.组合层次不同造成歧义。

如:①“我们三个人一组",可理解为“我们/三个人一组”或“我们三个人/一组”。

②“这份报告,我写不好”,可理解为“这份报告,我/写不好(能力有限)”,也可理解为“这份报告,我写/不好(可能由于身份等因素)”.2。

结构关系不同造成歧义。

如:①“进口彩电”,可理解为动宾关系,也可理解为偏正关系.②“学生家长",可理解为并列关系,也可理解为偏正关系。

3.语义不明确造成歧义。

如:①“开刀的是她父亲”,可理解为她父亲是开刀的外科医生,也可理解为他父亲有病,医生给他做了手术.②“妇女理发店”,可能是由妇女开办的理发店,也可能是以妇女为服务对象的理发店。

③“诗人的风度",所说的可能是诗人,也可能不是诗人。

4.词类不同造成歧义.如:①“我要炒肉丝”,“炒"可理解为动词或形容词。

②“饭不热了”,“热”是动词,意即不用热饭了,凉的也可以吃;“热"是形容词,意即饭凉了。

③“他原来住在这里”,“原来”做名词,意即他以前曾住在这里;“原来”做副词,意即没想到他就住在这个地方。

④“县里通知说,让赵乡长本月15日前去汇报”,“前”做形容词,表以前之意,时间范围大;“前"做动词,表往前走之意,则只能在15日这一天去县里。

5.词语含义多解造成歧义.如:①“躺在床上没多久,他想起来了",可理解为他想起了什么事,也可理解为他要起床。

②“请吃菜”,“菜"既可指蔬菜,也可泛指菜肴。

③“贸易部已向华北东北调拨物资”,“向”可理解为“从”,也可理解为“给”,表意大不相同.6.句子成分残缺造成歧义.如:①大家对护林员揭发林业局带头偷运木料的问题,普遍感到非常气愤。

因为在“揭发”后随意省去一个“的”字,使文意中心可以前移,造成歧义。

既可理解为大家对林业局带头偷运木料一事气愤;也可理解为对护林员揭发这个问题的行为气愤。

汉字的多义性与歧义性解决方法

汉字的多义性与歧义性解决方法

汉字的多义性与歧义性解决方法汉字作为一种古老而丰富的文字系统,具有丰富的意义和多义性。

然而,这种多义性和歧义性也给人们的交流和理解带来了一定的困扰。

在这篇文章中,我们将探讨汉字的多义性和歧义性,并提出一些解决方法。

首先,我们来谈谈汉字的多义性。

汉字的多义性是指一个字可以有多个不同的意思。

这种多义性源于汉字的形状和发展历程。

在汉字的发展过程中,许多字形经历了演变和变形,导致了字形的相似性和相近性。

由于字形的相似性,某些字在写法上很难区分,从而产生了多义性。

例如,“打”字可以表示“敲击”、“击败”、“拍摄”等不同的意思。

然而,汉字的多义性也给人们的交流带来了一定的困扰。

在日常生活中,我们常常会遇到理解上的误解和歧义。

有时候,我们在阅读一篇文章或者听取他人的陈述时,由于对某个字的多义性理解不同,可能会导致对整个句子或者段落的理解出现偏差。

这种歧义性的存在给交流带来了一定的困扰。

那么,如何解决汉字的多义性和歧义性呢?一种解决方法是通过上下文来理解字的含义。

在阅读或者听取他人陈述时,我们可以通过上下文来推断字的具体含义。

上下文提供了丰富的信息,帮助我们更准确地理解字的意思。

例如,在一句话中,如果我们知道前面提到了“打篮球”,那么“打”字的意思很可能是“运动”的含义,而不是其他的意思。

另一种解决方法是通过增加语境的信息来减少歧义性。

在写作或者口语表达中,我们可以通过增加更多的细节和修饰词来减少字的歧义性。

这样做可以让读者或者听众更好地理解我们的意思。

例如,在描述一个人物时,我们可以使用具体的形容词来表达他的特征,从而减少对字义的误解。

此外,我们还可以通过使用同音字或者近义词来避免歧义。

汉字中存在许多同音字和近义词,通过选择合适的字词,我们可以更准确地表达自己的意思。

例如,当我们在描述一个人的性格时,可以使用“坚强”来代替“强硬”,以避免产生不必要的歧义。

最后,我们还可以通过提高汉字的认知能力来解决多义性和歧义性。

浅谈现代汉语中的歧义问题

浅谈现代汉语中的歧义问题

浅谈现代汉语中的歧义问题浅谈现代汉语中的歧义问题歧义是自然语言中普遍存在的现象,歧义现象的研究对探讨语言形式和内容的关系,揭示语法规律是很有意义的,“一种语言语法系统里的错综复杂和精细微妙之处往往在歧义现象里得到反映。

现代汉语的歧义研究作为歧义研究的一个组成部分,是随着现代意义上的中国语言学的产生而产生的,并且因为歧义本身纠集着太多语言学中的璞玉浑金,集中体现了语言形式和意义之间的矛盾,所以现代汉语的歧义研究一直是汉语语言学研究中一个非常引人关注的问题。

因此,分析歧义现象会给我们许多有益的启示,使我们对于语法现象的观察和分析更深入。

”一、歧义的意义与成因。

歧义是指同一语言形式包含两种或多种不同意义的现象。

歧义又叫同形,一个着眼于内容,一个着眼于形式,是一个问题的两个方面。

歧义必须以同形作为前提,不同形就无所谓歧义。

语符系统的有限性给歧义的存在创造了必要的条件。

语言以有限的符号结合生成无限个言语形成。

语义内容和形式之间没有必然的联系。

不同的语言形式可以表达相同的意思,同一语言形式也可以表达不同的意思。

关于歧义的成因大致可以归纳为以下几个方面:1.由同音词或同音词语造成的歧义。

2.由同形多义词或同形短语造成的歧义。

3.结构关系不同。

4.结构层次不同。

5.语义关系不同。

6.语义指向不同。

7.施受关系不同。

8.词语辖域不同。

9.词语范围所指不同。

10.词的次范畴小类的语义特征不同。

11.蕴含不同。

12.预设不同。

13.隐含共联项。

歧义的产生从根本上说,它是由客观世界的无限复杂性同语言表达手段的有限性之间的矛盾造成的。

二、歧义的类型。

歧义的类型研究。

关于歧义的类型是歧义问题中研究得最早、最多的方面。

石安石《说歧义》从不同的角度来分类: 从语体的角度可以分为书面语的歧义和口语的歧义; 从歧义产生的语言系统内部根源的角度, 歧义又可以为词汇歧义和组合歧义。

吴英才、李裕德合著的《现代汉语的歧义》则把歧义分为: 词引起的歧义, 简单词组的歧义, 复杂词组的歧义, 句子的歧义, 修辞性歧义, 标点符号的歧义。

汉语自动分词中的歧义问题

汉语自动分词中的歧义问题

汉语自动分词中的歧义问题侯敏孙建军引言随着中文信息处理研究的不断深入,出现了多种多样的自动分词方法。

评定一种切分方法或一个分词系统的标准不外两条:一是速度,二是精度,而第二条尤为重要。

要想提高切分精度,除了要建立一部(或几部)较完备的词典外,更重要的就是如何处理好切分中的歧义问题。

我们的分词系统只是汉英机器翻译系统中的一个子系统,分词系统和翻译系统共用一部多功能汉英电子词典,分词和查词典同步完成。

我们分词的目的是为了进行下一步的翻译,不像有些为了统计词频而做的分词系统那样,要严格划清词与非词的界限。

我们分词采用的是正向直接匹配法,即当正向扫描到某字符时,用词典中以该字符为首字的词条去匹配素材。

词典中只要求有相同字的词条要按先长后短的顺序排列。

如遇歧义切分问题,则利用词典中的语法语义信息及歧义处理规则予以解决。

歧义问题的分析和处理人们一般都把汉语自动分词中的歧义现象分为交集型、组合型两种。

但就我们的实践来看,就结构形式而言,统而分之,也至少可以分出交集型、组合型、混合型三种。

一、交集型交集型歧义字段是指分词中碰到的这样的现象:字段ABC中,AB∈W∧BC∈W(A、B、C各代表字串,它们多数情况下是一个字,也可以是两个或多个字;W是词的集合)。

其中B是交集字串,交集字串的个数称为“链长”。

如ABCD中,AB∈W∧BC∈W∧CD ∈W,其中B、C 都是交集字串,我们则说这个交集字段中交集字串的链长为2。

交集现象与歧义切分并不等同,交集字段不一定都会产生歧义切分或错分现象。

至于哪些交集字段字段会产生错分,这与你使用的切分方法有关,与你切分方法的扫描方向有关。

如交集字段“对半导体的(研究)”,如果正向扫描,则可能产生错分,分为“对半/导体”;逆向扫描,则不会分错,切分结果自然是“对/半导体”。

因为在我们的系统中分词用的是正向匹配的方法,所以像下面例(1)中这样的交集现象不会产生错分,就可以不去考虑了。

例(1)1. 实现在情报工作方面的自动化。

汉语中的歧义现象

汉语中的歧义现象

汉语中的歧义现象
汉语中歧义现象:
汉语歧义现象是在汉语(即汉语标准语)中表现出来的一种文字语言现象,即
相同的句子在不同的语境下表达的意思可能截然不同。

汉语歧义的形成,有一定的历史背景,可以说也是文化和历史熏陶的结果。

汉语中的歧义,使文本的表达立意遭到严重的错误解读。

因此,在日常应用中,要尽量避免出现歧义的现象,从而清晰明确地展示信息,准确地传达信息。

比如,在生活中,提出一个问题时,我们不能用歧义句,而应采取增补或改写将歧义句进行纠正。

另外,熟悉汉语历史和文化背景也有助于帮助我们判断谚语和比喻等词语表达
中所含歧义现象。

例如,在传统中国,结婚和死亡也是概念上的同义词,这种歧义正是反映了当时的文化和社会往事。

此外,还可以通过各种视角来深入地分析表达歧义的文本,比如社会语言学视角,以及比较语言学和语义学等学术视角。

这些都可以有助于更好地探究歧义的现象,并加以研究,以达到消解歧义的目的。

总结起来,汉语歧义现象在日常生活中影响着我们的表达方式,以保持文章清晰、文意明确,可以从历史文化和语言学视角研究、认识歧义现象,从而有效消解歧义,实现更加准确的交流。

中文分词中歧义字段处理的研究

中文分词中歧义字段处理的研究

• 54•歧义字段是中文分词中的难点,它往往会消弱分词的精准率和召回率。

而遗传算法是基于“优胜劣汰”的方式寻优的,用来处理歧义字段在中文分词系统正符合其思路。

实验结果得出,在分词中的召回率和综合率都高出传统的歧义消除方法。

中文分词指的是将一个中文串切分成一个个单独的词,而分词就是按照某种规则或方法重新组合成词的过程。

中文行文中没有固定的格式划分分界符,所以它不像西方文字那样可以通过空格来界定一个词或字符,这势必就给中文分词研究造成很大困难。

一般造成中文分词错分的主要因素有未登录词和歧义词,这也是研究中面临的难点和重点。

虽然歧义词在影响中文分词评测中所占的比重没有未登录词大,但它的影响作用也不能轻视,它也是影响分词精度的重要因素,研究歧义消除方法也是近年来在中文分词研究的热点之一。

1.中文分词中的歧义歧义是指在一个句子序列中存在2种或2种以上的切分结果,而这种切分结果有可能是正确的,也有可能是错误的,这完全取决于人们利用中文知识习惯或规则进行判断。

所以歧义就分为两类:真歧义和假歧义。

因为词的划分位置不是完全绝对的,通过歧义在文中的位置又可分为交叉歧义和多义歧义。

2.歧义字段产生的原因歧义字段一般由三种原因产生:(1)是由人类自然语言自身的二义性所带来的,如“大学生活”,可以切分为“大学/生活”,也可切分为“大学生/活”,这两种切分结果对于人类自然语言都是正确的,这就给字段带来了二义性。

这种歧义只有通过上下文分析才能判断哪种切分适合。

(2)是由机器运用某种规则或算法自动分词而产生的歧义字段,这些字段运用人类去判断是不会出现歧义的。

如“他不明白天为什么会变黑”,机器切分会切分为两种形式“他/不/明白/天/为什么/会/变/黑”或者“他/不/明/白天/为什么/会/变/黑”。

自然语言处理的话就知道第一种切分是正确的。

(3)是由词典大小规模而引起的切分歧义。

比如“球拍卖完了”可以切分为“球/拍卖/完了”和“球拍/卖/完了”,这两种切分结果都是正确的,这种切分的结果一般取决于词典中所收纳的词是“球”还是“球拍”,所以这种切分一般很难判断是那种切分是正确,这要看字段所处的上下文语境。

如何处理中文自然语言处理技术中的歧义问题

如何处理中文自然语言处理技术中的歧义问题

如何处理中文自然语言处理技术中的歧义问题处理中文自然语言处理技术中的歧义问题是一个关键的挑战。

中文是一种复杂的语言,具有大量的多义词和歧义表达。

在自然语言处理中,正确处理这些歧义问题对于确保语义准确性至关重要。

本文将探讨几种应对中文自然语言处理中常见歧义问题的方法和技术。

首先,上下文理解是处理中文自然语言处理中歧义问题的基础。

理解文本之前和之后的上下文可以帮助我们更准确地解决多义词的歧义问题。

通过词语和句子级别的上下文,我们可以推断正确的含义。

例如,对于句子“我想吃个苹果”,上下文中如果提到食物的话题,那么“苹果”很可能是指水果,而不是指苹果公司。

其次,基于语料库和统计模型的方法可以帮助解决中文自然语言处理中的歧义问题。

通过从大规模的语料库中学习词语和短语的频率和上下文信息,我们可以使用统计模型来为每个词语分配最可能的含义。

这种方法广泛应用于词义消歧、句子理解和机器翻译等任务中。

例如,在机器翻译中,我们可以根据源语言和目标语言之间的上下文信息来决定正确的翻译含义。

另一个处理中文自然语言处理中歧义问题的方法是使用语义角色标注和依存句法分析。

语义角色标注可以帮助我们识别句子中的谓词和句子成分之间的语义关系。

通过标记句子中的语义角色,我们可以更好地捕捉到词语之间的语义关系,从而减少歧义。

依存句法分析可以将句子中的每个词语与其他词语之间的依存关系可视化,帮助我们理解句子结构和意义。

这些技术在信息抽取、问答系统和文本分类等任务中起着重要作用。

此外,利用词语之间的词汇关系可以帮助我们处理中文自然语言处理中的歧义问题。

同义词和反义词之间的关系可以用来推断词语的含义。

例如,对于句子“这个苹果真好吃”,我们可以根据“苹果”和“好吃”的词汇关系来理解句子的含义。

近义词和反义词词典可以帮助我们构建这些词汇关系,并支持词义消歧和句子理解等任务。

最后,人工智能技术的发展为解决中文自然语言处理中的歧义问题提供了更高效的方法。

中文信息处理中歧义及歧义自动识别方法的比较

中文信息处理中歧义及歧义自动识别方法的比较

果 ,但 大 多数 工作 都集 中于 基 于 词 典 、语 料库 、分 类 的方 法 研 究 、汉 语 文 本 自动 标 引 、内 容 自动 处 理 的 “ 颈 ”。 如果 瓶 等 等 ,针 对汉 语 特 点 的语 义 语 法 、 上下 文语 境 、语 用 知识 的 能 突 破 这 一 “ 颈 ”, 中文 信 息 的 自动 处 理 难 题 就迎 刃 而 瓶 利 用 虽有 所 涉 及 ,但 还 有 很 大 的发 掘 空 间 。 解。 2 自然语 言 理 解 中存 在 的 歧义 类 型 . 2 1 兼类 词 的 出现 在 语 句 中造 成 的 歧义 .
兼 类 词是 指 某个 词 经 常 具备 两 类 或 几类 词 的 主要 语 法 功 能 。 常见 的兼 类 词有 以下 几 种情 况 :
3 目前应对消除歧义的方法 .
3 1 基 于语 料 库 的 方法 . 基 于 语 料库 的方 法 是研 究 人 员 在对 语 料 进 行 大 或 离开 义 ) ( ) 是 一个 地 下 工厂 。 ( 厂设 在 地 下或 是 非 法开 的 4 这 工
工厂 )
2 3 汉语 自动 切 分 导致 的 分 词 歧 义 . 目前 在语 言学 界 , 有 的学 者 认 为汉 语 是 一 种 “ 字本 位 ”
计算 机 能 够理 解 自然语 言 , 用 户就 可 以通过 自然 语 言 使用 数 的 语 言系 统 , “ ”是 汉 语特 有 的 概 念 , 英语 中就 没 有 与汉 字 据 库 、专 家系 统 、 管理 信 息 系 统等 各 种 软件 , 因此 自然 语 言 语 相 对 应 的 “ ” 的 语 言 单 位 。 基 于 汉 语 特 点 的 自动 分 词 字
上 下 文和 已表 注 词性 的句 子 的 上 下文 来 给 新 句 子 的 “ 数 ” 单 做 表 注 义项 。但 是这 种 基 于 语 料库 的方 法 提 取 参数 需 要 对 大

对外汉语教学中的歧义问题解析

对外汉语教学中的歧义问题解析

对外汉语教学中的歧义问题解析[摘要] 歧义作为语言学中一个长期存在的普遍问题,在二语教学中一直备受关注。

对外汉语教学中,歧义问题也始终是个重点、难点。

本文将依据现代汉语语言系统的层次性规律,从语音、词汇、语法三大层面分析产生歧义的类型,总结教学中几种有效的消歧原则,并针对不同的歧义问题提出相应的教学解决方法,初步得出一个系统的应对模型。

[关键词] 汉语歧义类型;消歧原则;消歧方法;消歧模型一、现代汉语歧义的类型语言是人类最重要的交际工具,源于交际需要的语言交流由于多种因素的影响,不同对象对某一语言片段出现合理的理解上的偏差,是一种正常且普遍的现象。

歧义最常见的解释就是可以作两种或两种以上理解的语言片段。

歧义现象不可避免,作为孤立语的汉语,本身就缺乏严格意义的形态变化,因此语法形式和意义之间的对应关系就会更加复杂,对于将汉语作为第二语言学习的留学生而言,正确理解汉语的歧义现象、掌握有效的消歧手段是学好汉语一道重要的语言关卡,而理清歧义现象的类型是建立系统的消歧规则的基础。

因为歧义不仅涉及语言内部、外部的原因,还牵涉到心理学、哲学等多门学科范畴,多种因素互相交叉,各因素之间的界限并不明确,使得划分歧义产生了多种解释。

就语言学层面而言,歧义涉及语音、语汇、句法、语义、语用等诸多因素,想完全划清类型界限十分困难。

但就对外汉语教学研究来说,遵循经济性原则,就应该合理粗分歧义类型,突出常见的歧义现象和语法难点,将复杂问题尽量进行简单阐释和处理。

因此,本文从语言的层次性出发将现代汉语的歧义现象分为三类:语音歧义、词汇歧义和语法歧义。

需要说明的是,由于汉语系统自身的特性和复杂性,在讨论这三种歧义类型时难免会有交叉重叠现象,所以在处理具体问题上仍需要有一定的灵活性。

(一)语音层面的歧义语音歧义,就是一个语言片段在语音形式上可以做两种或多种解释,包括两种情况,一是同音字、词引起的歧义,二是多音字、词引起的歧义。

例如:(1)这次qī zhōng考试真是太难了!(2)我要tūo xié。

浅析现代汉语中的歧义现象及分化方法

浅析现代汉语中的歧义现象及分化方法

091现代汉语中存在的歧义现象成因复杂、形式繁多,这不单单展现出现代汉语的错综复杂,更体现出现代汉语的精细微妙。

在日常生活中广泛存在的歧义现象,对人们的交际、交流形成了一定的制约,对信息的顺利传递造成了必然的影响。

因而分化现代汉语中的歧义现象是很有研讨意义的。

研究分析现代汉语中的歧义现象就是透过语言表面相同的形式,去挖掘语言本质上的不同语义,去考察表达多种可能的语言内容。

本文拟对现代汉语中存在歧义现象的原因及分化歧义句式的方法做浅层的探讨分析。

一、现代汉语中歧义现象的成因分析(一)语音造成的歧义1.同音同形字词造成的歧义如:(1)“别给我戴帽子!”的“帽子”可以理解为:①一种戴在头部的服饰;②罪名、坏名声。

2.同音异形字词造成的歧义如:(2)“同学们好,我是Zhang老师。

”的“Zhang”可以理解为:①张姓氏;②章姓氏。

3.多音字词造成的歧义如:(3)“还欠款300元。

”的“还”可以理解为:①读音为“huan”,已经还了欠款300元;②读音为“hai”,还剩下欠款300元没有返还。

4.轻重音造成的歧义如:(4)“我想起来了。

”可以理解为:①重音放在“想”,指事情被想起来;②重音放在“起来”,指想要将身体起来一些。

(二)词汇造成的歧义1.一词多义造成的歧义如:(5)“母亲走了。

”的“走”可以理解为:①离开;②去世。

2.词语、短语同形造成的歧义如:(6)“我想要炒白菜。

”的“炒白菜”可以理解为:①偏正结构的词,是一道菜名,指炒的白菜;②动宾结构的短语,重点是放在“炒”这个动作。

3.连词“和”造成的歧义如:(7)“她丢下弟弟和哥哥玩去了。

”可以理解为:①她丢下了弟弟,和哥哥玩去了;②她将弟弟和哥哥都丢下,然后去玩了。

(三)语义造成的歧义1.语义关系不同造成的歧义如:(8)“他谁都了解。

”可以理解为:①“他”是施事,他很熟悉大家,都了解;②“他”是受事,大家对他都很了解、熟悉。

2.语义指向不同造成的歧义如:(9)“他有个将军孙子很神气。

浅谈汉语言文字的歧义现象

浅谈汉语言文字的歧义现象

浅谈汉语言文字的歧义现象导读:本文浅谈汉语言文字的歧义现象,仅供参考,如果觉得很不错,欢迎点评和分享。

浅谈汉语言文字的歧义现象文/齐跃飞一、歧义指说话或文字表达上有两种或几种可能的解释,如:怀念人民的周总理。

二、歧义产生的原因语言的要素包括语音、词汇、语法以及文字等,然而这些要素所包含的内容都是有限的,人类交际所需要的表达则是无限的,以有限的手段表达无限的内容,必然会出现重合和交叉,这种重合和交叉便产生了歧义。

三、歧义的类型1.词性模糊引起的歧义①摩托车没有锁—把它锁好不就行了!(动词)买一把锁就行了。

(名词)②铁锤锤表锤不烂—铁锤没有烂。

(名词)这块表很特殊,锤不烂。

(动词)2.结构关系不明产生的歧义①你们领导也应该带头—你们领导(同位关系)你们的领导(偏正关系)②我们公司正准备出口商品—出口商品(动宾关系)出口的商品(偏正关系)3.施动关系不明①咬死了猎人的狗—猎人的狗被(老虎)咬死了。

(被动句式)就是这只狗把猎人咬死了。

(主动句式)②校长也应该检查—校长也应该接受检查。

(被动句式)校长也应该去参加检查。

(主动句式)4.语音歧义①母亲背着儿子去跳舞—bēi 背着bèi 避开②县长毛兔会议在此报到—cháng(长毛兔)zhǎng(县长)(选自《新笑话集锦》)5.方言引起的歧义老不死—怎么老都不死骂人的话6.重读、轻读不当引起的歧义①一天早上就写了三封信—就:只,意指太少三封:意指太多②孙子在读书—轻读:儿子的儿子重读:春秋伟大的军事家孙武7.词义变迁引起的歧义①还来就菊花—今:(欣赏)菊花古:喝菊花酒②率妻子邑人来此绝境。

—古:妻子和儿女今:指夫人8.标点符号引起的歧义(1)有个吝啬鬼要开酒店,请秀才写对联,且要合乎心意:一要人丁兴旺,二要酿酒发财,三要店中无老鼠,四要养肥猪。

秀才因为平常最恨这些吝啬鬼,便挥毫写下了以下对联:酿酒缸缸好做醋坛坛酸养猪大如山老鼠头头死横批:人多病少财富(2)唐朝书画家、江南四大才子之一的祝枝山(祝允明),虽出身名门豪富,却疾恶如仇,常替老百姓说话,有一财主请他写对联,他就分别在大门和二门写上:明年逢春好不晦气终年倒运少有余财此地安能居住其人好不伤悲(3)家产归谁。

浅析现代汉语中的歧义现象的成因

浅析现代汉语中的歧义现象的成因

浅析现代汉语中的歧义现象的成因陈宇莹歧义是自然语言中普遍存在的现象,无论是书面语还是口语,我们都随处可见。

有一些语法学家把歧义现象作为一种消极的、不合规范的语言现象,要求大家尽量避免。

事实上,歧义现象的研究对于探讨语言形式和语言内容的种种复杂的关系,揭示语法规律是很有意义的。

研究歧义可以考察同一语言形式表达多种语义内容的可能性,考察表面相同的形式实质上的差异,进而深化对语言形式与内容的种种复杂对应关系的认识。

所以,深入研究汉语歧义问题是很有必要的。

歧义就是指同一语言形式包含两种或两种以上不同意义的现象。

即在理解上会产生多种可能,也可以说,就是可以这样理解也可以那样理解的句子。

歧义又叫同形,一个着眼于内容,一个着眼于形式,是一个问题的两个方面。

歧义必须是以同形作为前提,不同形就无所谓歧义。

现代汉语中歧义现象的产生从根本上说,它是由客观世界的无限复杂性同语言表达手段的有限性之间的矛盾造成的,以下就从几个方面来进行阐述。

一、从句法层面分析歧义现象成因句法是三个平面的基础,语义和语用的分析都围绕句法展开,它着重研究词的功能类别、词语组合时所形成的成分关系和层次。

(一)词语含义多造成歧义现象的产生尽管现代汉语在词汇方面大大超过了古代汉语,但是仍不免歧义词的产生。

如“上面”一词有以下意思:①指位置高的地方;②序靠前的部分;③体的表面;④方面;⑤指上级;⑥指家族中的上一辈。

只有将多义词放在一个特定的具体的语言环境中,才可能排除其他义项,消除歧义。

如“我从上面听到点风声,公司非常重视本次整顿。

”这里的“上面”指的是上级,“风声”指的是从上级那里传播出来的消息。

(二)词的功能不同引起歧义词的不同词性也会引起不同的理解,以至于引起歧义。

如:1.锤不烂。

2.门没有锁。

例1中,“锤”既可以作名词,又可以作动词用,所以自然而然就可以从两个角度去理解,一是“锤打一个东西,但是东西很坚硬,不能轻易锤烂;”二是“锤子没烂,是好的”。

中文校正中常见的语义问题及其解决方法

中文校正中常见的语义问题及其解决方法

中文校正中常见的语义问题及其解决方法引言在进行中文校正的过程中,常常会遇到一些语义问题。

不正确的语义使用会导致文章表达意思不准确甚至产生误导。

因此,研究在中文校正中常见的语义问题并寻找相应的解决方法,对于提高文本质量和阅读体验非常重要。

本文将介绍中文校正中常见的语义问题,并提供相应的解决方法,以帮助读者更好地进行中文校正。

1. 同音字和近义词的混淆在中文中,常常会出现一些同音字和近义词的混淆现象。

这些词汇的意思相近,但用法不同,容易导致歧义。

解决方法:•仔细辨析同音字和近义词,了解它们的用法和意义差异。

•在疑惑的情况下,可以查阅字典或在线语言工具来确认使用的词汇是否正确。

•尽量避免使用存在混淆的同音字和近义词,选择更具准确性的词汇来表达意思。

2. 词语搭配的错误中文中有许多词语之间有固定的搭配关系,如果不正确使用搭配,可能会导致语义错误。

解决方法:•学习常用的词语搭配,并注意它们在不同语境中的用法。

•在写作过程中,仔细选择和使用正确的词语搭配,以保证表达的准确性和流畅性。

•避免使用自己不熟悉的表达方式,尽量使用简洁、准确的词语搭配。

3. 句子结构的错误中文句子的结构有一定的规范,不正确的句子结构会导致语义模糊或不连贯。

解决方法:•学习中文句子的基本结构,包括主谓宾、主谓表等。

•注意句子的成分之间的搭配和逻辑关系。

•在写作过程中,检查句子结构是否规范,修正不符合规范的句子。

4. 上下文语境的错误理解在中文校正中,有时会出现对上下文语境理解错误的情况。

例如,在某个具体语境下,某个词汇的含义可能与通常理解的不同。

解决方法:•细读文章,仔细理解上下文语境,从整体上把握作者的思想和意图。

•意识到某个词汇在特定语境下可能有特殊意义,并在校正时进行合适的调整。

•如果有疑惑,可以与作者进行沟通,以确保对上下文语境的理解准确。

5. 文化差异导致的语义问题中文校正中常常会涉及到文化差异,不同文化背景下的语义使用差异可能会导致表达不准确或误解。

现代汉语中歧义现象浅析

现代汉语中歧义现象浅析

现代汉语中歧义现象浅析
现代汉语中的歧义是一个特殊的语言现象,在实际的交流中,它往往会引起误解,从而影响交流的有效性。

歧义是指同一词语,在不同的语境下,产生了不同的意义。

然而,目前,现代汉语中存在着大量的歧义,原因有好几个。

首先,汉语是一种思维而非文字的语言,运用一些抽象的文字来表达比较复杂的事物。

其次,在汉语中缺乏规范体系,同一词语之间和用语之间也没有严格的范围、条件和普遍性。

最后,汉语本质上是一种变化无穷的语言,由于不受外力抑制,语言变化非常快,而且地域文化的影响也非常明显,会使不同地区的说法出现细微的差异。

因此,我们在使用汉语时要格外注意不至于因歧义而产生误解。

要尽量避免使用含歧义的词语,并能够根据不同的语境把握不同的意思。

同时,有必要加强对歧义问题的研究,使歧义词语尽量准确地使用,同时及时进行修正,减少对交流的干扰。

现代汉语歧义研究

现代汉语歧义研究

现代汉语歧义研究引言现代汉语歧义现象是指在不同语境下,同一个词语或短语可能具有多个不同的含义,这给人们的交流和阅读带来了诸多困扰。

本文旨在深入探讨现代汉语歧义现象的原因、具体表现、影响及解决方案,以期帮助读者更好地理解和应对汉语歧义问题。

背景分析现代汉语歧义现象的出现,既与语言本身的特性有关,也受到社会、文化等多种因素的影响。

首先,汉语词汇量大,且很多词语具有多个含义,容易造成歧义。

其次,不同地区、不同年龄段的人们对语言的用法和习惯可能存在差异,从而导致歧义。

此外,社会文化因素如价值观念、意识形态等也会对语言的解读产生影响,进而产生歧义。

具体解释现代汉语歧义现象主要表现在以下几个方面:1、多义性:很多汉语词语具有多个含义,且这些含义可能在某些语境下都能成立,从而造成歧义。

例如,“老板骂你了吗?”中的“骂”既可以理解为责骂,也可以理解为口语中的谩骂。

2、模糊性:某些词语或短语的边界不清晰,其含义可能因语境而异,导致读者难以确定其具体含义。

例如,“他有点儿像老师”中的“像”可以表示相似,也可以表示比拟,其具体含义需要根据语境来判断。

3、指代不明:当句子中出现代词时,如果没有明确的先行词,则容易造成歧义。

例如,“他打了他的老师”中的“他”可以指代打人者,也可以指代被打的人。

影响分析现代汉语歧义现象会对人们的交流和阅读产生不良影响。

首先,歧义可能导致信息传递的丢失或误解,影响交流的准确性。

其次,歧义可能增加读者的阅读难度,使其难以理解文本的真正含义。

此外,歧义还可能引发语言学习和使用的困扰,对语言教学产生一定影响。

解决方案为了减少现代汉语歧义现象带来的不良影响,我们可以采取以下措施:1、加强语言学习:掌握足够的词汇量和对语言的准确理解有助于减少歧义。

通过深入学习词汇的用法、搭配以及在不同语境下的含义,我们可以更好地避免歧义的产生。

2、提高阅读能力:提高阅读能力有助于我们更好地理解上下文,从而更准确地理解词语或短语的含义。

中文自然语言处理中的歧义解决技术研究

中文自然语言处理中的歧义解决技术研究

中文自然语言处理中的歧义解决技术研究自然语言处理(Natural Language Processing,NLP)是人工智能领域一个重要的研究方向,它致力于使计算机能够理解和处理人类语言。

然而,由于语言的复杂性和多义性,NLP中存在大量的歧义问题,甚至同一句话在不同的语境下可能具有不同的语义。

因此,解决这些歧义问题成为了中文自然语言处理中的一个重要任务。

中文自然语言处理中的歧义解决技术主要包括以下两个方向:词义消歧和语义角色标注。

词义消歧是指通过上下文信息对多义词进行准确的语义判断,使得句子的意思更加清晰明确。

对于一个给定的多义词,我们需要根据上下文语境来确定它在这个句子中的具体含义。

例如,对于句子“我在银行存钱”,其中的“银行”一词有两个可能的含义:银行机构和河岸边的地方。

通过词义消歧技术,我们可以准确地判断出这里的“银行”是指银行机构。

词义消歧的技术方法包括基于统计的方法和基于知识库的方法。

基于统计的方法通常通过分析大量的语料库来获取词语在不同语境下的使用频率信息,并根据上下文语境的相似度来判断词义。

而基于知识库的方法则依赖于预先构建的知识库,例如WordNet等,它们记录了词语之间的上下位关系、义项关系等信息,通过查询这些知识库来实现词义消歧。

另一个重要的歧义解决技术是语义角色标注。

语义角色标注是将句子中的词语与句子的语义角色相对应,从而准确捕捉句子的语义信息。

语义角色标注可以帮助理解句子中的动作、参与者和受事者等语义角色,进而帮助解决句子的歧义问题。

语义角色标注的技术方法可以分为基于规则的方法和基于机器学习的方法。

基于规则的方法通常依赖于人工设计的规则或模板来进行语义角色标注,但其覆盖范围有限且对语料库要求较高。

基于机器学习的方法则通过训练模型来自动学习语义角色标注的规律,并可以处理更为复杂的句子结构。

在中文自然语言处理中,歧义解决技术的研究面临一些挑战。

首先,中文的语法结构复杂,词语之间的关系纷繁复杂,这给歧义解决带来了一定的困难;其次,中文的多义词较多,对于同一个词可能存在多个正确的解释,如何准确判断其具体含义是一个挑战。

中文信息处理中的歧义问题分析

中文信息处理中的歧义问题分析

中文信息处理中的歧义问题分析作者:方玉萍来源:《科技传播》 2017年第13期摘要中文内容中的歧义问题一直都是语言学中的一个重点研究内容,同时也是将中文语言与计算机信息处理技术相互融合的一个难点所在。

随着我们对中文信息处理相关问题的深入研究,我们也逐渐发现了新的问题。

这给中文信息化处理工作带来了极大的障碍。

为了更好地理解并有效地解决这一问题,我们将中文信息处理中存在的问题专门拿出来进行探讨。

通过对歧义问题的处理,从而就目前存在的歧义的原因进行分析并提出相关消除歧义的方式方法。

关键词中文信息处理;歧义问题;分析中图分类号TP3文献标识码A文章编号1674-6708(2017)190-0058-02人们将信息技术的发展引入到与中文信息的处理中,不仅能够有效地提升工作效率,同时还能够更好的对中文进行研究。

然而在实践过程中我们发现,虽然信息技术能够很好的对中文进行信息转换,然而在面对中文中存在的歧义问题时,仍然会出现一些问题。

比如在特定的中文信息环境中,对语言信息的处理不恰当的现象。

虽然这种歧义一直存在,但是它产生的影响相对较小。

主要原因在于人们会自发的通过语言环境,背景以及常识进行有效地结合。

从而在不同的歧义含义中找出最为正确的答案。

相较于信息技术对于中文信息处理中存在的歧义,正是缺乏这种环境、背景、常识的引入所导致的。

因此,我们可以通过这种方式来寻找解决方法。

从而帮助计算机在处理中文信息的过程中减少歧义问题的发生。

1中文信息处理的概念关于中文信息处理的概念性的表述可以理解为通过使用计算机的信息技术来将中文中涉及到发音、字形以及含义等相关信息的内容进行处理和加工的方式[1]。

中文信息处理方式是综合了语言学、计算机信息技术、声学等多种学科的综合性的技术概念。

通过将计算机信息技术引入到中文研究中,不仅有效地提高了对中文的含义表述的工作效率,同时还能够实现多方面、多层次的处理手段,从而使中文的表述以及含义理解更加具体。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

浅析中文信息处理中的歧义问题
摘要随着中文信息处理研究的深入,各种新的问题也不断出现,歧义问题成为进行汉语信息处理的一大障碍。

本文把中文信息处理中的歧义问题分成三类:兼类词歧义、结构性歧义、多义词歧义,并分析了目前较为通行的两大排歧方法:基于规则的方法和基于统计的方法,认为两种方法各有优缺点,相互结合补充才是最好的解决途径。

关键词中文信息处理;歧义;排歧
计算语言学是在计算机科学、语言学、数学、逻辑学、心理学等多学科土壤上成长起来的一门边缘学科。

具体到中文信息处理领域,主要包括“字处理”、“词处理”和“句处理”。

汉语语法研究的成果直接对自动分词、词性标注、机器翻译、文献检索、自动文摘、文本校对等等中文信息处理问题产生显著影响。

语法中的歧义研究有重要的意义,常常被看作是语法研究的突破口。

语言学家之所以对其保持浓厚的兴趣,朱德熙先生曾经说过:“一种语言语法系统里错综复杂的和精细微妙之处往往在歧义现象里得到反映。

因此分析歧义现象会给我们许多有益的启示,使我们对于语法现象的观察和分析更加深入。


1 歧义现象的分类
经过分析总结,笔者认为,目前中文信息领域的歧义问题,可以分为三大类:
1.1 兼类词歧义
兼类词是指具有两类或几类词的语法功能,且意义相同的词。

划分汉语词类的主要依据是语法功能,而汉语的词类与句法成分并非一一对应。

汉语不像屈折语那样具有丰富的形态变化,能够由形式去固定词类以及该词所充当的句法成分。

汉语缺乏形态变化是造成兼类现象的基本原因[1]。

请看下例:
(1)为买这束花,他可花了不少钱。

(2)用锁把门锁好。

(3)你比奥特曼还奥特曼。

以上三例中,分别有两个“花”、“锁”、“奥特曼”,但是只是形、音相同,词性和意义都不同。

例(1)中,第一个“花”是名词,第二个“花”是动词“花费”之意。

例(2)中,第一个“锁”是名词“锁子”之意,第二个“锁”是动词“锁住”之意。

例(3)中,第一个“奥特曼”是名词,指科幻片中打怪兽的超人,第二个“奥特曼”是形容词,词类活用,形容很英雄。

从教学的角度看,这种分类比较细致,便于人们的理解和掌握;但从中文信息处理的角度看,这种分法不便于计算机掌握。

中文信息处理的目的是让计算机能根据具体语境判断出词的词性,从而准确理解其中的含义。

汉语中,兼类词为数不多,词性的兼类现象却普遍存在,给词性标注带来了很大困难,兼类词的选择是计算机词性自动标注的一个“瓶颈”。

1.2 结构性歧义
汉语自动分词问题是制约中文信息处理发展的瓶颈之一,歧义切分字段又是影响分词系统切分精度的重要因素。

现代汉语结构歧义是进行汉语句法分析的一大障碍。

计算机面对的结构歧义问题,可分为两个基本方面:
(1)交集型歧义
据统计,交集型占全部歧义切分字段的85%以上,数学表示为:字串ABC 中,若AB∈D、BC∈D、A∈D、B∈D ,则ABC为交集型歧义字段。

此时,ABC有AB/C、A/BC两种切分形式。

其中B为交集字段。

具体示例如下:
例(1)
①结婚的/和/尚未/结婚的
②结婚的/和尚/未结婚的
例(2)
①结合/成分/子
②结合/成/分子
例(3)
①张静/初吻献德国影帝。

②张静初/吻献德国影帝。

以上三个例子中,例⑴中“和尚”是一个词,“尚未”也是一个词;例(2)中“成分”是一个词,“分子”也是一个词;例(3)中“张静初”是一个人名,“张静”也可以是一个人名,“初吻”又可以单独成词。

从计算机的角度看上去,①②两种分发都可能发生。

(2)组合型歧义
到目前为止,汉语分词歧义的研究多集中在交集型歧义,针对组合型歧义的则很少。

组合型歧义数学表示为:字串AB中,若AB∈D、A∈D、B∈D,则AB为组合型歧义字段[2]。

此时,AB有AB、A/B两种切分形式。

具体示例如下:
例(1)
①他拿起/壶把/水倒了。

②他拿起壶/把/水倒了。

例(2)
①他/将来/北京学习。

②他/将/来/北京学习。

例(3)
①成都市/一大景观
②成/都市/一大景观
以上三个例子中,“壶把”“将来”“成都市”可以是一个词,也可以分成两个词。

人为处理交集型歧义和组合型歧义不难,难在计算机能够合理划分它们。

(3)多义词歧义
在汉语中存在大量的一词多义现象,据统计53.43﹪的汉字具有两个或两个以上的义项。

这类歧义虽然和语法没有多大关系,但也算是歧义现象的一部分。

请看下例:
①他是走后门进来的。

②我昨天撞上钉子了。

③他走了一个钟头了。

以上三例中,“走后门”“撞钉子”“走”的语法结构相同,但可以分别理解为两个意思。

例⑴可以理解为:①他是通过不正当的途径进来的。

②他从房屋的后门进来的。

例⑵可以理解为:①我昨天遇到阻碍或拒绝。

②我昨天撞到真的钉子上了。

例⑶可以理解为:①他离开一个钟头了。

②他行走了一个钟头了。

人通过语境联系上下文能分清的,让计算机理解却有很大的困难[3]。

2 排歧方法
可以看出,语义内容与语言形式之间的矛盾是歧义产生的根本原因。

目前,为了解决好中文信息处理中的歧义难题,出现了一个竞相研究、竞相发展的局面,
提出了各种策略和途径,归纳起来,主要有以下两种基本方法:
2.1 基于规则的方法
基于规则的方法是一种传统的方法,其优势在于能充分利用现有的语言学研究成果,对于某些特殊的歧义组合,可以通过对语境中的词语、词类和词语的特征信息的深入细致的描述,获得较高的排岐准确率。

基于规则的研究者,一般求助专家的理性知识,由人来对语言知识进行抽象,然而规则的覆盖率比较低,难以解决所有的兼类问题。

基于词典释义排歧就属于基于规则的方法。

比如对于多义词歧义,利用词典条目的释义找出多义词释义与其上下文语境之间的交集,也就是利用词典释义来判断词义的相关程度,进而判断多义词的词义。

这种排歧方法的不足是此方法依靠詞典,而词典对词语释义时又力求精练概括,因而这种方法在面对复杂的自然语言时常难以应对[4]。

2.2 基于统计的方法
基于统计的方法目前占主导地位,其优势在于它的全部知识是通过对语料库的训练得到的,因此可以获得很好的一致性和很高的覆盖率。

因此,基于统计的方法又可称为基于语料库的方法,是研究人员在对语料进行大量标注的基础上,对已标注义项的文本进行考察,得出与将要考察的词义项有关的数据和参数,然后利用得到的数据和参数对目标词义项进行标注。

但是统计方法的实质是选择概率高的词性标记,這只是一种最大的可能性,并不是唯一的可能,它是以舍弃概率低的词性标记为前提的,这必然会使词性标注的准确率受到限制;提取参数需要对大量的语料人工标注,而参数本身的得出也同样需要大量的计算;除此之外消歧的准确率还受选择文本情况以及标注人员的语言水平等因素的影响。

目前,我们还很难说哪一种方法是唯一正确的。

各种策略和途径,表面看似不同,其实,最终都需要依赖可靠的汉语知识特别是汉语语法知识来驱动计算机正确处理汉语。

基于规则的处理策略比较传统,基于统计的方法自从20世纪90年代出现以来,就方兴未艾,二者在对语言知识的需求上实际上是共同的。

只不过走规则路线的研究者一般求助专家的理性知识,由人来对语言知识进行抽象,而走统计路线的研究者一般求助于计算机对大规模的语料库的统计分析,由计算机来抽象出语言知识。

两种路线孰优孰劣,不能笼统判断,只能跟具体的应用目标结合起来,由实践结果来评价。

笔者认为,比较好的方法是能将二者结合起来,即人工标注同数理统计相互结合,互相弥补,才能得到最理想的结果[5-10]。

每种语言都有它自身的特点,针对汉语的特点找到符合汉语特点的排歧方法才是最理想的。

针对汉语特点的语法研究能够开拓研究视野,信息处理只有充分吸收现代汉语语法研究的成果才能不断向前发展。

本文只是对汉语歧义问题进行了浅尝辄止的分析,总结中文信息处理的排歧是非常难的课题,要彻底解决汉语排歧问题,需要各专业领域的人才的不懈努力。

参考文献
[1] 冯志伟.计算语言学基础[M].北京:商务印书馆,2001:22-23.
[2] 俞士汶.计算语言学概论[M].北京:商务印书馆,2004:32-36.
[3] 冯志伟.应用语言学综论[M].广州:广东教育出版社,2001:77-77.
[4] 李宝安.中文信息处理技术原理与应用[M].北京:清华大学出版社,2006:98-99.
[5] 刘开瑛.中文文本自动分词和标注[M].北京:商务印书馆,2000:1-3.
[6] 郑家恒.智能信息处理:汉语语料库加工技术及应用[M].北京:科学出版社,2010:5-5.
[7] 王建新.计算机语料库的建设与应用[M].北京:清华大学出版社,2009:111-114.
[8] 盛玉麟.语言文字信息处理[M].济南:山东大学出版社,2006:9-17.
[9] 程显毅等.中文信息抽取原理及应用[M].北京:科学出版社,2010:132-144.
[10] 宗成庆.统计自然语言处理[M].北京:清华大学出版社,2008:
27-28.
王海静(1979-),女,山西运城人,副研究员,主要从事计算语言学、辞书编纂研究。

相关文档
最新文档