基于WordNet的概念语义相似度研究
基于WordNet的情感词库构建研究
基于WordNet的情感词库构建研究情感词库是自然语言处理中的重要组成部分,通常用于文本情感分析、情感极性判断以及舆情分析。
WordNet是一种常用的语义网络,可以通过它来构建情感词库,本文主要介绍基于WordNet的情感词库构建研究。
一、WordNet简介WordNet是由普林斯顿大学的心理学家George Miller教授领导的一项项目,它是一种英语词汇数据库,用于自然语言处理和语义计算。
WordNet将英语单词分解为词义,每个词义都与一个或多个单词相关联。
这些词义之间以及单词之间都存在着语义关系,比如同义词、反义词、上位词、下位词等等。
二、情感词库介绍情感词库(Sentiment Lexicon)是包含情感极性和情感强度等信息的一组单词或短语列表。
情感词库可以帮助计算机自动分析文本的情感倾向,以此为根据来进行情感分类、情感极性判断、舆情分析等工作。
情感词库的构建通常需要基于人工标注和机器学习技术。
传统的构建方法在标注大量的文本后,利用MMI(最大相互信息)或PMI(点间互信息)等方法计算情感单词或短语准确率。
但是这种方法对人的时间和精力的要求太大,也不够灵活。
因此开始使用WordNet构建情感词库。
三、基于WordNet构建情感词库的方法基于WordNet的情感词库构建方法主要分为两种:查找词性和语义相似度。
1. 查找词性在WordNet中,每个单词在其定义中有多个释义和词性标记:名词(Noun)、动词(Verb)、形容词(Adjective)和副词(Adverb)。
在这种情况下,可以使用名词、动词、形容词和副词标记,选择有情感信息的单词。
然后借助WordNet上语义关系(如同义词、反义词、上位词、下位词等)来扩展情感词库。
例如,将“love”作为基本情感词,利用同义词“adore”,反义词“hate”,上位词“comfort”、下位词“hug”等扩展情感词表。
2.语义相似性利用WordNet关系结构中词之间的关系,计算两个单词之间的语义相似性,从而将与情感相关的单词添加到情感词库中。
基于知网的词汇语义相似度计算1
我们的工作主要包括: 1. 研究《知网》中知识描述语言的语法,了解其描述一个词义所用的多个义 原之间的关系,区分其在词语相似度计算中所起的作用;我们采用一种更
1 *
+
本项研究受国家重点基础研究计划(973)支持,项目编号是 G1998030507-4 和 G1998030510。 北京大学计算语言学研究所 & 中国科学院计算技术研究所 E-mail: liuqun@ Institute of Computational Linguistics, Peking University & Institute of Computing Technology, Chinese Academy of Science 中国科学院计算技术研究所 E-mail: lisujian@ Institute of Computing Technology, Chinese Academy of Sciences
基于《知网》的词汇语义相似度计算1 Word Similarity Computing Based on How-net
刘群* ﹑李素建+
Qun LIU , Sujian LI
摘要
词义相似度计算在很多领域中都有广泛的应用,例如信息检索、信息抽取、文 本分类、词义排歧、基于实例的机器翻译等等。词义相似度计算的两种基本方 法是基于世界知识(Ontology)或某种分类体系(Taxonomy)的方法和基于统 计的上下文向量空间模型方法。这两种方法各有优缺点。 《知网》是一部比较详尽的语义知识词典,受到了人们普遍的重视。不过,由 于《知网》中对于一个词的语义采用的是一种多维的知识表示形式,这给词语 相似度的计算带来了麻烦。这一点与 WordNet 和《同义词词林》不同。在 WordNet 和《同义词词林》中,所有同类的语义项(WordNet 的 synset 或《同 义词词林》的词群)构成一个树状结构,要计算语义项之间的距离,只要计算 树状结构中相应结点的距离即可。而在《知网》中词汇语义相似度的计算存在 以下问题: 1. 2. 每一个词的语义描述由多个义原组成; 词语的语义描述中各个义原并不是平等的,它们之间有着复杂的关系,通 过一种专门的知识描述的词汇语义相似度计算
中文词语语义相似度计算_基于_知网_2000
《知网》的 基本形式是对中 文词语的释义 和描 述。与一般的语义词典如 Wordnet 不同的地 方有 两点:
第一, 词语( 概念) 的意义不是通过一些其他的 常用词语来解释、说明, 而是通过 / 义原0来描述、定 义。比如/ 打0 ( 打篮球, 打太极) , 这个词有一 项描 述是:
DEF = exer cise| 锻炼, spo rt| 体 育
DEF = human | 人, # occu-
医生 pation| 职位, * cure | 医治, *
medica l| 医
患者
DEF= human| 人, * SufferFr om| 罹患, $ cur e| 医治
$
obtain | 得 到, po ssession = 得利 pros| 益( 注: 等号左边为/ 动 =
%
颜色
DEF= attr ibute| 属性, color | 颜色, & physical| 物质
&
布
DEF= mater ial| 材料, ? clo thing | 衣物
?
DEF= Inst itutePlace | 场所,
医院 @ cure | 医 治, # disease| 疾 @
病, medical| 医
见表1从表1的例子中可以看出知网义原加标识符来定义词语的方式不但给出了词语的语义信息比如医院0是医疗场所也显式地给出了概念之间的联系比如医治0的实施者是医生0受事者是患者0而地点是医院0
—种基于WordNet语义相似度的改进算法
I
( 3 )
L 。 0/ W i d t h ) } ( 1 / 2 ) * W e i g h t ( p a r e n t ( c ) ) c 为中 间结 点
1 Wo r d Ne t 简介
Wo r d Ne t 是由P i r n c e t o n大学的心理学家 , 语言学 家和计 算机 工程师联合设计 的一种基于认 知语言学 的英语词典, 它不只把单词 以字母顺序排列 , 而且按照 单词 的意义组成一个“ 网络 ” 。 由于包含 了语义信息 , 所 以Wo r d Ne t 有别于通常意义上 的字典 。 Wo r d Ne t 描述对象包括复合词 、 短语动词 、 搭配次词 、 成语 、 单 词, 其中单词是最基本的单位。 描述对象被分为名词 、 动词 、 形容词 、 副词 , 它们各 自被组织成一个同义词的网络 , 即有层 次的树形结构 , 每个同义词集合都代表一个基本 的语义概念 , 并且这些集 合之 间也 有各种关系连接 。 在Wo r d Ne t 中以名词为例最基 础的语义 关系是 同 义关系。 S y n s e t 构成 了树形结构 中的每一个概念。 除了上面提到的同 义词关系Wo r d N e t 中还有 很多其他关系来表示不 同概念之 间的关 系, 例如上下位关系为如果 同义 词集合A的所有特征被包含在 同义 词集合B 的特征集合 中, 那么B 是A的下位概念 , A是B的上位概念 。 比如“ 水果” 和“ 苹果” , 苹果包含了水果的所有特征 , 但是水果不具备 苹果的独有特征 , 因此苹果 是水果 的子类是下位关系 , 而水果是苹 果的父类是上位关系 。
本分类等等。 本文在相关研究的基础上除 了考虑路径外考虑 了节点所在树 中的深度和宽度, 提 出一种基于wo r d Ne t 语义相似度的改进算法。
语义相似度计算
语义相似度计算目前,语义相似度计算已经成为了自然语言处理领域中的一个研究热点,各种模型和算法不断涌现。
在本文中,我们将对语义相似度计算的基本概念和常用方法进行介绍,并且讨论一些当前研究中的热点问题和挑战。
## 语义相似度的定义和挑战语义相似度衡量的是两个句子或短语之间的语义相似程度。
在计算语义相似度时,我们通常会考虑到两个句子或短语之间的含义、单词的语义以及语法结构等因素。
然而,要准确地计算出两个句子之间的语义相似度并不是一件容易的事情,因为自然语言的含义通常是多样化、模糊不清的,而且受到语言表达方式的限制。
在计算语义相似度时,我们需要克服一些挑战和困难。
首先,要考虑到句子或短语之间的多样性。
同一句话可以有多种表达方式,而这些表达方式的语义可能是相似的,但又不尽相同。
其次,要考虑到语言的歧义性。
自然语言中存在着很多的歧义现象,一个词汇可以有多种不同的含义,这就增加了语义相似度计算的难度。
此外,要考虑到语言的多义性。
一个句子中的一些词汇可能具有多个含义,这就增加了语义相似度计算的复杂性。
## 语义相似度计算的常用方法为了克服这些挑战和困难,研究人员提出了许多语义相似度计算的方法和模型。
这些方法和模型大致可以分为基于知识的方法和基于数据的方法两种。
基于知识的方法通常利用词汇语义资源(如WordNet)来计算语义相似度。
其中,常用的算法包括基于路径的方法、基于信息内容的方法和基于语义子空间的方法等。
基于路径的方法通过计算两个词之间在WordNet中的最短路径来计算它们的语义相似度。
基于信息内容的方法则是利用词汇在语料库中的分布信息来计算它们的语义相似度。
而基于语义子空间的方法则是利用词汇在一个高维语义空间中的向量表示来计算它们的语义相似度。
这些方法在一定程度上可以解决语义相似度计算中的多样性、歧义性和多义性问题。
另一方面,基于数据的方法则是利用机器学习和深度学习技术来计算语义相似度。
其中,常用的方法包括基于词向量的方法、基于神经网络的方法和基于迁移学习的方法等。
一种基于WordNet和Corpus Statistics的语义相似性计算方法
语 义相 似度 问题 上有 效.
关键 词 :语义 相似 性 ;布 朗词 集 ;I 式 C模
中 图分 类号 : P 9 . T 311 文献 标 志码 : A 文章 编 号 :1 7 -4 9 2 1 ) 50 1 -6 6 15 8 ( 0 0 0 -8 1 0
( ol eo o p t c nea dTcn l y Jl n e i , h ncu 3 0 2 hn ) C lg C m ue S i c n ehoo , inU i rt C ag h n10 1 ,C i e f r e g i v sy a
Ab t c :W ef s p o o e e t o ac lt g s ma t i l r y p r mee n o ma in c n e t T e sr t a i t r p s d a n w meh d c lu ai e n i smi i a a t ri fr t o t n . h r n c a t o
语 义 相 似 性 计 算 方 法
张东娜 , 周春光 , 彦斌 , 刘 郭东 伟
( 吉林 大学 计算机科 学与技术学 院,长春 10 1 ) 3 0 2
摘 要 : 出 一种新 的基于 Wod e 和 文本 集 语 义 参 数 I 的计 算 方 法 ,通 过 综 合 考 虑 概 念 在 提 rN t c Wod e 中语义 信 息 以及 数据 集 中的概 率信 息 ,即概 念 的 自信 息 ,同 时利 用 新 的参 数 考 虑概 rN t 念 对 在 Wod e rN t中的共 享信 息 ,设 计 了一 种通 用 的概 念语 义 相 似 性 计算 方 法 ,该 方 法 简 化 了 传 统语 义 相似 性 算 法 ,并解 决 了语 义相 似 性计 算领 域 的 相 关 问题 ,可 以应 用在 信 息 抽 取 、信
语义相似度计算
语义相似度计算语义相似度计算是自然语言处理领域的一个重要任务,它旨在衡量两个词语、短语或句子之间的语义相似程度。
在实际应用中,语义相似度计算可以帮助机器理解语言,从而实现诸如信息检索、问答系统、机器翻译等任务。
现在我们将介绍几种常用的语义相似度计算方法:1. 基于词向量的方法:词向量是将词语映射到一个高维实数向量空间的表示方法。
在这种方法中,可以使用预训练的词向量模型(如Word2Vec、GloVe、FastText等)将词语表示为向量,然后通过计算两个词向量之间的相似度(如余弦相似度、欧氏距离、曼哈顿距离等)来衡量它们之间的语义相似度。
2. 基于词汇语义资源的方法:除了词向量外,还可以利用词汇语义资源(如WordNet、PPDB等)来计算语义相似度。
这些资源中包含了词语之间的语义关系(如同义词、上下义词、反义词等),可以通过这些关系计算词语的语义相似度。
3. 基于深度学习的方法:深度学习模型(如Siamese神经网络、BERT、ELMO 等)在语义相似度计算任务中也取得了很好的效果。
这些模型可以学习词语、短语或句子的语义表示,然后通过模型的输出来计算它们之间的语义相似度。
4. 基于语义图的方法:语义图是一种将词语表示为节点、语义关系表示为边的图结构。
在语义相似度计算中,可以利用语义图中的节点和边来计算词语之间的语义相似度。
这种方法可以很好地捕捉词语之间的语义关系,从而提高语义相似度计算的准确性。
总的来说,语义相似度计算是一个复杂而重要的任务,在实际应用中需要综合考虑不同的方法和技术。
通过不断的研究和实践,我们可以提高语义相似度计算的准确性和效率,从而更好地帮助机器理解语言,实现更多的自然语言处理任务。
希望以上介绍能够对语义相似度计算有所帮助。
WordNet中概念语义相似度IC参数模型研究
D :03 7 8i n10 .3 1 0 11.3 文 章编 号 :028 3 (0 1 1. 180 文献 标识码 : 中图分类号 : P 4 OI 1. 8 .s. 28 3 . 1 . 0 5 7 s 0 2 9 10 .3 12 1) 90 2 .4 A T 1
BI AN e x n . s a c n m o l o C a a t r f r s ma t i l r t f c n e t i o d t Zh n i g Re e r h o de f I p r me e o e n i smia iy o o c p n W r Ne . mp t r En i e r c Co u e gn e —
Ke r s n o ain C ne tI ) sma t i l t ; rNe ; x n my s u t e y wo d :I fr t o tn (C ;e ni s a y Wb d tt o o t c r m o c mi r i a r u
摘
要 : 出了一个新 的用 于计 算Wod e中概念的语 义相似度 的 I ( 息 内容 ) 。该模 型以 Wo N t i a 系为基础 , 给 r t N C信 模型 r e的 s 1 基于路径的相似度算法 .
该 类算法是 以两个概 念在 Wod ti a 系树 中的路径 rNe s 关
距 离 , 其 公共 父 节 点 在树 中的 深度 为 参 数 来计 算 相 似 度 及 的 。一般情 况下 , 两概 念间 的路径越长 , 说明两概 念相似 度越
C m ue n iern n A p i t n 计算机工程与应用 o p tr gn eiga d p l ai s E c o
wordnet介绍
)作为一般词典的WordNet (WordNet as a dictionary)· WordNet跟传统的词典相似的地方是它给出了同义词集合的定义以及例句。
在同义词集合中包含对这些同义词的定义。
对一个同义词集合中的不同的词,分别给出适合的例句来加以区分。
(七)WordNet中的关系(relations in WordNet)·不同句法词类中的语义关系类型也不同,比如尽管名词都动词都是分层级组织词语之间的语义关系,但在名词中,上下位关系是hyponymy关系,而动词中是troponymy关系;动词中的entailment(继承)关系有些类似名词中的meronymy(整体部分)关系。
名词的meronymy关系下面还分出三种类型的子关系(见“WordNet 中的名词”部分)。
(八)网球问题(the tennis problem)· WordNet是基于同义性和反义(对义)性来描述词语和概念之间的各种语义关系类型的。
由于WordNet的注意力不是在文本和话语篇章水平上来描述词和概念的语义,因此WordNet中没有包含指示词语在特定的篇章话题领域的相关概念关系。
例如,WordNet中没有将racquet(网球拍)、 ball(球)、net(球网)等词语以一定方式联系到一起。
Roger Chaffin在一封私人信笺中,曾把这类问题称为“tennis problem”(网球问题),指的就是如何把racquet、ball、net、court game (场地比赛);或者把physician(内科医生)跟hospital(医院)联系到一起。
这对电子词典来说,是一个挑战。
已经有一些相关的研究工作在探索如何从WordNet 中包含的词汇和概念之间的语义关系,来推导出话题信息。
Hirst和St-Onge描述了一种所谓的“词汇链”(lexical chain)的应用方法。
“词汇链”是在基于名词的语义关系构成的上下文中的名词的序列。
文本相似度计算研究进展综述
中图分类号: TP 391. 1
文献标志码: A
A survey on research progress of text similarity calculation
WANG Hanru,ZHANG Yangsen
( Computer School,Beijing Information Science & Technology University,Beijing 100101,China)
( T1,T2,…,Tn) 构成了一个文档向量空间,采用空 间向量间的余弦相似度计算文本相似度。
VSM 的缺陷在于: ①对于大规模语料,VSM 会 产生高维稀疏矩阵,导致计算复杂度增加; ② VSM 假设文本中的各个特征词独立存在,割裂了词与词 之间的关系以及段落间的层次关系。因而用向量空 间进行文本相似度计算时,通常改进 TF-IDF 的计算 方法以提高精确度。例如,张奇等[4]将文本用 3 个 向量( V1,V2,V3) 表示,V1 中的每一维代表特征词 的 TF-IDF 值,V2 根据一个 bi-gram 是否出现取值 0 或 1,V3 使用 tri-gram 信息,取值同 V2,用回归模型 将 3 对向量相似度综合得到句子的相似度; 华秀 丽[5]等利用 TF-IDF 选择特征项,利用知网计算文本 的语义相似度。 2. 2 基于主题模型:
1) 语言的多义同义问题。同一个词在不同的 语境下,可以 表 达 不 同 的 语 义,例 如“苹 果 ”既 可 以 表示水果,也可以表示科技公司; 同理,相同的语义 也可以由不同的词表达,例如“的士”、“计程车”都 可以表示出租车。
以检测出两段文本的抄袭程度; 在文本聚类方面,相 似度阈值可以作为聚类标准; 在自动文摘中,相似度 可以反映局部信息拟合主题的程度。
基于语义相似度的文本相似度计算研究
基于语义相似度的文本相似度计算研究近年来,随着互联网应用不断深入,文本数据的增长速度呈现出爆炸式增长,如何对海量的文本数据进行快速、准确的相似度计算已经成为了计算机科学与技术领域研究的热点问题之一。
文本相似度计算是指对两个或多个文本进行比较,从而确定它们之间的相似程度。
目前,基于语义相似度的文本相似度计算已经成为了文本相似度计算的主流方法之一。
一、基本概念1. 文本相似度计算文本相似度计算就是比较两个或多个文本之间的相似度。
它是自然语言处理中一个重要的问题,尤其是在信息检索、文档分类以及文本聚类等领域。
目前,文本相似度计算主要包括编辑距离算法、基于向量空间模型的文本相似度计算、基于语义相似度的文本相似度计算等。
2. 语义相似度语义相似度是指两个或多个单词、短语、句子等语言单位之间的语义相似程度。
在文本相似度计算中,语义相似度的计算方法主要有基于知识库的方法、基于语料库的方法和基于词向量的方法等。
二、基于语义相似度的文本相似度计算在基于语义相似度的文本相似度计算中,主要是通过计算文本之间的语义相似度来确定它们之间的相似度。
目前,常用的计算方法主要有以下三种:1. 基于知识库的方法基于知识库的方法是通过构建知识图谱,利用知识图谱中各个节点之间的关联关系来计算文本之间的语义相似度。
目前,常用的知识库有WordNet、ConceptNet等。
采用基于知识库的方法计算文本相似度的方法的优点是能够考虑到语义之间的关联关系,而缺点是计算复杂度较高。
2. 基于语料库的方法基于语料库的方法是通过对大规模的语料库进行语言学分析,利用各种词汇、语法、句法和语义特征,从而确定文本之间的语义相似度。
这种方法的优点是计算复杂度较低,而缺点在于准确度较低。
3. 基于词向量的方法基于词向量的方法是通过利用机器学习方法,将单词转化成向量的形式,从而计算文本之间的语义相似度。
目前,常用的词向量模型有Word2Vec、GloVe和FastText等。
WordNet中基于IC的概念语义相似度算法
树 中的距离信息 ,由此提高算法性能 。 出一种计算概念 I 的新方法 , 给 c值 通过考虑概念 的子节点数及概念所处 Wo N t r e 分类树中的深度 , d 使计算结果更精确 。与其他 5 种语义相似度算法的比较结果表 明 ,该算法能够求得 更准确 的相似度 。
关健词 :信息 内容 ;Wo N t r e本体 ;语义相似度 ;子节点 ;分类树 d
并得到 。这些单词对 的选择范 围是从 同义到语义 不相 关。根
3 I . C参数 的改进 1 概念 的 I 值指 的是概念所能提供 的信息量 ,I c c表示为
一
据单词对 的相似程度 ,人工给它们打分 ,相 似度值 的打分范
围为 00 40 .~ .。
lpc 其含义 是一个概念 C的出现概率越大 , g (), 则该概念提
c n i e s t e I v l e o on e t n h i o i o n t e i a t x n my te n W o d t o sd r h C a u f c c p s a d t er p st ns i h s a o o r e i i r Ne ,wh c mp o e h e o m a c f t e mo e i h i r v s t e p r r n e o h d l f
一
基 金项 日:山东省优秀 中青年科学 家科 研奖励基金 资助项 目(S0 B 2
1 D 1) 0 X0 2
作者1介 : 时 王艳娜(96 ) , 17 - ,女 讲师、硕士 ,主研方向 : 语义相似
度算法 , 智能信息处理 , 图像处理 ; 周子 力, 副教 授、 博士 ; 何
硕士研究 生
所有领 域概念及其 关系 的知识 网络 ,其 中的概念及关系是 由
基于互信息的概念语义相似度算法
基于互信息的概念语义相似度算法种晓阳;周子力;吴玲玲【摘要】With the development of information technology, the conceptual semantic similarity computation now becomes a hot research topic. A novel algorithm based on mutual information for calculating conceptual semantic similarity in WordNet is proposed. This algorithm, withIC(Information Content) model as the basis, the conditional probability of neighboring concept as the edge weighting information, and the mutual information as the semantic similarity, considers the depth and density of concept in the taxonomic tree of WordNet, even including the route factor. Experiments show that the similarity calculated by the proposed method has fairly good correlation with the similarity by artificial method, and the similarity is even more accurate.%随着信息技术的发展,概念语义相似度计算成为当前的一个研究热点。
本文提出一种基于互信息的概念语义相似度算法,以IC概念信息内容模型为基础,将相邻概念的条件概率作为边的权值,将概念间的互信息作为语义相似度,不仅考虑概念所处分类树的深度、密度,而且将路径因素考虑在内。
基于HowNet的词汇语义倾向计算
基于HowNet的词汇语义倾向计算作者:朱嫣岚, 闵锦, 周雅倩, 黄萱菁, 吴立德, ZHU Yan-lan, MIN Jin, ZHOU Ya-qian , HUANG Xuan-jing, WU Li-de作者单位:复旦大学,计算机科学与工程系,上海,200433刊名:中文信息学报英文刊名:JOURNAL OF CHINESE INFORMATION PROCESSING年,卷(期):2006,20(1)被引用次数:119次参考文献(9条)1.Vasileios Hatzivassiloglou;Kathleen R McKeown Predicting the semantic orientation of adjectives 19972.Turney Peter;Littman Michael Measuring praise and criticism:Inference of semantic orientation from association[外文期刊] 2003(04)3.Turney Peter Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews[外文会议] 20024.BoPang;LillianLee Shivakumar Vaithyanathan.Thumbsup? Sentimentclessificationusingmachinelearningtechniques 20025.Bo Pang;Lillian Lee Seeing Stars:Exploiting Class Relationships for Sentiment Categorization with respect to Rating Scales[外文会议] 20056.K Dave;S Lawrence;DM Pennock Mining the peanut gallery:opinion extraction and semantic classification of product reviews 20037.Bing Liu;Minqing Hu;Junsheng Cheng Opinion observer:analyzing and comparing opinions on the Web 20058.HowNet HowNet's Home Page9.刘群;李素建基于《知网》的词汇语义相似度的计算 2002本文读者也读过(3条)1.赵林.胡恬.黄萱菁.吴立德基于知网的概念特征抽取方法[期刊论文]-通信学报2004,25(7)2.许云.樊孝忠.张锋.XU Yun.FAN Xiao-Zhong.ZHANG Feng基于知网的语义相关度计算[期刊论文]-北京理工大学学报2005,25(5)3.熊德兰.程菊明.田胜利.XIONG De-lan.CHENG Ju-ming.TIAN Sheng-li基于HowNet的句子褒贬倾向性研究[期刊论文]-计算机工程与应用2008,44(22)引证文献(118条)1.贾珊珊.邸书灵.范通让基于表情符号和情感词的文本情感分析模型[期刊论文]-河北省科学院学报 2013(2)2.甘小红.张兆年基于多特征融合的中文情感分类方法研究[期刊论文]-图书情报工作 2012(21)3.刘培奇.凡星.段中兴倾向性文本的概念图过滤技术的研究[期刊论文]-微电子学与计算机 2012(12)4.徐群岭一种新型的中文文本情感计算模型[期刊论文]-计算机应用与软件 2011(6)5.张素智.孙培锋基于KSVM的网络评论情感分类研究[期刊论文]-郑州轻工业学院学报(自然科学版) 2011(3)6.李娟.张全.贾宁中文词语倾向性分析处理[期刊论文]-计算机工程与应用 2009(2)8.程亮.何志浩.李留英.李龙中文BBS内容安全监控模型构想[期刊论文]-情报杂志 2007(12)9.李华.储荷兰.高旻中文网络评论观点词汇语义褒贬倾向性判断[期刊论文]-计算机应用 2012(11)10.庞娜增量学习算法对文本情感识别模型的改进[期刊论文]-电脑开发与应用 2011(7)11.何凤英基于语义理解的中文博文倾向性分析[期刊论文]-计算机应用 2011(8)12.彭学仕.孙春华面向倾向性分析的基于词聚类的基准词选择方法[期刊论文]-计算机应用研究 2011(1)13.任小燕中文情感分析综述[期刊论文]-科技信息 2011(31)14.孙春华.刘业政.彭学仕一种含强度的基准词选择和词汇倾向性判别方法[期刊论文]-情报学报 2011(12)15.杨经.林世平基于SVM的文本词句情感分析[期刊论文]-计算机应用与软件 2011(9)16.李娟.张全.贾宁.臧翰芬基于模板的中文人物评论意见挖掘[期刊论文]-计算机应用研究 2010(3)17.党蕾.张蕾一种基于知网的中文句子情感倾向判别方法[期刊论文]-计算机应用研究 2010(4)18.程显毅.杨天明.朱倩.蔡月红基于语义倾向性的文本过滤研究[期刊论文]-计算机应用研究 2009(12)19.宋施恩.樊兴华基于词共现和词上下文的领域观点词抽取方法[期刊论文]-计算机工程与设计 2013(11)20.陈涛.徐睿峰.吴明芬.刘滨一种基于情感句模的文本情感分类方法[期刊论文]-中文信息学报 2013(5)21.黄硕.周延泉基于知网和同义词词林的词汇语义倾向计算[期刊论文]-软件 2013(2)22.龙珑.邓伟绿色网络博文倾向性分析算法研究[期刊论文]-计算机应用研究 2013(4)23.程传鹏.王海龙情感倾向判断中基准词的选择[期刊论文]-智能系统学报 2013(4)24.李寿山.黄居仁基于Stacking组合分类方法的中文情感分类研究[期刊论文]-中文信息学报 2010(5)25.张健.钱杰.徐茂兴网络评论观点抽取的研究[期刊论文]-浙江工业大学学报 2010(4)26.沈凤仙.朱巧明基于特征倾向性的网页特征提取方法研究[期刊论文]-计算机工程与设计 2009(16)27.梁坤.古丽拉·阿东别克基于SVM的中文新闻评论的情感自动分类研究[期刊论文]-电脑知识与技术 2009(13)28.崔鸿达.蒋朝惠基于语义倾向性分析的不良文本检测模型研究[期刊论文]-贵州大学学报(自然科学版)2013(3)29.周胜臣.瞿文婷.石英子.施询之.孙韵辰中文微博情感分析研究综述[期刊论文]-计算机应用与软件 2013(3)30.李国林.万常选.边海容.杨莉.钟敏娟基于语素的金融证券域文本情感探测[期刊论文]-计算机研究与发展2011(z2)31.李培.何中市.黄永文基于依存关系分析的网络评论极性分类研究[期刊论文]-计算机工程与应用 2010(11)32.闻彬词语情感倾向性识别[期刊论文]-咸宁学院学报 2010(6)33.赵煜.蔡皖东.樊娜.李慧贤利用词汇分布相似度的中文词汇语义倾向性计算[期刊论文]-西安交通大学学报2009(6)34.马海兵.刘永丹.王兰成.李荣陆三种文档语义倾向性识别方法的分析与比较[期刊论文]-现代图书情报技术2007(4)35.王兰成.徐震基于情感本体的主题网络舆情倾向性分析[期刊论文]-信息与控制 2013(1)36.魏韡.向阳一种新的中文词语情感极性判别方法[期刊论文]-微电子学与计算机 2013(5)37.张莉跨领域中文评论的情感分类研究[期刊论文]-计算机应用研究 2013(3)38.李迎凯.徐小良一种改进的基于知网的句子相似度计算方法[期刊论文]-电子科技 2012(7)39.邓箴一种基于本体的词汇语义倾向计算[期刊论文]-中小企业管理与科技 2012(13)40.吴丽华.冯建平.曹均阔中文网络评论的IT产品特征挖掘及情感倾向分析[期刊论文]-计算机与数字工程41.张瑞SMS.网络舆情信息监控系统的设计与实现[期刊论文]-现代情报 2012(3)42.金宇.朱洪波.王亚强.陈黎.于中华基于直推式学习的中文情感词极性判别[期刊论文]-计算机工程与应用2011(34)43.宋晓雷.王素格.李红霞.李德玉基于概率潜在语义分析的词汇情感倾向判别[期刊论文]-中文信息学报 2011(2)44.王晓东.刘倩.张征情感词汇Ontology驱动的话题倾向性计算[期刊论文]-计算机工程与应用 2011(27)45.陈发鸿基于核方法的文本极性分类研究[期刊论文]-海峡科学 2011(8)46.杨昱昺.吴贤伟改进的基于知网词汇语义褒贬倾向性计算[期刊论文]-计算机工程与应用 2009(21)47.申晓晔.封化民.毋非基于语义的Web新闻内容倾向性分析框架[期刊论文]-郑州大学学报(理学版) 2009(1)48.徐琳宏.林鸿飞.杨志豪基于语义理解的文本倾向性识别机制[期刊论文]-中文信息学报 2007(1)49.杨国泰.陈启安一种预测文本情感分类词语权值的算法[期刊论文]-电脑知识与技术 2013(12)50.马晓玲.金碧漪.范并思中文文本情感倾向分析研究[期刊论文]-情报资料工作 2013(1)51.任远.巢文涵.周庆.李舟军基于话题自适应的中文微博情感分析[期刊论文]-计算机科学 2013(11)52.张梅.段建勇概念与属性间语义约束知识的获取方法研究[期刊论文]-语言文字应用 2012(1)53.丁晟春.文能.蒋婷.孟美任基于CRF模型的半监督学习迭代观点句识别研究[期刊论文]-情报学报 2012(10)54.魏韡.向阳.陈千中文文本情感分析综述[期刊论文]-计算机应用 2011(12)55.赵鹏.何留进.孙凯.方薇基于情感计算的网络中文信息分析技术[期刊论文]-计算机技术与发展 2010(11)56.闻彬.何婷婷.罗乐.宋乐.王倩基于语义理解的文本情感分类方法研究[期刊论文]-计算机科学 2010(6)57.柳位平.朱艳辉.栗春亮.向华政.文志强中文基础情感词词典构建方法研究[期刊论文]-计算机应用 2009(10)58.杜伟夫.谭松波.云晓春.程学旗一种新的情感词汇语义倾向计算方法[期刊论文]-计算机研究与发展 2009(10)59.王素格.李德玉.魏英杰.宋晓雷基于同义词的词汇情感倾向判别方法[期刊论文]-中文信息学报 2009(5)60.李钝.乔保军.曹元大.万月亮基于语义分析的词汇倾向识别研究[期刊论文]-模式识别与人工智能 2008(4)61.卢玲.王越.杨武一种基于朴素贝叶斯的中文评论情感分类方法研究[期刊论文]-山东大学学报(工学版)2013(6)62.朱俭文本情感研究综述[期刊论文]-软件导刊 2012(9)63.路冬媛.李秋丹一种融合读者心情要素的新闻推送方法[期刊论文]-中文信息学报 2011(3)64.陈岳峰.苗夺谦.李文.张志飞基于概念的词汇情感倾向识别方法[期刊论文]-智能系统学报 2011(6)65.宋乐.何婷婷.王倩.闻彬极性相似度计算在词汇倾向性识别中的应用[期刊论文]-中文信息学报 2010(4)66.孟凡博.蔡莲红.陈斌.吴鹏文本褒贬倾向判定系统的研究[期刊论文]-小型微型计算机系统 2009(7)67.白鸽.左万利.赵乾坤.曲仁镜使用机器学习对汉语评论进行情感分类[期刊论文]-吉林大学学报(理学版)2009(6)68.孙宏纲.陆余良中文博客主题情感句自动抽取研究[期刊论文]-计算机工程与应用 2008(20)69.孙宏纲.陆余良.刘金红.龚笔宏基于HowNet的VSM模型扩展在文本分类中的应用研究[期刊论文]-中文信息学报2007(6)70.徐鹏基于直觉模糊推理的网页在线评论情感倾向分类[期刊论文]-计算机应用与软件 2013(6)71.金鑫.李小腾.朱建明突发事件网络舆情的演变机制及其情感性分析研究[期刊论文]-现代情报 2012(12)72.王晓东.李永波.郑颖基于模板匹配的网络评论倾向性分析[期刊论文]-计算机工程与应用 2012(32)73.王晓莉.古里拉·阿东别克哈萨克语语句情感识别研究初探[期刊论文]-计算机应用与软件 2011(8)75.姚天昉.娄德成汉语语句主题语义倾向分析方法的研究[期刊论文]-中文信息学报 2007(5)76.杨震.赖英旭.段立娟.李玉鑑基于上下文重构的短文本情感极性判别研究[期刊论文]-自动化学报 2012(1)77.王铁套.王国营.陈越.黄惠新基于语义模式与词汇情感倾向的舆情态势研究[期刊论文]-计算机工程与设计2012(1)78.代大明.王中卿.李寿山.李培峰.朱巧明基于情绪词的非监督中文情感分类方法研究[期刊论文]-中文信息学报2012(4)79.李芳.何婷婷.宋乐评价主题挖掘及其倾向性识别[期刊论文]-计算机科学 2012(6)80.陈铭.李生红.陈秀真基于句式结构的评论倾向性识别方法[期刊论文]-通信技术 2011(2)81.万月亮.朱贺军.刘宏志基于网页结构化倾向的网页分类方法研究[期刊论文]-信息网络安全 2009(9)82.江敏.肖诗斌.王弘蔚.施水才一种改进的基于《知网》的词语语义相似度计算[期刊论文]-中文信息学报2008(5)83.文涛.杨达.李娟中文软件评论挖掘系统的设计与实现[期刊论文]-计算机工程与设计 2013(1)84.杨频.李涛.赵奎一种网络舆情的定量分析方法[期刊论文]-计算机应用研究 2009(3)85.代大明.李寿山.李培峰.朱巧明基于情绪词与情感词协作学习的情感分类方法研究[期刊论文]-计算机科学2012(12)86.LI Dun.MA Yong-tao.GUO Jian-li Words semantic orientation classification based on HowNet[期刊论文]-中国邮电高校学报(英文版) 2009(1)87.侯敏.滕永林.李雪燕.陈毓麒.郑双美.侯明午.周红照话题型微博语言特点及其情感分析策略研究[期刊论文]-语言文字应用 2013(2)88.李寿山.李逸薇.黄居仁.苏艳基于双语信息和标签传播算法的中文情感词典构建方法[期刊论文]-中文信息学报 2013(6)89.常晓龙.张晖融合语素特征的中文褒贬词典构建[期刊论文]-计算机应用 2012(7)90.赵妍妍.秦兵.刘挺文本情感分析[期刊论文]-软件学报 2010(8)91.侯锋.王传廷.李国辉网络意见挖掘、摘要与检索研究综述[期刊论文]-计算机科学 2009(7)92.乐国安.董颖红.陈浩.赖凯声在线文本情感分析技术及应用[期刊论文]-心理科学进展 2013(10)93.李勇敢.周学广.孙艳.张焕国结合依存关联分析和规则统计分析的情感词库构建方法[期刊论文]-武汉大学学报(理学版) 2013(5)94.田超.朱青.覃左言.李鹏基于评论分析的查询服务推荐排序[期刊论文]-小型微型计算机系统 2011(9)95.张彬.杨志晓基于基准词的文本情感倾向性研究[期刊论文]-电脑知识与技术 2011(8)96.王翠波基于文本情感挖掘的企业技术竞争情报采集模型研究[期刊论文]-图书情报工作 2010(14)97.张亮.尹存燕.陈家骏基于语义树的中文词语相似度计算与分析[期刊论文]-中文信息学报 2010(6)98.杨超.冯时.王大玲.杨楠.于戈基于情感词典扩展技术的网络舆情倾向性分析[期刊论文]-小型微型计算机系统2010(4)99.李斌.彭勤科.张晨突发公共事件网络在线评论序列的特征分析[期刊论文]-计算机应用研究 2008(9)100.徐军.丁宇新.王晓龙使用机器学习方法进行新闻的情感自动分类[期刊论文]-中文信息学报 2007(6) 101.徐健基于网络用户情感分析的预测方法研究[期刊论文]-中国图书馆学报 2013(3)102.周杰.林琛.李弼程基于机器学习的网络新闻评论情感分类研究[期刊论文]-计算机应用 2010(4)103.郑逢强.林磊.刘秉权.孙承杰《知网》在命名实体识别中的应用研究[期刊论文]-中文信息学报 2008(5)104.潘怡.叶辉.邹军华E-learning评论文本的情感分类研究[期刊论文]-开放教育研究 2014(2)105.厉小军.戴霖.施寒潇.黄琦文本倾向性分析综述[期刊论文]-浙江大学学报(工学版) 2011(7)106.李实.叶强.李一军.罗嗣卿挖掘中文网络客户评论的产品特征及情感倾向[期刊论文]-计算机应用研究2010(8)107.王海.冯向前.钱钢网页在线评论情感倾向的直觉模糊分类[期刊论文]-计算机工程与应用 2013(1)108.周咏梅.杨佳能.阳爱民面向文本情感分析的中文情感词典构建方法[期刊论文]-山东大学学报(工学版)2013(6)109.施寒潇.厉小军主观性句子情感倾向性分析方法的研究[期刊论文]-情报学报 2011(5)110.殷春霞.彭勤科利用复杂网络为自由评论鉴定词汇情感倾向性[期刊论文]-自动化学报 2012(3)111.田超.朱青.覃左言.李鹏基于评论分析的查询服务推荐排序[期刊论文]-小型微型计算机系统 2011(9) 112.杨超.冯时.王大玲.杨楠.于戈基于情感词典扩展技术的网络舆情倾向性分析[期刊论文]-小型微型计算机系统 2010(4)113.文能.丁晟春商品主观评论信息的倾向性分析综述[期刊论文]-情报杂志 2010(12)114.傅向华.刘国.郭岩岩.郭武彪中文博客多方面话题情感分析研究[期刊论文]-中文信息学报 2013(1)115.郗亚辉.张明.袁方.王煜产品评论挖掘研究综述[期刊论文]-山东大学学报(理学版) 2011(5)116.姚天昉.程希文.徐飞玉.汉思·乌思克尔特.王睿文本意见挖掘综述[期刊论文]-中文信息学报 2008(3) 117.王洪伟.刘勰.尹裴.廖雅国Web文本情感分类研究综述[期刊论文]-情报学报 2010(5)118.赵妍妍.秦兵.刘挺文本情感分析[期刊论文]-软件学报 2010(8)引用本文格式:朱嫣岚.闵锦.周雅倩.黄萱菁.吴立德.ZHU Yan-lan.MIN Jin.ZHOU Ya-qian.HUANG Xuan-jing.WU Li-de基于HowNet的词汇语义倾向计算[期刊论文]-中文信息学报 2006(1)。
基于不同语义资源的词语相似度算法综述
基于不同语义资源的词语相似度算法综述词语相似度研究作为人工智能领域中一项重要研究,被广泛应用于信息检索,词义消歧,机器翻译,语音自动摘要,分类和聚类等方面。
现有的词语相似度算法主要分为基于语义资源和基于统计两类方法,第一种也被称为基于本体的词语相似度算法,主要根据词语所处的语境来反应词语的词义,即根据不同的层次结构组织中词所处的上下位与同位关系来计算词语的相似度。
另一种也被称为基于大规模语料库的算法,研究上下文环境中各个词语之间出现的某种规律,利用统计技术计算的一种无监督机器学习的方法。
本文重点介绍基于不同的语义资源的词语相似度算法,对词语相似度算法的未来做了展望。
标签:词语相似度;语义资源;维基百科1 引言随着云时代的来临,大数据越来越受人们关注。
伴随着办公室无纸化推行,人们逐渐习惯于利用计算机进行数字化处理数据,自然语言处理的研究也飞速发展。
词语是自然语言处理的最小单位,词语相似度的计算在自然语言处理的各个领域占有很重要的地位。
词语相似度计算研究的是计算两个词语相似度的方法,词语之间有着非常复杂的关系,应用中常常将这种复杂的关系用简单的数量来度量。
可见词语相似度研究有广阔的应用前景和重大研究价值。
本文综合介绍了近年来基于几种常见语义资源的词语相似度算法和最新研究成果,对该领域的发展前景做出了展望。
2 基于Wordnet的方法Wordnet是由普林斯顿大学的心理学家,语言学家和计算机工程师联合设计的一个在线词典参考系统,在认知语言学理论下推动形成的覆盖范围非常广阔的词汇语义网。
Wordnet不像传统的在线词典按照字母排序构造而成,这个系统中的词语根据同义关系,反义关系,部分关系聚类分为代表某一类词汇概念的相关集合。
并在这些聚类后形成的集合之间建立起不同关系。
Wordnet主要代表算法是通过计算两个词语在本体结构分类的路径长度,本体库的统计特征,概念层次树上下位关系和同位关系或对词语涉及的边进行处理。
语义文本相似度计算方法研究综述
语义文本相似度计算方法研究综述目录一、内容概括 (2)1.1 研究背景 (3)1.2 研究意义 (3)1.3 文献综述目的与结构 (5)二、基于词向量的语义文本相似度计算 (5)2.1 词向量表示方法 (7)2.2 基于词向量的相似度计算方法 (8)2.3 词向量模型优化 (9)三、基于深度学习的语义文本相似度计算 (10)3.1 循环神经网络 (11)3.2 卷积神经网络 (13)3.3 自注意力机制 (14)四、基于图的方法 (15)4.1 图表示方法 (16)4.2 图上采样与聚类 (18)4.3 图匹配算法 (19)五、混合方法 (21)5.1 结合多种表示方法的混合策略 (22)5.2 不同任务间的知识迁移 (23)六、评估与优化 (24)6.1 评估指标 (25)6.2 算法优化策略 (26)七、应用领域 (28)7.1 自然语言处理 (29)7.2 信息检索 (30)7.3 问答系统 (32)7.4 多模态语义理解 (33)八、结论与展望 (34)8.1 研究成果总结 (35)8.2 现有方法的局限性 (37)8.3 未来发展方向 (38)8.4 对研究者的建议 (39)一、内容概括语义文本表示与相似度计算方法:首先介绍了语义文本表示的基本概念和方法,包括词向量、句子向量、文档向量等,以及这些表示方法在相似度计算中的应用。
基于统计的方法:介绍了一些基于统计的文本相似度计算方法,如余弦相似度、Jaccard相似度、欧几里得距离等,分析了它们的优缺点及应用场景。
基于机器学习的方法:介绍了一些基于机器学习的文本相似度计算方法,如支持向量机(SVM)、朴素贝叶斯(NB)、最大熵模型(ME)等,讨论了它们的原理、优缺点及适用性。
深度学习方法:重点介绍了近年来兴起的深度学习方法在语义文本相似度计算中的应用,如循环神经网络(RNN)、长短时记忆网络(LSTM)、门控循环单元(GRU)等,分析了它们在文本相似度计算中的性能及局限性。
一种基于WordNet语义相似度的改进算法
一种基于WordNet语义相似度的改进算法WordNet是一个广泛使用的英语词汇数据库,其中单词被组织成同义词集,每个同义词集表示一组拥有相似含义的单词。
WordNet已经广泛用于许多自然语言处理任务中,例如文本分类,语言翻译,信息检索等。
然而,在WordNet的语义相似度评估中,诸如“爱”和“喜欢”这样具有非常相似含义的单词,却被标记为相对不相似的单词。
这可能导致用WordNet进行文本挖掘和信息检索时产生一定的误导。
因此,一种基于WordNet语义相似度的改进算法显得尤为重要。
近年来,一种基于词向量的改进算法已经被广泛应用于自然语言处理的任务中。
该算法使用隐式语义分析将单词向量化,这些向量在实现语义相似度方面的表现比WordNet更加优良。
这些向量被称为词向量,并且可以用于衡量两个单词的语义相似度。
通常使用余弦相似度或欧几里得距离来计算。
然而,由于WordNet中的单词数量众多,对整个系统进行向量化是相对困难的,并且也需要大量的计算资源和时间。
因此,一种策略是使用WordNet中的相同同义词集中的单词的词向量,然后在这些词向量上计算相似度。
此外,我们可以使用WordNet的树形结构,以及从每个单词到它们对应的同义词集的路径长度来计算词汇相似度。
最后,将基于WordNet的相似度和词向量相似度结合起来,以得到更加准确的词汇相似度度量。
总之,基于WordNet语义相似度的改进算法可以有效提高文本挖掘和信息检索的准确性。
特别地,使用词向量的思路可以克服WordNet语义相似度的缺点,并且能够帮助我们更准确地刻画单词的含义。
例如,我们可以将“爱”和“喜欢”之间的关系描述为更加相近的相关性,从而使文本分析和检索更加容易。
该算法的研究和应用将我们的自然语言处理能力提升到了一定的高度。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
性 、信息搜 寻和捡索 、自动推理和 自然语 言处理。基于该共 享知识本体 ,提出了一种计算两概念语义相似度 的方法。根据该 方法实现 了一个计算程序模块 ,并将计算结果同人类的主观判 断进行 了比较 ,验证 了该 方法的有 效性 。该研 究工作可以在 面
向 We 知识 检 索领 域 中得 到应 用 ,还 可 以 为本 体 的 相 关研 究 提 供 一 定 的理 论 基础 。 b的
其中,weg t是连接 C. 的最短路径 .第 条边 的权值 。 ih ̄ C: } =
如果不考虑其它任何因素的影响,也即最简单的情况下,每 条边对语义距离计算的贡献部是相同的,树中两 点的最短路径 距离就是连接它们的最短路径t边的条数。所以起初,我们可以
把 树中所行边的权值都赋f为 1 f = ,即 w ihf 。 【 eg t=I
第2 9卷 第 1 期 2
2 0 年 J 08 2
湖 南 科技 学 院 学 报
J r a fH urh Uni r iyofSce ea d Eng n ei g ou n lo r a ve st inc n i e rn
Vo .9 NO.2 12 1 De . o8 c2o
( 2 )
对于一颗树 r的深度 D phT ,本文定义它 为树 中概念的最 et ) (
2 基于 W rNt的概念语义相似度 od e
2 语 义距 离与语 义相似度 . 1
() 3
同语义相似度一样 ,语义距离也是语言学中经常提到的一个
其中 ,c为树 T 中的任一概念 。按照本文 的定义 ,所有从概念 C
基 于 W rN t的概 念 语 义相似 度研 究 ode
李
摘
熙
徐德智
(. 南大 学 信 息 科 学 与 工程 学 院 ,湖 南 长沙 40 8 ,2 永州 职业 技 术 学 院 , 湖 南 永州 4 5 0) 1中 103 . 2 10
要 :Wod t是普林斯顿 大学的一 个研 究项 目,目标是建 立英语词汇及其词法关系的数据库 ,这将促进述公式,随着概念在树中所处的深度的增加,以它为
』-
Di ( , 2= >。 P h s C】 ) t C i h g
i =1
() 1
源点引出的所有边的权值都减小。这样 ,就保证了具有较大深度 的概念问的语义距离相对较小,也即相似度相对较大。 结合对树的宽度对边权值的影响,用晰 c1 ( 表示概念 C的宽 度,也即其孩子节点的数日,我们再次修改概念 C的权值:
关研究起步棚对较晚。 刘群 等利用_ 0 r 知网> ) 将两个概念语义表
达式 的整体相似 度分解 成一些义原对 的相 似度的组合。对 于义原 的相似度 ,则采 用了根据上下位关系得到语 义距离并进行转换 的 方法 。基于上述 研究现状 ,提 出一种基于 Wod e 概念相 似度度 一 rN t
1 引
言
随着语义网I的发展,概念的语义相似度计算以成研究热点。 l l 嗣外许多研究者利用了语义词典 Wod e2 rN t1 (中的同义词集组成的
树状层次体系结构 ,一种方法是考虑两个溉 念共享信息 的程度 , j
基于信息理论定义相似度计算方法;另一种采f了先计算两概念 } j
在树 中的语义距离 ,然后转化为语义相似 度的办法 。在国内 ,相
量方法。
对语义距离计算的影响应该逐渐减小。
同传统的定义一样 ,本文也定义一 个概 念 c 在树 中的深度 De ( 等于 该概念与树根 R的最短路径 中所包括的边 数,即 p C)
Dp ) ∑l e( = C
大深度,记作
De t( =ma ( p C) p hT) x De ( )
关 键词 :W O DN T 语 义距 离 ;语 义相 似度 ;主 观 判 断 R E;
中图 分类 号 :T 3 2 P 1
文献 标 识码 :A
文 章编 号 : 17- 2 9 (0 8 0 O 1一 2 63 2 1 20 )1一 15 O 然 而上述 方法 ,并未 考虑概 念在树中的深度问题 ,处于层次 树 中离 根较 远 的概 念 间的相 似度要 比离根 近 的概 念 间相似 度大 些 。这是 因为在层 次树 中, 自顶向下 ,概念 的分 类是由大到小 , 大 类问的相似度肯定 要小于 小类阃的 ,所 以概念 在树中所处的深 度是另一个需要考 虑的因索 ,也即处于树 中不 同深度的边我们应 该赋给不 同的权值 。当概念 由抽象逐渐变得具体 ,连接 它们 的边
wgc e ) i h
则高 。
南
这样,处于科同深度的概念宽度越大,其权值就越低,反之 1
但 是 , 我 们 发 现 , 对 于 任 意 概 念 C, 当
Wi( a e t ) 2 i ( ) d p rn( ) W d C 时,有 : C
收 稿 日期 :20 —0 ~ 1 08 9 4
概念。根据信息检索理论,两个概念间的语义距离越近,它们的
浯义相似程度越高,反之越低 。
2 语 义距 离的计算 . 2
引出的边具有相等的权值,方便起见,本文把从 C引出的边的权 值简称为概念 C的权值, 记作 w ih( 。 e t g C) 如果用 p rn( 表示概念 C的父节点, a e tC) 我们修改 C的权值 w ih ( eg tC):
作 者 简 介 :李 熙 (9 5 ) 17 一 ,讲 师 , 网络 工 程 师 , 中 南 大 学在 读 研 究 生 ,研 究 方 向为 语 义 WE B、 网络 安全 ;徐 德 智 (9 3 ,教 授 ,研 究 方 向为 语 义 网 WE 16 一) B、本 体 。
1
由 Wo N t 次树结构 我们很容易 的想到用两个概念在树 中 r e层 d
的最短路径距离来表示它们的语义距离。 我们定义, 两概念 C1 . C2 问的语义距离 Di ( ) s C, 为连接它们的最短路径上, 条边的权 t C: 2
值 的总和 ,即 :
n
w ih( =一D (一 eg tC)  ̄ e一 p) :C