基于WordNet的语义分布词典建设
基于WordNet的概念语义相似度研究
性 、信息搜 寻和捡索 、自动推理和 自然语 言处理。基于该共 享知识本体 ,提出了一种计算两概念语义相似度 的方法。根据该 方法实现 了一个计算程序模块 ,并将计算结果同人类的主观判 断进行 了比较 ,验证 了该 方法的有 效性 。该研 究工作可以在 面
向 We 知识 检 索领 域 中得 到应 用 ,还 可 以 为本 体 的 相 关研 究 提 供 一 定 的理 论 基础 。 b的
其中,weg t是连接 C. 的最短路径 .第 条边 的权值 。 ih ̄ C: } =
如果不考虑其它任何因素的影响,也即最简单的情况下,每 条边对语义距离计算的贡献部是相同的,树中两 点的最短路径 距离就是连接它们的最短路径t边的条数。所以起初,我们可以
把 树中所行边的权值都赋f为 1 f = ,即 w ihf 。 【 eg t=I
第2 9卷 第 1 期 2
2 0 年 J 08 2
湖 南 科技 学 院 学 报
J r a fH urh Uni r iyofSce ea d Eng n ei g ou n lo r a ve st inc n i e rn
Vo .9 NO.2 12 1 De . o8 c2o
( 2 )
对于一颗树 r的深度 D phT ,本文定义它 为树 中概念的最 et ) (
2 基于 W rNt的概念语义相似度 od e
2 语 义距 离与语 义相似度 . 1
() 3
同语义相似度一样 ,语义距离也是语言学中经常提到的一个
其中 ,c为树 T 中的任一概念 。按照本文 的定义 ,所有从概念 C
基 于 W rN t的概 念 语 义相似 度研 究 ode
李
摘
熙
徐德智
基于WordNet的情感词库构建研究
基于WordNet的情感词库构建研究情感词库是自然语言处理中的重要组成部分,通常用于文本情感分析、情感极性判断以及舆情分析。
WordNet是一种常用的语义网络,可以通过它来构建情感词库,本文主要介绍基于WordNet的情感词库构建研究。
一、WordNet简介WordNet是由普林斯顿大学的心理学家George Miller教授领导的一项项目,它是一种英语词汇数据库,用于自然语言处理和语义计算。
WordNet将英语单词分解为词义,每个词义都与一个或多个单词相关联。
这些词义之间以及单词之间都存在着语义关系,比如同义词、反义词、上位词、下位词等等。
二、情感词库介绍情感词库(Sentiment Lexicon)是包含情感极性和情感强度等信息的一组单词或短语列表。
情感词库可以帮助计算机自动分析文本的情感倾向,以此为根据来进行情感分类、情感极性判断、舆情分析等工作。
情感词库的构建通常需要基于人工标注和机器学习技术。
传统的构建方法在标注大量的文本后,利用MMI(最大相互信息)或PMI(点间互信息)等方法计算情感单词或短语准确率。
但是这种方法对人的时间和精力的要求太大,也不够灵活。
因此开始使用WordNet构建情感词库。
三、基于WordNet构建情感词库的方法基于WordNet的情感词库构建方法主要分为两种:查找词性和语义相似度。
1. 查找词性在WordNet中,每个单词在其定义中有多个释义和词性标记:名词(Noun)、动词(Verb)、形容词(Adjective)和副词(Adverb)。
在这种情况下,可以使用名词、动词、形容词和副词标记,选择有情感信息的单词。
然后借助WordNet上语义关系(如同义词、反义词、上位词、下位词等)来扩展情感词库。
例如,将“love”作为基本情感词,利用同义词“adore”,反义词“hate”,上位词“comfort”、下位词“hug”等扩展情感词表。
2.语义相似性利用WordNet关系结构中词之间的关系,计算两个单词之间的语义相似性,从而将与情感相关的单词添加到情感词库中。
WORDNET与HOWNET之比较
WORDNET与HOWNET之比较作者:张笛来源:《青年文学家》2011年第13期摘要:本文在对Wordnet和Hownet进行简单介绍的基础上,从理论基础,设计原理与建设方法,目的与应用这三个大方面进行了比较。
从而找出两个系统的相似之处和差异,以期对自然语言处理有所帮助。
关键词:Wordnet;Hownet ;比较;语义作者简介:张笛,临沂大学外国语学院讲师,语言学。
近年来,随着计算机本身以及信息高速公路的飞速发展,人们开始更加重视语义的研究。
各国都致力于可用于自然语言处理的大规模语义词典或大规模知识库的建设。
例如:普林斯顿大学的英语Wordnet,微软的Mindnet,欧洲有基于Wordnet的Eurowordnet,日本的日语和英语的概念词典,韩国的Koreanwordnet,中国有以Wordnet为框架而研制的现代汉语概念词典——中文概念辞书(CCD)和董振东、董强的Hownet(知网)。
Wordnet是一个在线的英语词汇数据库(词汇参照系统),而Hownet是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。
现在两者都被放在网上,供人们使用,并且可以参与他们的完善、扩展和发展。
所以,本文拟把二者放在一起进行比较研究,找出两个系统的相似之处与差异,取长补短,以期为自然语言处理寻求一个较为完善的语义关系系统。
一、理论基础首先,二者都以一种“模式假设”(patterning hypothesis)为前提和理论基础。
其次,“理解性假设”(comprehensiveness hypothesis)也是二者的理论基础。
但二者的理论基础不同之处也很多。
Wordnet的一个较主要的理论基础是“可分离性假设”(separability hypothesis)即语言的词汇成分可以被离析出来并专门针对它加以研究。
Hownet的最重要的理论基础是它的哲学。
基于知网的词汇语义相似度计算1
我们的工作主要包括: 1. 研究《知网》中知识描述语言的语法,了解其描述一个词义所用的多个义 原之间的关系,区分其在词语相似度计算中所起的作用;我们采用一种更
1 *
+
本项研究受国家重点基础研究计划(973)支持,项目编号是 G1998030507-4 和 G1998030510。 北京大学计算语言学研究所 & 中国科学院计算技术研究所 E-mail: liuqun@ Institute of Computational Linguistics, Peking University & Institute of Computing Technology, Chinese Academy of Science 中国科学院计算技术研究所 E-mail: lisujian@ Institute of Computing Technology, Chinese Academy of Sciences
基于《知网》的词汇语义相似度计算1 Word Similarity Computing Based on How-net
刘群* ﹑李素建+
Qun LIU , Sujian LI
摘要
词义相似度计算在很多领域中都有广泛的应用,例如信息检索、信息抽取、文 本分类、词义排歧、基于实例的机器翻译等等。词义相似度计算的两种基本方 法是基于世界知识(Ontology)或某种分类体系(Taxonomy)的方法和基于统 计的上下文向量空间模型方法。这两种方法各有优缺点。 《知网》是一部比较详尽的语义知识词典,受到了人们普遍的重视。不过,由 于《知网》中对于一个词的语义采用的是一种多维的知识表示形式,这给词语 相似度的计算带来了麻烦。这一点与 WordNet 和《同义词词林》不同。在 WordNet 和《同义词词林》中,所有同类的语义项(WordNet 的 synset 或《同 义词词林》的词群)构成一个树状结构,要计算语义项之间的距离,只要计算 树状结构中相应结点的距离即可。而在《知网》中词汇语义相似度的计算存在 以下问题: 1. 2. 每一个词的语义描述由多个义原组成; 词语的语义描述中各个义原并不是平等的,它们之间有着复杂的关系,通 过一种专门的知识描述的词汇语义相似度计算
一个在线义类词库:词网WordNet
/paper_110583811_1/论文标题:中文信息处理专题研究:语义研究一个在线义类词库:词网WordNet论文作者陈群秀(论文关键词,论文来源语言文字应用,论文单位京,点击次数184,论文页数69~104页1998年1998月论文网/paper_110583811/ 计算机的自然语言理解和处理,依赖于计算语言学的研究成果。
)与计算词汇学和计算句法学相比,计算语义学是计算语言学领域里一门比较年轻的学科。
相对而言,句法分析的理论和技术发展得比较成熟、完善,而语义分析的理论和技术起步比较晚,尚处于探索阶段,空白点较多而且难度最大。
目前,自然语言理解正处于一个关键时期,处在取得重大突破的前夜,而语义研究领域的进展和突破对全局的进展和突破有至关重要的作用。
语义包括词汇义、句义、篇章义等,其中最根本最重要的是词汇义的研究。
词汇义的研究和表示的方法有多种,很重要的一种是语义分类。
人读的义类词典几乎各国都有,机读的(即信息处理用的)义类词典在日本、美国等先进国家也都有研究或成果。
在国内外同类课题中,最著名的是普林斯顿大学Miller等人研制的英语词网数据库WordNet。
该词网旨在从心理语言学角度建立英语词汇基本语义关系的实际模型。
本文简要介绍这个在线的义类词库。
一词网WordNet的概况WordNet是一个在线词汇参照系统(在网上可机读的英语词库),是一个基于心理语言学原则的机器词典。
WordNet用大家熟悉的拼法来表示词形,用同义词集Synsets(在一定上下文中可以互换的同义词形的列表)来表示词义。
有两种关系:词汇的和语义的。
词汇关系存在于词形间,语义关系存在于词义间。
通常的人读词典或机读词典是按字母顺序组织词汇信息,将拼写相似的词放在一起,而让意思上相近的或相关的词随意地散置。
WordNet 则想为广大读者依概念而不是依字母顺序查找词典获取词汇语义知识提供帮助。
WordNet 目前包含大约95600个词条(51500个简单词和44100个复合词,它们被组织成约70100个词义或同义词集),描写了上下位、同义、反义、部分—整体等词汇语义关系。
基于CEF和WordNet的词汇拓展框架的构建
一
Байду номын сангаас
、
刖 再
语音 、 法 、 汇 是构 成 语 言 的三 大要 素 , 汇是 语 音 和语 法 的载 体 , 语 词 词 词 汇掌 握 的数 量 和 质量 直接 决 定 言语 表 达 的丰 富性 、 得体 性 , 有 一 定 的词 汇 没 量 . 要提 高语 言能力 和交 际能力 无疑 于纸上谈 兵 。词 汇学 习是包 含 了语 音 、 想 语法 、 配关 系 、 境 问题 、 用 等信 息 的动态 学 习过 程 , 搭 语 语 而不 是静 止 的 、 立 孤 的词 汇项 的单 纯记 忆 。词汇 教学 一 直 以来 都 是外 语 教学 的重 头 戏 , 是 最难 也 见成 效 的一项 。人 们 已经认 识 到 , 复强 调 词汇 释义 的传 统 词 汇教学 不 能满 反 足人 们对 词 汇掌握 的实 际需 要 , 汇 的实际 运用 问题 绝 不是 单凭 一 张词 汇表 词 就 能解决 的 。 目前 最具 代表性 的词 汇拓 展策 略 , 不外 乎利用 词汇 的语义关 系 、 搭配 关 系 , 助 阅读 手段 、 际手段 等几种 。 文在此 介绍 一种集 上述几 种策 借 交 本 略 的优 点 为一 体 的词 汇 拓展 框 架—— 基 于 Wod e 语 义框 架并 结 合 C F交 rN t E 际话 题 的词汇 拓展框 架 . 解决 词汇教 学 中的实 际问题 。 来
件 的研 制 与 开 发 ” 题 。 专 作 者 简 介 : 元 梓 (9 8 ) 女 , 师 , 要从 事应 用 语 言 学及 数 据 库 语 言 学研 究 。 高 17 一 , 讲 主
10 5
方 面可 以使 学 习者 明确 地知 道在 此话 题 下通 常 出 现 和使 用哪 些词 汇 ; 另一 方 面 , 学 习某些 单 词 的 在 时候 。学 习者 可 以根 据 具体情 况 将其 归 为某 类话 题 .轻松 抓住 单 词使 用 的核 心 。主题 既要 有 代表 性. 又要 有概 括性 , 样 才能 确保 框架 的信 度 和效 这
—种基于WordNet语义相似度的改进算法
I
( 3 )
L 。 0/ W i d t h ) } ( 1 / 2 ) * W e i g h t ( p a r e n t ( c ) ) c 为中 间结 点
1 Wo r d Ne t 简介
Wo r d Ne t 是由P i r n c e t o n大学的心理学家 , 语言学 家和计 算机 工程师联合设计 的一种基于认 知语言学 的英语词典, 它不只把单词 以字母顺序排列 , 而且按照 单词 的意义组成一个“ 网络 ” 。 由于包含 了语义信息 , 所 以Wo r d Ne t 有别于通常意义上 的字典 。 Wo r d Ne t 描述对象包括复合词 、 短语动词 、 搭配次词 、 成语 、 单 词, 其中单词是最基本的单位。 描述对象被分为名词 、 动词 、 形容词 、 副词 , 它们各 自被组织成一个同义词的网络 , 即有层 次的树形结构 , 每个同义词集合都代表一个基本 的语义概念 , 并且这些集 合之 间也 有各种关系连接 。 在Wo r d Ne t 中以名词为例最基 础的语义 关系是 同 义关系。 S y n s e t 构成 了树形结构 中的每一个概念。 除了上面提到的同 义词关系Wo r d N e t 中还有 很多其他关系来表示不 同概念之 间的关 系, 例如上下位关系为如果 同义 词集合A的所有特征被包含在 同义 词集合B 的特征集合 中, 那么B 是A的下位概念 , A是B的上位概念 。 比如“ 水果” 和“ 苹果” , 苹果包含了水果的所有特征 , 但是水果不具备 苹果的独有特征 , 因此苹果 是水果 的子类是下位关系 , 而水果是苹 果的父类是上位关系 。
本分类等等。 本文在相关研究的基础上除 了考虑路径外考虑 了节点所在树 中的深度和宽度, 提 出一种基于wo r d Ne t 语义相似度的改进算法。
“现代汉语语义词典”的结构及应用
词条
属性字段
(一) 规模与结构
名 词
37522
15
“现代汉语语义词典”收录了 66539 个通用
时间词
567
15
领域内的实词 ,采用 Foxpro 810 实现 , 共有 12
处所词 方位词
185 204
15 15
个数据库 ,其中包含全部词语的总库 1 个 ,每类
代 词
236
15
词语各建一库 ,计 11 个 。每个库文件都详细刻
鱼类 、虫类 、爬行类”,而在另一个体系中分为“脊椎动物 、腔肠动物 、软体动物”。但这些分类体
系都是基于自然科学或常识而独立于语法的 。在实际语言分析中 ,如何将这些语义知识与语
法知识有机地结合起来是一件很困难的事情 。
与这些基于常识的各种语义分类相比 “, 现代汉语语义词典”中语义分类的突出特点就是
1. 名词 (Noun) 111 具体事物 (entity) 11111 生物 (organism) 1111111 人 (person) 111111111 个人 (individual) :职业 身份 关系 姓名 111111112 团体 (group) :机构 人群 1111112 动物 (animal) :兽 鸟 鱼 昆虫 爬行动物 1111113 植物 (plant) :树 草 花 庄稼 1111114 微生物 (microbe) :细菌 病毒 霉菌 11112 非生物 (object) 1111211 人工物 (artifact) :建筑物 衣物 食物 药物 创作物 计算机软件 钱财
意见 n
2
2
认知
2
人
人| 事件
objection
N
(二) 词语的语义分类 国内外对汉语语义分类体系的研究已有不少成果 ,但由于各家分类体系的目的及应用范
利用构建语义词典的查询自动分类方法
利用构建语义词典的查询自动分类方法岳峰;孙亮;王宽全;王永吉;左旺孟【期刊名称】《哈尔滨工业大学学报》【年(卷),期】2008(40)7【摘要】为解决传统的文档分类方法和手工分类方法都不适宜于处理查询分类的问题,提出了一种基于Web的自动构建特定主题的语义词典的方法来分类搜索查询,通过基于主题的Web信息采集和bootstrap-ping,由某个主题的少量关键词逐步扩充,最终得到该主题的语义词典及词典中每个单词的相对词频.Web中信息的冗余和各主题语义上的差别使各主题的语义词典中单词的种类和数量存在很大差异,这种差异可以用来对用户的搜索查询进行分类.实验结果表明,利用语义词典可以较准确地将用户的查询分类,同时该分类方法基本上不需要人工介入,且可适应搜索查询覆盖面广和实时性强的特点,较好地解决了搜索查询分类的问题.【总页数】5页(P1094-1098)【作者】岳峰;孙亮;王宽全;王永吉;左旺孟【作者单位】哈尔滨工业大学,计算机学院,哈尔滨,150001;中国科学院软件研究所,互联网实验室,北京,100190;中国科学院软件研究所,互联网实验室,北京,100190;哈尔滨工业大学,计算机学院,哈尔滨,150001;中国科学院软件研究所,互联网实验室,北京,100190;哈尔滨工业大学,计算机学院,哈尔滨,150001【正文语种】中文【中图分类】TP391.1【相关文献】1.基于SOM的语义词典自动构建实验研究 [J], 陈涛;孙茂松2.基于改进决策树算法的Web数据库查询结果自动分类方法 [J], 孟祥福;马宗民;张霄雁;王星3.基于耦合相关度的空间数据查询结果自动分类方法 [J], 毕崇春;孟祥福;张霄雁;唐延欢;唐晓亮;梁海波4.基于WordNet的藏文语义词典半自动构建方法研究 [J], 柔特5.Web数据库查询结果的自动分类方法 [J], 孟祥福;马宗民;严丽;张富因版权原因,仅展示原文概要,查看原文内容请购买。
国内外英语学习词典语义网络处理调查对比研究
国内外英语学习词典语义网络处理调查对比研究张相明【摘要】在语言运用中,相关语词之间通过意义构成语义网络.学习词典是语言学习中释疑解惑的工具,是用户获取语义网络信息的重要途径以词典结构的各个组成部分为视角,对国内外的主流英语学习词典进行了语义网络处理方面的对比分析.调查表明,与国外学习词典相比,国内词典呈现语义网络的方式比较单一,处理力度较小;学习词典应该呈现哪些形式的语义网络信息以及如何呈现,国内外词典尚未形成比较一致的看法.国外英语学习词典具有相对完整的语义网络信息处理体系,值得国内英汉学习词典编纂者学习借鉴.【期刊名称】《外国语文(四川外语学院学报)》【年(卷),期】2014(030)005【总页数】6页(P94-99)【关键词】学习词典;语义网络;词典处理;调查【作者】张相明【作者单位】华南师范大学外文学院,广东广州510631;广东财经大学外国语学院,广东广州510320【正文语种】中文【中图分类】H3161.引言学习词典是“主要面向非母语的语言学习者的教学型词典”(Hartmann&James,1998:82)。
学习者在语言习得过程中遇到的许多语词问题,都希望在学习词典中找到答案。
在语言运用中,相关语词之间通过意义构成语义网络。
语义网络信息就是词典用户希望查询的一个重要语词问题。
语义网络是一个重要的语义信息类别,是“在提及一个特定词时脑海中显现的相关语词的联系。
”(Richards&Schmidt,2002:478)。
学习词典是用户获得语词语义网络信息的主要途径,如何准确、全面、简明地呈现语词的语义网络信息是词典编纂者和词典学研究者需要解决的重要课题。
本研究以词典结构的各个组成部分为视角,从宏观结构层面对国内外的主要英语学习词典进行了语义网络处理方面的对比分析。
国外英语学习词典选取OALD8(2010)、LDOCE5(2009)、MED2(2007)等;国内英汉学习词典则选取了《新英汉词典》(2009)、《英汉多功能词典》(2011)、《新英汉大词典》(2012)等(词典信息详见参考文献)。
wordnet介绍
)作为一般词典的WordNet (WordNet as a dictionary)· WordNet跟传统的词典相似的地方是它给出了同义词集合的定义以及例句。
在同义词集合中包含对这些同义词的定义。
对一个同义词集合中的不同的词,分别给出适合的例句来加以区分。
(七)WordNet中的关系(relations in WordNet)·不同句法词类中的语义关系类型也不同,比如尽管名词都动词都是分层级组织词语之间的语义关系,但在名词中,上下位关系是hyponymy关系,而动词中是troponymy关系;动词中的entailment(继承)关系有些类似名词中的meronymy(整体部分)关系。
名词的meronymy关系下面还分出三种类型的子关系(见“WordNet 中的名词”部分)。
(八)网球问题(the tennis problem)· WordNet是基于同义性和反义(对义)性来描述词语和概念之间的各种语义关系类型的。
由于WordNet的注意力不是在文本和话语篇章水平上来描述词和概念的语义,因此WordNet中没有包含指示词语在特定的篇章话题领域的相关概念关系。
例如,WordNet中没有将racquet(网球拍)、 ball(球)、net(球网)等词语以一定方式联系到一起。
Roger Chaffin在一封私人信笺中,曾把这类问题称为“tennis problem”(网球问题),指的就是如何把racquet、ball、net、court game (场地比赛);或者把physician(内科医生)跟hospital(医院)联系到一起。
这对电子词典来说,是一个挑战。
已经有一些相关的研究工作在探索如何从WordNet 中包含的词汇和概念之间的语义关系,来推导出话题信息。
Hirst和St-Onge描述了一种所谓的“词汇链”(lexical chain)的应用方法。
“词汇链”是在基于名词的语义关系构成的上下文中的名词的序列。
文本相似度计算研究进展综述
中图分类号: TP 391. 1
文献标志码: A
A survey on research progress of text similarity calculation
WANG Hanru,ZHANG Yangsen
( Computer School,Beijing Information Science & Technology University,Beijing 100101,China)
( T1,T2,…,Tn) 构成了一个文档向量空间,采用空 间向量间的余弦相似度计算文本相似度。
VSM 的缺陷在于: ①对于大规模语料,VSM 会 产生高维稀疏矩阵,导致计算复杂度增加; ② VSM 假设文本中的各个特征词独立存在,割裂了词与词 之间的关系以及段落间的层次关系。因而用向量空 间进行文本相似度计算时,通常改进 TF-IDF 的计算 方法以提高精确度。例如,张奇等[4]将文本用 3 个 向量( V1,V2,V3) 表示,V1 中的每一维代表特征词 的 TF-IDF 值,V2 根据一个 bi-gram 是否出现取值 0 或 1,V3 使用 tri-gram 信息,取值同 V2,用回归模型 将 3 对向量相似度综合得到句子的相似度; 华秀 丽[5]等利用 TF-IDF 选择特征项,利用知网计算文本 的语义相似度。 2. 2 基于主题模型:
1) 语言的多义同义问题。同一个词在不同的 语境下,可以 表 达 不 同 的 语 义,例 如“苹 果 ”既 可 以 表示水果,也可以表示科技公司; 同理,相同的语义 也可以由不同的词表达,例如“的士”、“计程车”都 可以表示出租车。
以检测出两段文本的抄袭程度; 在文本聚类方面,相 似度阈值可以作为聚类标准; 在自动文摘中,相似度 可以反映局部信息拟合主题的程度。
WordNet简介
WordNet的词汇组织结构
➢同义词集(Synsets)
Example:
❖ 地球绕着太阳转, 自然会有寒来暑往的四季交替 ❖ 自然奥秘 {自然、必然、一定、必定} {自然、天然}
B.4
WordNet的词汇组织结构
词汇(Words) 、同义词集、语义(Senses)的数量
POS Unique Strings Synsets Total Word-Sense Pairs
Noun 109195
75804
134716
Verb
11088
13214
24169
Adjective 21460
18576
31184
Adverb 4607
3629
5748
Totals 146350 111223
195817
B.5
WordNet的词汇组织结构
多义词信息(1)
词 性 单义词和语义
名词
94685
动词 形容词
5920 15981
副词
3820
总计
120406
多义词
14510 5168 5479 787 25944
多义词语义
40002 18221 15175 1900 75298
B.6
WordNet的词汇组织结构
多义词信息(2) 词 性 平均词义(包括单义词) 平均词义
名词
1.23
2.75
动词
B.18
WorNet 中词语间的关系
动词蕴涵关系(entailment) 、动词的上位关系 (hypernymmy) 、方式关系(troponymy)、因果关系 (cause relation)
应用语义关系自动构建情感词典
应用语义关系自动构建情感词典谢松县;刘博;王挺【期刊名称】《国防科技大学学报》【年(卷),期】2014(000)003【摘要】构建英文情感词典研究相对成熟,形成了丰富可靠的词典资源。
而针对中文的研究时间短,中文情感分析词典资源较少。
借鉴现有可靠的英文词典资源,提出了基于语义关系的情感词典自动构建算法,算法先从HowNet的概念中进行中文义原和词语抽取及语义分析,再利用HowNet概念中DEF中英文属性值,在英文情感词典SentWordNet中进行义原和词语情感值查询,最后根据词语和义原之间的语义关系进行词语的情感值计算。
算法直接利用现有的英文情感词典,无须人工标注,生成的情感词典记录了词语的语义关系、情感极性值等多种信息,弥补了现有词典的不足。
评测实验结果表明,根据算法实现的情感词典相比其他词典在准确率接近的情况下,召回率和F值最高,取得了较好的评测性能。
【总页数】5页(P111-115)【作者】谢松县;刘博;王挺【作者单位】国防科技大学计算机学院,湖南长沙 410073;国防科技大学计算机学院,湖南长沙 410073;国防科技大学计算机学院,湖南长沙 410073【正文语种】中文【中图分类】TP391【相关文献】1.基于Word2Vec的情感词典自动构建与优化 [J], 杨小平;张中夏;王良;张永俊;马奇凤;吴佳楠;张悦2.情感词典自动构建方法综述 [J], 王科;夏睿3.股市情感词典自动构建与优化 [J], 陈可嘉;陈荣晖4.面向在线评论的领域情感词典的自动构建 [J], 宗宇;方朝阳;吴波5.面向突发事件倾向性分析的情感词典自动构建方法 [J], 王学贺;赵华因版权原因,仅展示原文概要,查看原文内容请购买。
基于WordNet的隐喻自动处理研究
Metaphor Processing System Based on WordNet 作者: 许雅缘
作者机构: 福建师范大学外国语学院,福建福州350007
出版物刊名: 外语电化教学
页码: 39-43页
年卷期: 2010年 第6期
主题词: 隐喻 WordNet 相似度 语料库
摘要:本文以WordNet(在线词典数据库系统)里的各种语义知识和语义关系为基础,设计并实现一个处理“AisB”型的英文隐喻自动处理系统。
该系统主要包括对语句的预处理和隐喻语句的自动识别。
系统对语句先进行预处理(包括分词和句法分析),再对主、表语进行知识搜索和语义相似度计算,并根据求得的相似度判别是否为隐喻。
系统还采用数据库的相关技术,以提高系统对隐喻处理的效率。
最后,我们分别从Goatly创建的英语隐喻语料库Metalude和桂诗春创建的中国学习者英语语料库中选取大量隐喻和非隐喻的例子,对系统进行测试和评估,证实了该系统的合理性和可行性。
基于改进的Lesk算法的词义排歧算法
基于改进的Lesk算法的词义排歧算法王永生【期刊名称】《微型机与应用》【年(卷),期】2013(000)024【摘要】英文中的一词多义现象非常普遍,这给英文的词义排歧带来了极大的困难。
针对这种情况,提出了一种基于改进的 Lesk 算法的词义排歧算法,即以语义词典 WordNet 为基础,借助 CBC 算法扩充目标词的相似词集合,通过改进的Lesk 算法进行词义排歧。
算法以英文 Senseval-2任务作为测试目标,通过对目标词的义项进行筛选,去除其中一些不常用的义项,实验结果表明,总体排歧正确率达到58.4%。
%In English , lexical ambiguity is pervasive , so English word sense disambiguation is one of the most difficult tasks in natural language processing . This paper presents an adaptation of Lesk algorithm based on WordNet . Additionally an algorithm called CBC is used to enlarge the amount of similar words of the target word . This method is evaluated using the Senseval-2 word sense disambiguation exercise , and attains an overall accuracy of 58 . 4%.【总页数】4页(P69-71,75)【作者】王永生【作者单位】同济大学出国培训学院,上海 200092【正文语种】中文【中图分类】TP391【相关文献】1.基于核模糊C均值聚类算法的词义排歧研究 [J], 任恺2.改进的基于义原同现频率的汉语词义排歧方法 [J], 刘亚清;于纯妍;张瑾3.一种改进的词义排歧算法 [J], 郭志兵;黄广君;卢朝华4.基于改进的VSM的词义排歧策略 [J], 赵晨光;蔡东风5.一种基于语义关系图的词义消歧算法 [J], 张健立因版权原因,仅展示原文概要,查看原文内容请购买。
基于互信息的概念语义相似度算法
基于互信息的概念语义相似度算法种晓阳;周子力;吴玲玲【摘要】With the development of information technology, the conceptual semantic similarity computation now becomes a hot research topic. A novel algorithm based on mutual information for calculating conceptual semantic similarity in WordNet is proposed. This algorithm, withIC(Information Content) model as the basis, the conditional probability of neighboring concept as the edge weighting information, and the mutual information as the semantic similarity, considers the depth and density of concept in the taxonomic tree of WordNet, even including the route factor. Experiments show that the similarity calculated by the proposed method has fairly good correlation with the similarity by artificial method, and the similarity is even more accurate.%随着信息技术的发展,概念语义相似度计算成为当前的一个研究热点。
本文提出一种基于互信息的概念语义相似度算法,以IC概念信息内容模型为基础,将相邻概念的条件概率作为边的权值,将概念间的互信息作为语义相似度,不仅考虑概念所处分类树的深度、密度,而且将路径因素考虑在内。
基于不同语义资源的词语相似度算法综述
基于不同语义资源的词语相似度算法综述词语相似度研究作为人工智能领域中一项重要研究,被广泛应用于信息检索,词义消歧,机器翻译,语音自动摘要,分类和聚类等方面。
现有的词语相似度算法主要分为基于语义资源和基于统计两类方法,第一种也被称为基于本体的词语相似度算法,主要根据词语所处的语境来反应词语的词义,即根据不同的层次结构组织中词所处的上下位与同位关系来计算词语的相似度。
另一种也被称为基于大规模语料库的算法,研究上下文环境中各个词语之间出现的某种规律,利用统计技术计算的一种无监督机器学习的方法。
本文重点介绍基于不同的语义资源的词语相似度算法,对词语相似度算法的未来做了展望。
标签:词语相似度;语义资源;维基百科1 引言随着云时代的来临,大数据越来越受人们关注。
伴随着办公室无纸化推行,人们逐渐习惯于利用计算机进行数字化处理数据,自然语言处理的研究也飞速发展。
词语是自然语言处理的最小单位,词语相似度的计算在自然语言处理的各个领域占有很重要的地位。
词语相似度计算研究的是计算两个词语相似度的方法,词语之间有着非常复杂的关系,应用中常常将这种复杂的关系用简单的数量来度量。
可见词语相似度研究有广阔的应用前景和重大研究价值。
本文综合介绍了近年来基于几种常见语义资源的词语相似度算法和最新研究成果,对该领域的发展前景做出了展望。
2 基于Wordnet的方法Wordnet是由普林斯顿大学的心理学家,语言学家和计算机工程师联合设计的一个在线词典参考系统,在认知语言学理论下推动形成的覆盖范围非常广阔的词汇语义网。
Wordnet不像传统的在线词典按照字母排序构造而成,这个系统中的词语根据同义关系,反义关系,部分关系聚类分为代表某一类词汇概念的相关集合。
并在这些聚类后形成的集合之间建立起不同关系。
Wordnet主要代表算法是通过计算两个词语在本体结构分类的路径长度,本体库的统计特征,概念层次树上下位关系和同位关系或对词语涉及的边进行处理。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
) ) 表 ( 简单说明了词汇矩阵的设想: 假定表中的列代 表词形, 行代表词义, 矩阵中的表元素对应列上的词形可 以被用来表示相应表行上的词义 ( 在一个适当的上下文
・ NN・
知识组织与知识管理 《 现代图书情报技术》 . /LLZ 年. 第 N 期 . . 总第 "QV 期 ################################################
=(7>7,3 9,:#)$+’7#, ?17(,1( +,@ 0(1/,#2#3A B,7C().7’A ,=(7>7,3 !55!5! , "/7,+)
) ) 【 ?0$%&.(%】 ) < /&’="$ ’" 0"12’#>0’ 2&/71’40 $42’#4?>’4"1 $40’4"17#@ ?72&$ "1 !"#$%&’ 42 A#&2&1’&$ 41 ’=42 A7A <B’&# 41’#"$>0418 !"#$%&’ 2@2’&/ 71$ 2&/0"# 0"#A>2,’=& 2’#>0’>#& "B 2&/71’40 $42’#4?>’4"1 $40’4"17#@ 42 $&2481&$3 6=& 0"1’&1’2 "B 2&12&3 4$5 B49& 71$ ’78942’ B49& 7#& 7179@C&$,71$ ’=& A#"0&$>#& B"# 0"12’#>0’418 2&/71’40 $42’#4?>’4"1 $40’4"17D #@ ?72&$ "1 ’=&/ 42 $&20#4?&$ 41 $&’7493 ) ) 【 @,1A"&3$】 ) E718>78& #&2">#0&) .&/71’40 $42’#4?>’4"1 $40’4"17#@) !"#$%&’) .&/0"#
是普林斯顿大学建设的一个英语语义词典, .&/0"# 是它 附带的语义标注语料库
[I]
。本文就是以 !"#$%&’ 系统和
.&/0"# 语料库为基础自动构建英文语义分布词典。
*) !"#$%&’ 和 .&/0"# *3 () !"#$%&’ 的词汇矩阵思想
) !"#$%&’ 是普林斯顿大学认知科学实验室的 L3 M499&#
要, 计算语言学家把它应用于自然语言处理中涉及语义了广泛影响。 !"#$%&’
的核心思想是词汇矩阵。使用同义词集来代表词汇 概 念, 在词的形式和意义之间建立起映射关系, 形成词汇矩 阵。
) ) 表 () 词汇矩阵概念示意: O( 和 O* 为同义词;O* 是多义词 词义 O( O* M( M* M+ … M/ P ( /, 1) P ((, () P ((, *) P (*, *) P (+, +) 词) ) 形 O+ … … O1
. . . . . . [ 8 8-H+ K /M I [ ) )-H+ K /Z I [ SU P+2 K 2&-* 12U K 8*1)&- 8&) K 33% ’*++< K 8*1)&- S-)- K " LN : LL : :8- K 8*1)&- I $<(&1]0;’’;<+]RD ]7<14)U;*’2 ’*\)- K " :
知识组织与知识管理 《 现代图书情报技术》 ) *,,F 年) 第 + 期 ) ) 总第 (IH 期 ################################################
基于 !"#$%&’ 的语义分布词典建设 $
张会平( ) 吕学强* ) 施水才* ) 李渝勤*
( ( 抚顺师范高等专科学校计算机系) 抚顺 ((+,,- ) * ( 北京信息科技大学中文信息处理研究中心) 北京 (,,(,( )
. . 表 /. 0&123*4 的概念语义关系及标记符号 名词概念 反义关系 6-4&-(+( 下位关系 7(8&-(+( 上位关系 7(8*1-(+( 部分关系 $*1&-(+( 整体关系 7&’&-(+( 属性 6441;JH4* 动词概念 !反义关系 6-4&-(+( 9 下位关系 :1&8&-(+( A 上位关系 7(8*1-(+( E蕴涵关系 !-4<;’+*-4 F 致使关系 G<H)* K 又见 6’)& ,** 形容词概念 !反义关系 6-4&-(+( 9 近义关系 ,;+;’<1 A 关系性形容词 B*’<4;&-<’ 62CD $又见 6’)& ,** I 属性 6441;JH4*
[N, -] 教授指导下开发的 , 是当前世界上影响最大的英语语 [F G ;] 义词典 。!"#$%&’ 的思想产生于 *, 世纪 F, 年代末,
(;HN 年开始进行大规模语言工程的实施。 !"#$%&’ 的最
) ) 收稿日期: *,,F G ,( G +( ) ) $ 本文系国家自然科学基金项目 “ !&? 数据挖掘技术研究” (项 目编号: -,*F*,HI ) 和北京市教育委员会科技发展计划重点项目 “ 面向 大规模真实文本的数据挖掘技术” ( 项目编号: JK*,,+(,FF*,(+ ) 的研 究成果之一。
.
. . 表 N. ,*+P&1 的构成 目录名 R1&S-" R1&S-/ R1&S-@ 标注文件数 "LN VN "OO 标注内容 所有开放类词汇 所有开放类词汇 动词
. . 每个语义标注文件中, 使用类似 ,W$X 的标记语言 进行标注。对全文进行段落和句子编号。对句子内的每 但只对名词、 动 一个单词、 标点根据 0&123*4 进行标注, 词、 形容词、 副词这四种开放类词汇进行语义标注, 其它 类词汇只进行词性标注。以下为 J1 Y <L" 文件中第 /M 段 的标注, 其中包括编号为 /Z 和 /V 的两个句子:
!"#$%&’(%)#* +,-.#%)( /)$%&)0’%)"# /)(%)"#.&1 2.$,3 "# 4"&35,%
67.#* 8’)9)#*( ) :; <’,=).#** ) +7) +7’)(.)* ) :) >’=)#*
! ( "#$%&’() *(%+)’$(,’,-&./&, 0(+1/(). "#22(3(, -&./&, !!4556 ,"/7,+) 8 ( "/7,(.( 9,:#)$+’7#, ;)#1(..7,3 <(.(+)1/ "(,’() ,
环境中) 。这样, 表元素 ! (", ") 就表示: 词形 #" 可以表 则该词形具 示词义 $" 。如果同一表列中有两个表元素, 有两个义项, 是个多义词 ( %&’()*+( ) ; 如果同一表行中有 两个表元素, 则对应的两个词形是同义的, 相应的两个词 。 是同义词 ( ,(-&-(+) . . 在表 " 中, 词义 $" 可以简单地用词形 ( #" , #/ , … #- ) … 来表示。 0&123*4 中就用这种 同 义 词 集 合 ( ,(-5 )*4) 作为标识词汇概念的定义。 0&123*4 构造的核心是 如何表示词汇概念节点, 以及在这些概念节点之间建立 起各种语义关系。 0&123*4 将英语词汇组织为一个同义 词集合, 每个集合标明一个词汇概念; 同时力图在概念间 建立不同的指针, 表达上下位、 同义反义等不同的语义关 系。这样就构成了一个比较完整的词汇语义网络系统。 . . 0&123*4 中的语义关系如表 / 所示。
K
. . . .
. . 0&123*4 的当前最高版本是 /D " , 于 /LLM 年 N 月发 行。国内的许多研究工作是以 0&123*4"D O 版为参考的, 这里也是如此。
. .
/D /. ,*+P&1 语义标注语料库
[Q] . . ,*+P&1 是 0&123*4 附带的一个语义标注语料库。
副词概念 !反义关系! 6-4&-(+( = 导出形式 > ?*1;@*2 #1&+ >
.
[ ^ SU I . . [ SU P+2 K 2&-* 8&) K _R ’*++< K U;’* S-)- K " ’*\)- K / : N/ : L/ : : I U;’*2 [ ^ SU I . . [ SU P+2 K 2&-* 8&) K 33 ’*++< K )H;4 S-)- K / ’*\)- K " : LQ : LL : : I )H;4 [ ^ SU I . . . . [ SU P+2 K ;T-&1* 8&) K ‘3 I U&1 [ ^ SU I [ SU P+2 K 2&-* 8&) K 33 ’*++< K 2;@&1P* S-)- K " ’*\)- K " : LQ : LL : : I 2;@&1P* [ ^ SU I . . [ SU P+2 K ;T-&1* 8&) K ‘3 I U1&+ [ ^ SU I [ SU P+2 K ;T-&1* 8&) K %B% a I b;) [ ^ SU I [ SU P+2 K 2&-* 8&) K 33 ’*++< K S;U* S-)- K " ’*\)- K " : "V : LL : : I S;U* [ ^ SU I . . [ 8H-P I , [ ^ 8H-P I [ SU P+2 K 2&-* 12U K 8*1)&- 8&) K 33% ’*++< K 8*1)&- S-)- K " ’*\)- K " : LN : LL : :8- K 8*1)&- I %*<1’]0;’’;<+)]7<14)U;*’2 [ ^ SU I . . . . . . [ 8H-P I , [ ^ 8H-P I [ SU P+2 K ;T-&1* 8&) K ‘3 I ;- [ ^ SU I [ SU P+2 K 2&-* 12U K T1&H8 8&) K 33% ’*++< K T1&H8 S-)- K " ’*\)LN : LL : :8- K T1&H8 I #H’4&-],H8*1;&1]G&H14 [ ^ SU I K ": . . [ SU P+2 K 2&-* 8&) K 33 ’*++< K U1;2<( S-)- K " ’*\)- K " : /V : LL : : I #1;2<( [ ^ SU I . . . . . . . . . . [ 8H-P I D [ ^ 8H-P I [ ^)I [ ) )-H+ K /V I [ SU P+2 K ;T-&1* 8&) K %B% a I 7;) [ ^ SU I [ SU P+2 K 2&-* 8&) K 33 ’*++< K 8*4;4;&- S-)- K " ’*\)- K " : "L : LL : : I 8*4;4;&- [ ^ SU I . . [ SU P+2 K 2&-* 8&) K _R ’*++< K Pb<1T* S-)- K O ’*\)- K / : N/ : LL : : I Pb<1T*2 [ ^ SU I . . [ SU P+2 K 2&-* 8&) K cc ’*++< K +*-4<’ S-)- K / ’*\)- K N : L" : LL : : I +*-4<’ [ ^ SU I