基于《知网》的词语相似度计算
一种改进的基于知网的句子相似度计算方法
主观题 自动 批 改 是 在线 考 试 系 统 中 的关 键 技术 。
由于 主观题 的答 题 特 点呈 现 出复 杂性 , 目前 还 没 有 一 种考试 系统 能较好 地完 成 自动批改 。主观题 的 自动 批
结合 的方 法等 J 。该方 法仅 从 句子 的表 层 结构 信 息
进行 匹 配而忽 略 了语句 语义分 析 , 在局 限 性 , 响 了 存 影 自动批改 的准 确度 。因此文 中提 出 了一 种新 的基 于 知
An I p o e n e e S m ia iy Ca c l to M eho s d o o nn t d Ba e n H w- t
L n k i XU a la g IYi g a , Xio in
( col f o p t c n e aghuD az U i rt,H nzo 10 8 h a Sho o m ue Si c ,H nzo i i n e i C r e n v sy aghu30 1 ,C i ) n
Ab ta t I r e o o ec me t ee t fifr ain r d nd n y i tree c d lcl o tmu o e — sr c n o d rt v r o he d fcs o nom t e u a c nefr n e a o a p i m fs n o n tn e smia t ac lto a e n lxc li m , t i p p rp o o e e s n e c i lrt ac lto t o e c i lr y c uain b sd o e ia t i l e hs a e rp s sa n w e tn e smi i c luain meh d a y
汉语词语语义相似度计算研究
文 识码:A 献标
中圈 分类号: P9 T 31
汉语 词语 语 义相似 度 计 算研 究
夏 天
( 国人民大学信息资源 管理 学院,北京 10 7 ) 中 82 0
摘 要 :汉语词语 的语义相似度计算是 中文信 息处理 中的一个关键问题 。该文 提出了一种基于知 网、面向语义、可扩展的相似度计算新方
[ e od iWod m l i ; o n ; o cp; e e e K y r s rs i i r y H w  ̄ C n etS m m w s at
汉语词汇相似度计 算在 自动问答、情 报检 索、文本聚类 等应用 中都是一个非常关键的问题” J 。针对这一问题 ,人们
smia iy c mpu a i n wh c s b s d o wn t e r d t e n i n o l e e p n e .T e n w t o e n s a s mi rt omp tto i lrt o tto ih i a e n Ho e ,g a e o s ma t a d c u d b x a d d h e me d d f e i l i c c h i a y uain f r u a a ng Ho e ’ e e sa c r i g t n o ai n t e r , n s awa u fi u t h tOOV r sc n o a t i a e i e n i o m l mo wn tSs m me c o d n o i f r to o y f d y o t t di c l t a m h i of he y wo d a n tp ri p t n s ma t c c
t e s m a t e e mo g a b ta y wo d n l . p r e t lr s l o LI i d c t s t a c u a y r t f t e n w e h d sne ry 1 % h e n i l v la n ir r r s n ia e h tt a c r c a e o h e m t o i a l c r i y m he 5 h g e a e e to e . i h rt npr s n n s h
基于《知网》的词语语义相似度改进及应用
方 法 。 中词 语 间 相似 度 的计 算 , 要 是 基 于按 照 词 语 问结 构 层 点 的最 短 路 径 的 长度 一 言 学 研究 认 为 . 个 义 原 的语 义距 离 越 文 主 语 两 次 关 系组 织 的 语 义词 典 的方 法 .根 据 在 这类 语言 学 资 源 中词 语 大 , 相 似 度越 低 : 之 , 其 反 两个 词 语 的 语 义 距 离越 小 , 其相 似 度 越
描 述 词 语 的最 基本 单 位 .另一 方 面 .义 原 之 间 又存 在 复 杂 的关 系 。 《 网》 , 在 知 中 一共 描 述 了义 原 之 间 的 8 关 系 : 下 位 关 系 、 种 上 同义 关 系 、 义 关 系 、 义关 系 、 性 一 主 关 系 、 件 一 体 关 反 对 属 宿 部 整 系 、 料一 品 关 系 、 材 成 事件 一 色关 系 。 以看 出 , 原之 问组 成 的 角 可 义 是 一个 复 杂 的 网状 结 构 。 而不 是 一 个 单 纯 的 树状 结 构 。不 过 , 义
1 词语 语 义 相似 度 的 计算 、 设 L 为义 原 P在 词 语 树 中 的深 度 , 距 离 初 始 阈 值 , l Y为 x为 与传 统 的 语义 词 典不 同 ,知 网》 采 用 了 l0 《 5 0多 个 义 原 , 通 满 足 不 等 式 ia ( ) y n x L < / 立 的 一 个 正 实 数 , p 与 其 父 结 点 x成 则 i 过 一 种 知识 描 述 语 言来 对 每个 词 语 进 行 描 述 义原 一方 面作 为 的 距离 定 义 为 :
目前 , 于 语 义相 似 度 的 计 算 主要 分 为两 种 : ) 语 信 息 量 对 1词
从 语 距 离法 . 计 算 两 词 语 的 语 义 距 离 . 后 转 化为 语 义相 似 度 。 转 换 为 相似 度值 , 而 计 算 词语 词 语 的 相 似度 。 先 然 本 文在 研 究 了大 量 文 献后 .提 出 了综 合 利 用 现 代 汉 语 语义 分类 12 1义 原 距 离 .. 词典 的类 层次 关 系 中 的多 种影 响 因素 来 计 算 词 语 问 的相 似 度 的 两 个 义 原之 间的 语 义距 离 .是 指 在义 原树 中连 接这 两个 节
基于《知网》的词汇语义相似度计算
基于《知网》的词汇语义相似度计算
《知网》是一个中文语料库,可以用来进行文本语义相似度计算。
常
见的基于《知网》的词汇语义相似度计算方法有:
1.基于《知网》的同义词词林:《知网》中的同义词词林收录了大量
的同义词、近义词和相关词,可以通过比较两个词在同义词词林中的位置,来衡量它们的语义相似度。
比如,可以通过比较两个词在同一类和同一级
别下的位置,来判断它们的相似度。
2.基于《知网》的词语标注:《知网》中的词语标注包括词义分类和
关系标注等信息,可以通过比较两个词的词义分类和关系标注信息,来衡
量它们的语义相似度。
3.基于《知网》的词语关联度计算:可以通过计算两个词在《知网》
中的关联度来判断它们的语义相似度。
常用的方法有基于路径的关联度计
算和基于信息内容的关联度计算。
这些方法都是基于《知网》的语料库信息进行计算的,可以根据具体
需求选择适合的方法进行词汇语义相似度计算。
基于马尔科夫模型的词汇语义相似度计算
D F= {atl 件 : atoio E pr 部 PrP si tn= {er I hat
机变量 X( ) 已知条件 : t) lX(2 = t在 X( 1 = , t)
收 稿 日期 :2 0 —0 —2 09 9 1 作者简介 :皮慧娟(9 1 , , 17 一) 女 湖北鄂州人 , 华侨大学实验师 , 硕士 .
网》 系统 中义原除 了上下位关 系还有很多其他关 系 , 文只讨 论上 下位关 系 . 本 2 2 利 用马 尔科 夫 模型 计 算树 状 结构 的义 原体 .
系相似 度
2 2 1 关 系义 原 的计算 ..
词语 的 D F的义原分 为两 大类 : E 基本 义原 和 关 系义 原 . 笔者认为只有在关系义原相 同的条件下 才去计算 关系义原下的子义原之间 的相 似度 , 如果
心 }w o ={ ty实体 } , hl e i f e nt }
6
沈
阳
大
学
学
报
第2 2卷
其中, NO. 是概 念 编号 , — G— E— w C、 C、 C分 别 是 汉 语词语 、 词性 和 例子 . — G— w E、 E和 E— E分 别 表 示 英 语 的词 语 、 词性 和 例 子 . E D F表 示 的是 概 念 的 定 义 , 达 了 主要 的信 息 . E 表 D F可 看 成 一个 树 状 的结 构 , 图 1所 示 . 中包 含 义原 : 件 、 如 其 部
t,1 2 t): F( tl , x, t).
() 1
则称 此过 程为 马尔科 夫过 程[ .
12 知 . 网
义距离的一种度量 . 王斌采用这种方法利用《 同义 词词 林》 计 算 汉 语 词 语 之 间 的相 似 度n . 些 来 ]有
一种基于《知网》的文本语义相似度的计算方法
造成 了文本 向量 的表 示 空 间难 以有 效 地 降维 。2 ) 由于不 同的文 本 可 能采 用 不 同 的词 汇 来 表 示 相 同
概念 , “ 一对 一” 的匹 配方法 在处 理 时就 显得 无 能 为 力 了¨ 6 ] 。特别 是 同义词 和 近义 词不 能 识别 , 造 成 了 聚类 的误 差 。例 如 : 文本 1 : 土 豆 盛 产 于 中 国 。文
总第 2 9 2期 2 0 1 4年第 2期
计算 机与数字工程
Co mp u t e r&. Di g i t a l En g i n e e r i n g
Vo 1 . 4 2 No . 2
1 87
一ห้องสมุดไป่ตู้
种 基 于 知 网 的 文本 语 义 相 似 度 的计 算 方 法
孙 滨 刘 林
4 5 1 1 0 0 ) ( 郑州华信学 院信息工程 系 郑州
摘
要
论文提 出一个基于语义 的文本 问的相似度算法 , 以文本 的特征词 相似度为基础 , 来计算文本 间的相似度 , 利用
聚类算法对文本簇进行 聚类 。实验结果证 明基于知 网的文本语义相似度方法在对文本相似度计算 以及文本 聚类方面 , 能有 效提 高聚类 的效果 。 关键 词 文本 聚类 ; 义原相似度 ; 语义相似度
Ab s t r a c t A s i mi l a r i t y a l g o r i t h m b a s e d o n s e ma n t i c s i mi l a r i t y i s p r o p o s e d ,wh i c h c a l c u l a t e s t h e s i mi l a r i t y o f t e x t s a c — c o r d i n g t O f e a t u r e wo r d s o f t h e t e x t a n d ma k e s t e x t c l u s t e r s b y e mp l o y i n g c l u s t e r i n g a l g o r i t h m. Th e e x p e r i me n t a l r e s u l t s p r o v e t h a t t h e me t h o d o f t e x t s e ma n t i c s i mi l a r i t y b a s e d o n CNKI i S v e r y e f f i c i e n t i n t e x t s i mi l a r i t y c a l c u l a t i o n a n d t e x t c l u s t e — r i n g ,wh i c h c a n e f f e c t i v e l y i mp r o v e t h e e f f e c t o f c l u s t e r i n g . K e y Wo r d s t e x t c l u s t e r i n g ,p r i mi t i v e s i mi l a r i t y,s e ma n t i c s i mi l a r i t y Cl a s s Nu mb e r TP 3 9 】
文献信息检索文献信息检索实践操作试卷(二)
文献信息检索实践操作试卷(二)目的:查考学生文献信息检索的实践操作掌握情况,主要考察检索基础知识、问题分析、工具选择以及针对具体问题、综合课题的检索等,只要考察学生检索实践操作能力。
试题类型:填空、简答、综合一、填空题(每空1分,共20分)1.利用cnki查找机械模具专业2015-2017年以来清华大学授予的学位论文,结果为55 篇。
2. 在CNKI中,通过主题字段或关键词字段查找有关“互联网+”方面的期刊论文,其中主题字段字段获得的论文篇数比较多。
3.利用独立搜索引擎---“百度”和元搜索引擎---“360搜索”检索有关“信息素养”方面的期刊论文,其检索结果否(是、否)相同。
4.检索“关于大学生大学生与学术规范问题研究”的相关文献,课题分析形成的主题(关键)词为大学生、学术规范。
5.利用《维普中文科技期刊数据库》“期刊导航”功能,查找刊名为“机械工程学报”的期刊的国内统一刊号6.检索式“学术道德and学术规范”表示的含义是逻辑“与”,检索结果中同时包含学术道德和学术规范,使用这个检索式在中国知网上检索,获得的检索结果为 186 条。
7.某同学参加了导师关于“互联网+高职课程教学模式”研究的一个课题,他需要一本有关“互联网+”方面的图书,本馆有无此方面的图书,列出其中一本的索号TP393.4/239 ,馆藏地新区自科一。
(以河南工业职业技术学院为例)8.利用国家知识产权局专利数据库检索2015年至今由华为科技有限公司申请的专利,其中发明专利 95694项、实用新型专利 164 项和外观设计专利 7513 项。
9.利用cnki查找本院系高级职称某某教授发表的论文,其中被引频次最高论文的题目为超声波加工技术的应用研究,该篇文章的参考文献格为:[1]杨雪玲,于兴芝,张成光.超声波加工技术的应用研究[J].现代机械,2009,(02):88-90。
(略)10.检索近五年英国发布的有关“太阳能集热器”方面的标准,共 4 种。
使用网络搜索引擎计算汉语词汇的语义相似度
使用网络搜索引擎计算汉语词汇的语义相似度高国强;黄吕威;陈丰钰【摘要】Similarity computation of Chinese words is a key problem in Chinese information processing. It measures semantic similarity between Chinese words using the information returned by web search engines. First,implement a model named WebPMI which computes similarity using page counts,and then,describe another model named CODC which analyzes semantic similarity using text snippets. Final-ly,present the algorithm based on the two models. Experimental results show that this algorithm outperforms all the existing web-based semantic similarity measures for Chinese,and is close to the traditional semantic similarity measures using lexicon.%汉字词语的语义相似度计算是中文信息处理中的一个关键问题。
文中利用网络搜索引擎提供的信息来计算汉语词对的语义相似性。
首先通过程序访问搜索引擎,获取汉字词汇的搜索结果数,并依此实现了相似度计算模型WebPMI;然后描述了根据查询返回的文本片段进行语义相关性分析的模型CODC;最后,结合这个两个模型,给出了文中算法的伪代码。
基于自然语言处理主观题智能阅卷技术
基于自然语言处理的主观题智能阅卷技术摘要:本文主要探讨使用自然语言处理技术来实现主观题智能阅卷的方法,使用到的关键技术包括分词、句法分析、词语相似度计算以及句子相似度计算。
文章对如何使用这些关键技术来实现主观题智能阅卷系统进行了详细的阐述。
关键词:智能阅卷;分词;词语相似度计算;句子相似度计算中图分类号:tp391.7文献标识码:a文章编号:1007-9599 (2013) 07-0000-02随着计算机技术和通信技术的高速发展,计算机已经应用到人们生活中的各个领域。
在教育领域中,计算机实现试卷自动评阅是教育系统智能化必备的功能。
一方面,计算机智能阅卷能避免人为的误差,能够更客观的反映出评阅结果,保证了阅卷的客观公正性。
另一方面,电脑阅卷省去了老师在传统阅卷模式中主观题阅卷的体力劳动,让老师省出更多时间和精力用在教学工作中。
主观题智能阅卷主要采用的技术路线是自然语言处理技术。
按照主观题的评分流程,阅卷系统主要分为五个部分:分句、分词、句法分析、词语相似度计算以及句子的相似度计算。
1分句将答案分句是评分的第一个步骤,分句的粒度大小也将影响评分结果。
本文将根据特定的标点符号(句号、问号、分号、感叹号)作为句子的分隔符,将句子分为若干子句。
在对参考答案进行分句的时候,需要将之前录入的权值赋值给对应的每个子句。
最后题目的得分应该是各子句相似度的加权求和,用s具体计算如式(1):(1)simi表示第i句的相似度,ßi表示第i句的权值,i取值范围为[0,n],n为子句的个数。
值得注意的是,参考答案每句话的权重是根据句子结束的标点符号来分配的,因此参考答案录入和学生答题的时候每句话的标点符号必须正确填写。
2分词由于分词及词性标注对准确率要求较高,如果这两个步骤出现错误,将会对后续步骤产生严重影响。
因此本文初步考虑使用已经相对成熟得分词工具来进行分词和词性标注。
本文选择的分词工具是中科院计算机研究所开发的ictclas系统,它是最早的中文开源分词项目之一。
文本相似度计算研究进展综述
中图分类号: TP 391. 1
文献标志码: A
A survey on research progress of text similarity calculation
WANG Hanru,ZHANG Yangsen
( Computer School,Beijing Information Science & Technology University,Beijing 100101,China)
( T1,T2,…,Tn) 构成了一个文档向量空间,采用空 间向量间的余弦相似度计算文本相似度。
VSM 的缺陷在于: ①对于大规模语料,VSM 会 产生高维稀疏矩阵,导致计算复杂度增加; ② VSM 假设文本中的各个特征词独立存在,割裂了词与词 之间的关系以及段落间的层次关系。因而用向量空 间进行文本相似度计算时,通常改进 TF-IDF 的计算 方法以提高精确度。例如,张奇等[4]将文本用 3 个 向量( V1,V2,V3) 表示,V1 中的每一维代表特征词 的 TF-IDF 值,V2 根据一个 bi-gram 是否出现取值 0 或 1,V3 使用 tri-gram 信息,取值同 V2,用回归模型 将 3 对向量相似度综合得到句子的相似度; 华秀 丽[5]等利用 TF-IDF 选择特征项,利用知网计算文本 的语义相似度。 2. 2 基于主题模型:
1) 语言的多义同义问题。同一个词在不同的 语境下,可以 表 达 不 同 的 语 义,例 如“苹 果 ”既 可 以 表示水果,也可以表示科技公司; 同理,相同的语义 也可以由不同的词表达,例如“的士”、“计程车”都 可以表示出租车。
以检测出两段文本的抄袭程度; 在文本聚类方面,相 似度阈值可以作为聚类标准; 在自动文摘中,相似度 可以反映局部信息拟合主题的程度。
基于《知网》义原空间文本相似度计算研究与实现
基于《知网》义原空间的文本相似度计算研究与实现重庆大学硕士学位论文(学术学位)学生姓名:张*指导老师:罗军副教授专业:计算机系统结构学科门类:工学重庆大学计算机学院二〇一三年四月Research and Implementation of Text Similarity Computing Based on HowNetSememe SpaceA Thesis Submitted to Chongqing Universityin Partial Fulfillment of the Requirement for theMaster‟s Degree of EngineeringByZhang KeSupervised by Associate Prof. Luo JunSpecialty: Computer System ArchitectureCollege of Computer Science ofChongqing University, Chongqing, ChinaApril 2013重庆大学硕士学位论文中文摘要摘要文本相似度计算是知识产权保护、文本分类、机器翻译、自然语言处理、复制检测、自动问答和信息检索等领域的核心技术。
现有的文本相似度计算方法大致可以归纳为两类,第一类是基于文本特征统计的方法,第二类则是基于文本语义理解的方法。
基于文本特征统计的方法在长文本等大粒度实体的相似度计算方面取得了较好的效果,其中最具代表性的就是向量空间模型(Vector Space Model,简称VSM)和广义向量空间模型(General Vector Space Model,简称GVSM)。
G V S M在VSM的基础上利用文本特征项的共现信息,对VSM模型中特征项正交的假设进行了改进。
基于语义理解的方法,通常以某种知识库作为依据实现词语之间或者句子之间相似度的计算。
基于统计的方法简单高效,但是缺乏语义,无法处理自然语言中“一词多义”和“一义多词”的情况。
改进的基于《知网》的词汇语义相似度计算
摘
要: 针对 当前基 于《 知 网》 的词; r - 语义相似度计算方 法没有充分考虑知识库描述语 言对概 念描述 的线性特征
的情 况, 提 出一种改进 的词j r - 语 义相 似度 计算方法。首先, 充分考虑概念描 述式 中各 义原之 间的线性关 系, 提 出一种 位 置相 关的权 重分配策略 ; 然后 , 将所提 出的策略 结合二部 图最 大权 匹配进行概 念相似度计 算。实验结果表 明 , 采用 改进 方法得 到的聚类结果 F值较对比方法平均提 高 了5 %, 从 而验 证 了改进 方法的合理性 和有 效性 。
基于《知网》的语义相似度计算软件使用手册【模板】
基于《知网》的语义相似度计算软件使用手册1 功能简介本软件是根据[刘群2002]一文中的原理编写的词汇语义相似度计算程序。
主要实现了以下功能:1.1基于交互输入的义原查询、义原距离计算、义原相似度计算1.2基于交互输入的词语义项查询、义项相似度计算、词语相似度计算;1.3基于文件输入的词语义项查询、词语相似度计算;1.4相似度计算中的参数调整。
2 安装说明本软件包一共有四个文件:《基于<知网>的词汇语义相似度计算》软件使用手册.doc:本使用手册《基于<知网>的词汇语义相似度计算》论文.pdf:本软件所依据的论文,采用pdf格式,用Acrobat Reader阅读时需要安装简体中文支持包。
自然语言处理开放资源许可证.doc:本软件包的授权许可证WordSimilarity.zip:程序文件软件安装时,将文件WordSimilarity.zip文件解压缩一个目录下即可,解压缩后有以下几个文件:WordSimilarity.exe:可执行程序;Glossary.dat:《知网》数据文件Semdict.dat:《知网》数据文件Whole.dat:《知网》数据文件必须确保《知网》数据文件在程序执行时的当前目录下。
3 界面说明软件使用简单的对话框界面,如下所示:4 功能说明4.1义原操作4.1.1 义原查询1.首先在“输入1”框中输入义原名称;2.点击“察看义原1”按钮;3.在“义项1”框中将依次显示出该义原及其所有上位义原的编号、中文、英文;类似的方法可以查询“输入2”框中的义原;4.1.2 义原距离计算1.首先在“输入1”和“输入2”框中输入两个义原;2.点击“计算义原距离”按钮;3.在“输出”框中显示两个义原的距离;4.1.3 义原相似度计算1.首先在“输入1”和“输入2”框中输入两个义原;2.点击“计算义原相似度”按钮;3.在“输出”框中显示两个义原的相似度;4.2基于交互输入的词语操作4.2.1 词语义项查询1.首先在“输入1”框中输入要查询的词语;2.点击“察看义项1”按钮;3.在“义项1”框中将依次显示出该词语的所有义项;类似的方法可以查询“输入2”框中的词语义项;4.2.2 义项相似度计算1.首先分别在“输入1”和“输入2”框中输入要计算相似度的两个词语;2.点击“察看义项1”按钮和“察看义项2”按钮;3.在“义项1”框和“义项2”框中将分别显示出这两个词语的所有义项;4.分别在“义项1”框和“义项2”框中点击需要计算相似度的两个词语义项;5.点击“计算义项相似度”按钮;6.在“输出”框中将显示选中的两个义项的相似度;4.2.3 词语相似度计算1.首先分别在“输入1”和“输入2”框中输入要计算相似度的两个词语;2.点击“计算词语相似度”按钮;3.在“输出”框中将显示两个词语的相似度;说明:词语相似度定义为两个词语的所有义项相似度中的最大值。
基于褒贬倾向的句子相似度计算
规 定 , 。 Ⅳ 的 相 似 度各 个 概 念 的相 似 度 之 最 大 值 , 就 是 说 : 和 也
( I, 2 一 W W ) max Si ( . S ) m Si , . ( 1)
这 样 两 个 词语 之 间 的相 似 度 问 题 就 归结 到 了两 个 概 念 之 间 的 相 似 度 问 题 , “ 原 ”是 用 于 描述 “ 念 ”的最 基 本 单 位 , 而 义 概 因
收 稿 日 期 :0 0 0 7 2 1 — 40
基 金 项 目 : 西 科 技 大 学 质 工 程 项 目 ( U T B 2 ; 西科 技 大 学 校 级 自选 项 日( XI 一2 陕 S S -0 )陕 Z O5)
文 章 编 号 :0 0— 2 6 ( 0 0 0 — 0 4 — 0 10 3 7 2 1 )6 06 4
基 于褒 贬倾 向 的句 子相 似 度计 算
王凌燕, 露露 , 丁 李鹏 坤
( 西科 技 大 学 外 国语 与传 播 学 院 , 安 7 0 2 ) 陕 西 1 0 1
摘 要 : 首先 简单介绍 了基于《 知网 》 的词语相似度的计算 , 指出不足 , 并对其进行 改进 , 在其计 算过程 中增加
此 词 语 相 似度 问题 最 终 转 化 为 义 原 相 似度 『 题 . Ⅱ J
12 义 原 相 似 度 计 算 . 义 原 之 间存 在 多种 关 系 , 上 下 位 关 系 、 义或 对 义 关 系 等 , 群 等… 利 用 了 义原 的 上 下 位 关 系 , 算 出两 个 义 原 户 如 反 刘 计 和
第 3 8卷 第 6期
2 1 0 O年 1 1月
河 南 师 范 大 学 学报 ( 自然科 学版 )
一种基于知网的语义相关度计算方法
文本 特征 , 验结 果表 明,该方法更趋于合理 , 大部 分结果更符合人们 的 日常体验 ,有效 提高 了计 算结果 的 实 绝
精确 度和准确性.
关键 词 : 网 ; 原 ;语义相似度 ; 知 语义相关度
中图分类号 :P0 T 31
收 稿 日期 : 0 0— 3—1 21 0 5
文献标识码 : A
事 件类 义 原结 构 .
e ty 实 体 ni l t
一
定程 度 的应 用 ; 群 等人 提 出 的方法 可 以解决 刘
同一特 征 文件 中义 பைடு நூலகம் 间 的语义 相 似 度 问题 ,但 不 能
解决 不 同特 征 文件 义原 间 的语 义 相关 性 问题 .李 索 建 将 知 网和 同义 词 词 林 结 合 起 来 计 算 不 同特 征
文件 中词语 的 相似 度 , 一定 程 度 上解 决 了不 同特 在 征 文件 间词 语 的语 义相 关性 , 是 知 网和 同义 词词 但 林词 语 的组 织 方式 完全 不 同 , 以计 算 结 果 不是 很 所 理想 ;许 云 、 广正 等 提 出 了各 自的语 义相 关 王 度计 算 方法 .本文 根据 知 网 …各 个 特征 文 件 中下 位 义原 享 上位 义原 拥有 的属性 ,即 下位 义 原 对 其 上位
张振 幸 ,李 金 厚
( 安徽工业 大学 计算机学 院 , 安徽 马鞍 山 2 30 ) 4 0 2
摘
要: 本文 以知 网理论相似度 计算为基础 ,提出 了一种计 算词语相关度方法 ; 该方法将 知网中不 同特征文 件
间 的 义 原 通 过 其 解 释 义 原 与 其 它 特 征 文 件 中 的 义 原 建 立 联 系 ,进 而 计 算 它 们 之 间 的相 关 度 , 用 该 方 法 提 取 并
基于《知网》的词汇语义相似度计算
与一般的语义词典(如《同义词词林》,或Wordnet)不同,《知网》并不是简单的将所有的"概念"归结到一个树状的概念层次体系中,而是试图用一系列的"义原"来对每一个"概念"进行描述。
《知网》一共采用了1500义原,这些义原分为以下几个大类:
除了基于实例的机器翻译之外,词语相似度计算在信息检索、信息抽取、词义排歧等领域都有着广泛的应用。
2 词语相似度及其计算的方法
2.1 什么是词语相似度
什么是词语相似度?
我们认为,词语相似度是一个主观性相当强的概念。脱离具体的应用去谈论词语相似度,很难得到一个统一的定义。因为词语之间的关系非常复杂,其相似或差异之处很难用一个简单的数值来进行度量。从某一角度看非常相似的词语,从另一个角度看,很可能差异非常大。
我们的工作主要包括:
1. 研究《知网》中知识描述语言的语法,了解其描述一个词义所用的多个义原之间的关系,区分其在词语相似度计算中所起的作用;
2. 提出利用《知网》进行词语相似度计算的算法;
3. 通过实验验证该算法的有效性,并与其他算法进行比较。
关键词:《知网》 词汇语义相似度计算 自然语言处理
1. 每一个词的语义描述由多个义原组成,例如"暗箱"一词的语义描述为:part|部件,%tool|用具,body|身,"写信"一词的语义描述为:#TakePicture|拍摄write|写,ContentProduct=letter|信件;
2. 词语的语义描述中各个义原并不是平等的,它们之间有着复杂的关系,通过一种专门的知识描述语言来表示。
基于《知网》词语相似度计算
基于《知网》的词语相似度计算[摘要]词语相似度计算是计算机中文处理中的基础和重要环节,目前基于《知网》的词语相似度计算是一种常见的方法,本文将对该方法做系统介绍。
[关键词]《知网》词语相似度计算一、《知网》的结构《知网》(hownet)是我国著名机器翻译专家董振东先生和董强先生创建的,是一个常识知识库,它含有丰富的词汇语义知识以及世界知识,内部结构复杂。
《知网》中两个最基础的概念是“概念”和“义原”。
“概念”是用来描述词语语义。
因为一个词可以含有多个语义,所以一个词需要多个概念来描述。
使用“知识表示语言”对概念进行描述,“知识表示语言”使用的“词汇”便是义原。
《知网》中的不可再分的、最小的意义单位是“义原”,义原用来描述“概念”。
《知网》采用的义原有1500个,它们一共可以分为十类,具体见图1。
知网反映了概念之间、概念属性之间各种各样的关系,总体来说知网描述了16种关系:上下位关系;同义关系、反义关系、对义关系;部件-整体关系;属性-宿主关系;材料-成品关系;施事/经验者/关系;主体-事件关系;受事/内容/领属物等事件关系;工具-事件关系;场所-事件关系;时间-事件关系;值-属性关系;实体-值关系;事件-角色关系;相关关系。
由《知网》的结构得知义原之间组成的不是一个树状结构,而是一个复杂的网状结构。
然而义原关系中最重要的是上下位关系。
所有的“基本义原”以这种上下位关系为基础构成了义原层次体系,叫做义原分类树。
在义原分类树中,父节点义原和子节点义原之间具有上下位关系。
可以通过义原分类树来计算词语和词语之间的语义距离。
二、知网的知识词典知识词典是知网中最基本的数据库。
在知识词典中,每一个概念(概念又称为义项)可以用一条记录来描述。
一条记录含有八项信息,每一项由用“=”连接的两个部分组成,等号左边表示数据的域名,右边是数据的值。
比如下面就是一条描述概念的记录:no=017114w_c=打g_c=ve_c= ~乒乓球,~篮球w_e=playg_e=ve_e=def=exercise|锻炼,sport|体育其中,no表示概念的编号,w_c表示汉语词语,g_c表示汉语词语的词性,e_c表示汉语词语例子,w_e表示英语词语,g_e则表示英语词语词性,e_e表示英语词语例子,def表示概念的定义,通过一个语义表达式来描述。
基于知网和知识图的汉语词语语义相似度算法
Cl s m b r TP3 】 a s Nu e 9
1 引 言
词 语 是汉语 语 素 组 成 和 自然 语 言 中能 够 独 立 运 用 的最 小 单 位 , 汉 语 最 基 本 的语 法 和 语 义 单 是 位 , 以将 词语 看作 汉语 语 言 文字 中的概 念 。词 语 可 语 义相 似 度 计 算 已广 泛 应 用 在 数 据 挖 掘 、 息 抽 信 取、 自动 问答 系统 、 文本 分类 等 诸 多领 域 , 为 当今 成
应词语 的语义相似度 。实验结果 表明该算法对词语间语义相似度计算是 有效的 。 关键词 知 网;知识图 ; 汉语 词语 ; 义相 似度 ; 图 语 词
T 31 P 9 中图分类号
A Chi e e W o d Se a t c Si ia iy Al o i h n s r m n i m l rt g rt m
7 1 1) 2 0 6
Ab t a t S m a tc s i rt n f t e b sc r l t n e we n Ch n s r s n t i p p r h r s s ma t s r c e n i i l iy i o e o h a i ea i s b t e i e e wo d .I h s a e ,t e wo d e n i m a S o c
基于知识图的汉语词汇语义相似度计算
基于知识图的汉语词汇语义相似度计算
张瑞霞;朱贵良;杨国增
【期刊名称】《中文信息学报》
【年(卷),期】2009(023)003
【摘要】提出了一种基于知识图的汉语词汇相似度计算方法,该方法以<知
网>2005版为语义知识资源,以知识图为知识表示方法,在构造词图的基础上,以知网中的语义关系为依据对词汇概念中的义原进行分类,通过计算不同类型义原的相似度得到概念的相似度;为了对词汇相似度计算方法进行客观评价,设计了词汇相似度计算方法的量化评价模型;采用该模型对所提出的计算方法进行评价,试验结果证明此方法的有效度为89.1%.
【总页数】5页(P116-120)
【作者】张瑞霞;朱贵良;杨国增
【作者单位】华北水利水电学院,信息工程学院,河南,郑州,450011;华北水利水电学院,信息工程学院,河南,郑州,450011;郑州师范高等专科学校,数学系,河南,郑
州,450044
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于语义框架填充过程的语义相似度计算 [J], 李翠曼;黄广君
2.基于知识图的汉语词语间语义相似度计算 [J], 张晓孪;张蕾;王西锋
3.基于语义构词的汉语词语语义相似度计算 [J], 康司辰;刘扬
4.基于局部和全局语义融合的跨语言句子语义相似度计算模型 [J], 李霞;刘承标;章友豪;蒋盛益
5.基于动态语义编码双向LSTM的中文语义相似度计算 [J], 初雅莉; 郑虹; 侯秀萍因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于《知网》的词语相似度计算
[摘要]词语相似度计算是计算机中文处理中的基础和重要环节,目前基于《知网》的词语相似度计算是一种常见的方法,本文将对该方法做系统介绍。
[关键词]《知网》词语相似度计算
一、《知网》的结构
《知网》(HowNet)是我国著名机器翻译专家董振东先生和董强先生创建的,是一个常识知识库,它含有丰富的词汇语义知识以及世界知识,内部结构复杂。
《知网》中两个最基础的概念是“概念”和“义原”。
“概念”是用来描述词语语义。
因为一个词可以含有多个语义,所以一个词需要多个概念来描述。
使用“知识表示语言”对概念进行描述,“知识表示语言”使用的“词汇”便是义原。
《知网》中的不可再分的、最小的意义单位是“义原”,义原用来描述“概念”。
《知网》采用的义原有1500个,它们一共可以分为十类,具体见图1。
知网反映了概念之间、概念属性之间各种各样的关系,总体来说知网描述了16种关系:
上下位关系;同义关系、反义关系、对义关系;部件-整体关系;属性-宿主关系;材料-成品关系;施事/经验者/关系;主体-事件关系;受事/内容/领属物等事件关系;工具-事件关系;场所-事件关系;时间-事件关系;值-属性关系;实体-值关系;事件-角色关系;相关关系。
由《知网》的结构得知义原之间组成的不是一个树状结构,而是一个复杂的网状结构。
然而义原关系中最重要的是上下位关系。
所有的“基本义原”以这种上下位关系为基础构成了义原层次体系,叫做义原分类树。
在义原分类树中,父节点义原和子节点义原之间具有上下位关系。
可以通过义原分类树来计算词语和词语之间的语义距离。
二、知网的知识词典
知识词典是知网中最基本的数据库。
在知识词典中,每一个概念(概念又称为义项)可以用一条记录来描述。
一条记录含有八项信息,每一项由用“=”连接的两个部分组成,等号左边表示数据的域名,右边是数据的值。
比如下面就是一条描述概念的记录:
NO=017114
W_C=打
G_C=V
E_C= ~乒乓球,~篮球
W_E=play
G_E=V
E_E=
DEF=exercise|锻炼,sport|体育
其中,NO表示概念的编号,W_C表示汉语词语,G_C表示汉语词语的词性,E_C表示汉语词语例子,W_E表示英语词语,G_E则表示英语词语词性,E_E表示英语词语例子,DEF表示概念的定义,通过一个语义表达式来描述。
需要强调的是,DEF项包含若干个相应的义原以及这些义原与主干词之间的语义关系。
DEF项是知网的核心,不可以为空,必须填写内容。
DEF项的起始位置,必须用来描述知网中规定的主要义原。
鉴于知网的组织关系,本文的相似度计算按照以下步骤完成:先计算义原的相似度;在此基础上计算词语的相似度。
三、基于《知网》的义原相似度计算
在《知网》中,依据上下位关系,所有的义原构成了一个树状层次结构,可以根据两个义原之间的路径长度来计算其相似度。
即根据上述树形图中,两个结点之间的路径长度来表示这两个义原的语义距离。
本文将两个义原分别记为pl、p2,将它们的语义距离记为d,p1和p2两个义原的相似度记为Sim(p1,p2),相应的公式如下:
Sim(p1,p2)=ad+a
其中,d表示两个义原p1和p2的路径长度,a是一个调节参数,本文取相似度为0.5时的路径长度(d)的值。
Sim(pl,p2)取值在[0,1]之间。
在这里,本文只利用了义原的上下位关系来计算义原相似度。
四、基于《知网》的词语相似度计算
基于《知网》的词语相似度研究已经比较成熟。
刘群等提出了一种基于《知网》的词语相似度计算方法,下面对此进行介绍。
汉语词语可以分为实词和虚词,本文做如下约定:在文本中实词和虚词不能互相代替,即实词和虚词的相似度是零。
计算虚词的相似度就比较简单,计算用来描述虚词的关系义原之间、或者句法义原之间的相似度就可以了。
实词则不同,它需要使用语义表达式进行描述,所以实词的相似度计算难度就比较大。
本文使用实词定义项中义原和义原之间的相似度,来描述实词与实词之间的相似度。
本文选择描述这两个实词的概念之间的最大相似度作为这两个实词之间的相似度。
概念通过义原进行描述,实词概念的语义表达式由四部分组成,它们分别是第一独立义原描述式,其他独立义原描述式,关系义原描述式和符号义原描述式。
本文把这些义原描述式的相似度分别记为:Sim1(S 1 ,S 2 )、Sim2(S 1 ,S 2 )、Sim3(S 1 ,S 2 )、Sim4(S 1 ,S 2 )。
由此,两个概念S 1 ,S 2 之间的相似度计算公式如下:
Sim(S 1 ,S 2 )=
其中,βi(1≤i≤4)是可以调节的参数,代表每一部分的权重,且有β1+β2+β3+β4=1,β1≥β2≥β3≥β4。
由于第一独立义原描述式Sim1可以反映一个概念的最主要特征,所以本文将它的权值定义得比较大,一般应大于0.5。
Sim1到Sim4各部分相似度的计算方法如下:
1)对于第一独立义原描述式:利用公式1计算两个义原的相似度即可,方法比较简单;
2)对于其他独立义原描述式:计算相对复杂,需要对相应义原进行分组,步骤如下:(1)两个概念各自有一个其他独立义原集合,对这两组义原相互之间进行任意配对,并且计算出每一对义原的相似度;(2)将当前相似度最大的一对义原从各自的集合中取出(不再属于原集合),归入一个集合;(3)重复第(2)步,直到所有的其他独立义原完成归类。
(4)根据开始时两个概念各自的独立义原集合的大小,以及后来得到的新集合,来计算Sim2;
3)对于关系义原描述式:这一部分仍然是一个集合运算问题,需要将关系义原相同的描述式进行统一归组,再计算其相似度;
4)对于符号义原描述式:这一部分的计算与关系义原描述式有些相似,只有在符号相同的前提下,再计算配对义原的相似度。
最后,把上述四个相似度计算结果进行加权求和,便可以得到两个概念之间的相似度。
假如有两个词语分别为W 1 和W 2 ,其中W 1 含有n个概念,分别为:S 11 ,S 12 ,……,S 1n ,W 2 则含有m个概念,分别为S 21 ,S 22 ,……,S 2m 。
那么计算词语W 1 和W 2 相似度的公式如下。
Sim(W 1 ,W 2 )=Sim(S 1i ,S 2j )
注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。