基于《知网》词语相似度计算

合集下载

词语相似度计算

词语相似度计算

词语相似度计算[原创]当事物可以计算的时候就产生了智能----Alert一、词语相似度词义相似度计算在很多领域中都有广泛的应用,例如信息检索、信息抽取、文本分类、词义排歧、基于实例的机器翻译等等。

国内很多论文主要是基于同义词林和知网来计算的。

本文的词语相似度计算是基于《同义词词林》的。

二、同义词林介绍《同义词词林》是梅家驹等人于1983年编纂而成,这本词典中不仅包括了一个词语的同义词, 也包含了一定数量的同类词, 即广义的相关。

《同义词词林》的编写年代久远,之后没有更新。

哈工大花费了大量的人力物力完成了一部具有汉语大词表的哈工大信息检索研究室《同义词词林扩展版》,《同义词词林扩展版》收录词语近7万条。

原版的《同义词词林》目录如下:哈工大《同义词词林扩展版》保留《同义词词林》原有的三层分类体系,并在此基础上对词语继续细分类,增加两层,得到最终的五层分类体系,这样词典中的词语之间就体现了良好的层次关系,如下图表示的词语树形结构:例如:“东南西北”的编码为Cb02A01=C是第1层、b是第二层、02是第三层、A是第四层、01是第五层,=号有特殊的意义。

词语的编码规则如下:表中的编码位是按照从左到右的顺序排列。

第八位的标记有3种,分别是“=”、“#”、“@”, “=”代表“相等”、“同义”。

末尾的“#”代表“不等”、“同类”,属于相关词语。

末尾的“@”代表“自我封闭”、“独立”,它在词典中既没有同义词,也没有相关词。

三、词语相似度定义1 语义相似度。

给定两个词汇w1和w2,它们之间的相似度通过 Sim(w1,w2):S*S->[0,1],表示集合S中的两个词汇w1和w2的相似程度。

简单的说相似度函数是个值域在[0,1]间的函数。

本文的计算公式参考了《基于同义词词林的词语相似度计算方法》一文,相似度函数计算公式如下:若两个义项的相似度用Sim表示,n表示所在分枝层分支数,k表示两个分支间的距离。

1.若两个义项不在同一查树上:Sim(A,B) = f如:人 Aa01A01=和 实物 Ba01A01=2.若两个义项在同一查树上:1)若在第2层分支Sim(A,B) = a*cos(n*pi/180)*[(n-k+1)/n]如:人 Aa01A01= 和 少儿 Ab04B01=由于A开头的编码个数为1309个,所以n=1309;在第2层,人的编码是a,少儿的编码是b所以k=12)若在第3层分支Sim(A,B) = b*cos(n*pi/180)*[(n-k+1)/n]如:人 Aa01A01= 和 老弟 Aa03A03=Aa开头的编码个数为55个,所以n=55;第3层人的编码为01,老弟的编码为03,所以k=23)若在第4层分支Sim(A,B) = c*cos(n*pi/180)*[(n-k+1)/n]4)若在第5层分支Sim(A,B) = d*cos(n*pi/180)*[(n-k+1)/n]a、b、c、d、f参数由实验测得,程序里使用的参数如下:a=0.65、b=0.8、c=0.9、d=0.96、f=0.1一个词可能有多个编码,相似度的计算取最大值,如:词语“骄傲”的编码有“Da13A01”,“Ee34D01”;“仔细”的编码有“Ee26A01”,“Ee28A01”。

一种改进的基于知网的句子相似度计算方法

一种改进的基于知网的句子相似度计算方法
字 符 串编辑距 离 , 考 虑 了 不 同词 性 词 汇对 句 子 的 影 还 响程度 不 同而 赋 以不 同的权 重 。该 方法从 两 个方 面 有 效地 提 高 了句 子相 似度计 算 的准确 性 。
主观题 自动 批 改 是 在线 考 试 系 统 中 的关 键 技术 。
由于 主观题 的答 题 特 点呈 现 出复 杂性 , 目前 还 没 有 一 种考试 系统 能较好 地完 成 自动批改 。主观题 的 自动 批
结合 的方 法等 J 。该方 法仅 从 句子 的表 层 结构 信 息
进行 匹 配而忽 略 了语句 语义分 析 , 在局 限 性 , 响 了 存 影 自动批改 的准 确度 。因此文 中提 出 了一 种新 的基 于 知
An I p o e n e e S m ia iy Ca c l to M eho s d o o nn t d Ba e n H w- t
L n k i XU a la g IYi g a , Xio in
( col f o p t c n e aghuD az U i rt,H nzo 10 8 h a Sho o m ue Si c ,H nzo i i n e i C r e n v sy aghu30 1 ,C i ) n
Ab ta t I r e o o ec me t ee t fifr ain r d nd n y i tree c d lcl o tmu o e — sr c n o d rt v r o he d fcs o nom t e u a c nefr n e a o a p i m fs n o n tn e smia t ac lto a e n lxc li m , t i p p rp o o e e s n e c i lrt ac lto t o e c i lr y c uain b sd o e ia t i l e hs a e rp s sa n w e tn e smi i c luain meh d a y

基于《知网》的词语语义相似度改进及应用

基于《知网》的词语语义相似度改进及应用

方 法 。 中词 语 间 相似 度 的计 算 , 要 是 基 于按 照 词 语 问结 构 层 点 的最 短 路 径 的 长度 一 言 学 研究 认 为 . 个 义 原 的语 义距 离 越 文 主 语 两 次 关 系组 织 的 语 义词 典 的方 法 .根 据 在 这类 语言 学 资 源 中词 语 大 , 相 似 度越 低 : 之 , 其 反 两个 词 语 的 语 义 距 离越 小 , 其相 似 度 越
描 述 词 语 的最 基本 单 位 .另一 方 面 .义 原 之 间 又存 在 复 杂 的关 系 。 《 网》 , 在 知 中 一共 描 述 了义 原 之 间 的 8 关 系 : 下 位 关 系 、 种 上 同义 关 系 、 义 关 系 、 义关 系 、 性 一 主 关 系 、 件 一 体 关 反 对 属 宿 部 整 系 、 料一 品 关 系 、 材 成 事件 一 色关 系 。 以看 出 , 原之 问组 成 的 角 可 义 是 一个 复 杂 的 网状 结 构 。 而不 是 一 个 单 纯 的 树状 结 构 。不 过 , 义
1 词语 语 义 相似 度 的 计算 、 设 L 为义 原 P在 词 语 树 中 的深 度 , 距 离 初 始 阈 值 , l Y为 x为 与传 统 的 语义 词 典不 同 ,知 网》 采 用 了 l0 《 5 0多 个 义 原 , 通 满 足 不 等 式 ia ( ) y n x L < / 立 的 一 个 正 实 数 , p 与 其 父 结 点 x成 则 i 过 一 种 知识 描 述 语 言来 对 每个 词 语 进 行 描 述 义原 一方 面作 为 的 距离 定 义 为 :
目前 , 于 语 义相 似 度 的 计 算 主要 分 为两 种 : ) 语 信 息 量 对 1词
从 语 距 离法 . 计 算 两 词 语 的 语 义 距 离 . 后 转 化为 语 义相 似 度 。 转 换 为 相似 度值 , 而 计 算 词语 词 语 的 相 似度 。 先 然 本 文在 研 究 了大 量 文 献后 .提 出 了综 合 利 用 现 代 汉 语 语义 分类 12 1义 原 距 离 .. 词典 的类 层次 关 系 中 的多 种影 响 因素 来 计 算 词 语 问 的相 似 度 的 两 个 义 原之 间的 语 义距 离 .是 指 在义 原树 中连 接这 两个 节

基于马尔科夫模型的词汇语义相似度计算

基于马尔科夫模型的词汇语义相似度计算

D F= {atl 件 : atoio E pr 部 PrP si tn= {er I hat
机变量 X( ) 已知条件 : t) lX(2 = t在 X( 1 = , t)
收 稿 日期 :2 0 —0 —2 09 9 1 作者简介 :皮慧娟(9 1 , , 17 一) 女 湖北鄂州人 , 华侨大学实验师 , 硕士 .
网》 系统 中义原除 了上下位关 系还有很多其他关 系 , 文只讨 论上 下位关 系 . 本 2 2 利 用马 尔科 夫 模型 计 算树 状 结构 的义 原体 .
系相似 度
2 2 1 关 系义 原 的计算 ..
词语 的 D F的义原分 为两 大类 : E 基本 义原 和 关 系义 原 . 笔者认为只有在关系义原相 同的条件下 才去计算 关系义原下的子义原之间 的相 似度 , 如果
心 }w o ={ ty实体 } , hl e i f e nt }







第2 2卷
其中, NO. 是概 念 编号 , — G— E— w C、 C、 C分 别 是 汉 语词语 、 词性 和 例子 . — G— w E、 E和 E— E分 别 表 示 英 语 的词 语 、 词性 和 例 子 . E D F表 示 的是 概 念 的 定 义 , 达 了 主要 的信 息 . E 表 D F可 看 成 一个 树 状 的结 构 , 图 1所 示 . 中包 含 义原 : 件 、 如 其 部
t,1 2 t): F( tl , x, t).
() 1
则称 此过 程为 马尔科 夫过 程[ .
12 知 . 网
义距离的一种度量 . 王斌采用这种方法利用《 同义 词词 林》 计 算 汉 语 词 语 之 间 的相 似 度n . 些 来 ]有

中文词语语义相似度计算_基于_知网_2000

中文词语语义相似度计算_基于_知网_2000
首先, 用来描述词语的义原之间存在多种关系。 我们认为在《知网》2000 中, 义原之间的 主要关系 有: 上下位关系; 属性关系, 指/ 实体0 类义原( 置于 [ ] 中, 见图 1) 和/ 事件类义原0的共性( 置于{ } 中) ; 对义关系和反义关系。其中最基本的仍然是树状层 次体系中的上下位关系( 见图 1)
《知网》的 基本形式是对中 文词语的释义 和描 述。与一般的语义词典如 Wordnet 不同的地 方有 两点:
第一, 词语( 概念) 的意义不是通过一些其他的 常用词语来解释、说明, 而是通过 / 义原0来描述、定 义。比如/ 打0 ( 打篮球, 打太极) , 这个词有一 项描 述是:
DEF = exer cise| 锻炼, spo rt| 体 育
DEF = human | 人, # occu-
医生 pation| 职位, * cure | 医治, *
medica l| 医
患者
DEF= human| 人, * SufferFr om| 罹患, $ cur e| 医治
$
obtain | 得 到, po ssession = 得利 pros| 益( 注: 等号左边为/ 动 =
%
颜色
DEF= attr ibute| 属性, color | 颜色, & physical| 物质
&

DEF= mater ial| 材料, ? clo thing | 衣物
?
DEF= Inst itutePlace | 场所,
医院 @ cure | 医 治, # disease| 疾 @
病, medical| 医
见表1从表1的例子中可以看出知网义原加标识符来定义词语的方式不但给出了词语的语义信息比如医院0是医疗场所也显式地给出了概念之间的联系比如医治0的实施者是医生0受事者是患者0而地点是医院0

一种基于《知网》的文本语义相似度的计算方法

一种基于《知网》的文本语义相似度的计算方法
究, 取得 了不少 成 果 , 但 是 文 本 聚 类 也 面 临 着各 方
造成 了文本 向量 的表 示 空 间难 以有 效 地 降维 。2 ) 由于不 同的文 本 可 能采 用 不 同 的词 汇 来 表 示 相 同
概念 , “ 一对 一” 的匹 配方法 在处 理 时就 显得 无 能 为 力 了¨ 6 ] 。特别 是 同义词 和 近义 词不 能 识别 , 造 成 了 聚类 的误 差 。例 如 : 文本 1 : 土 豆 盛 产 于 中 国 。文
总第 2 9 2期 2 0 1 4年第 2期
计算 机与数字工程
Co mp u t e r&. Di g i t a l En g i n e e r i n g
Vo 1 . 4 2 No . 2
1 87
一ห้องสมุดไป่ตู้
种 基 于 知 网 的 文本 语 义 相 似 度 的计 算 方 法
孙 滨 刘 林
4 5 1 1 0 0 ) ( 郑州华信学 院信息工程 系 郑州


论文提 出一个基于语义 的文本 问的相似度算法 , 以文本 的特征词 相似度为基础 , 来计算文本 间的相似度 , 利用
聚类算法对文本簇进行 聚类 。实验结果证 明基于知 网的文本语义相似度方法在对文本相似度计算 以及文本 聚类方面 , 能有 效提 高聚类 的效果 。 关键 词 文本 聚类 ; 义原相似度 ; 语义相似度
Ab s t r a c t A s i mi l a r i t y a l g o r i t h m b a s e d o n s e ma n t i c s i mi l a r i t y i s p r o p o s e d ,wh i c h c a l c u l a t e s t h e s i mi l a r i t y o f t e x t s a c — c o r d i n g t O f e a t u r e wo r d s o f t h e t e x t a n d ma k e s t e x t c l u s t e r s b y e mp l o y i n g c l u s t e r i n g a l g o r i t h m. Th e e x p e r i me n t a l r e s u l t s p r o v e t h a t t h e me t h o d o f t e x t s e ma n t i c s i mi l a r i t y b a s e d o n CNKI i S v e r y e f f i c i e n t i n t e x t s i mi l a r i t y c a l c u l a t i o n a n d t e x t c l u s t e — r i n g ,wh i c h c a n e f f e c t i v e l y i mp r o v e t h e e f f e c t o f c l u s t e r i n g . K e y Wo r d s t e x t c l u s t e r i n g ,p r i mi t i v e s i mi l a r i t y,s e ma n t i c s i mi l a r i t y Cl a s s Nu mb e r TP 3 9 】

使用网络搜索引擎计算汉语词汇的语义相似度

使用网络搜索引擎计算汉语词汇的语义相似度

使用网络搜索引擎计算汉语词汇的语义相似度高国强;黄吕威;陈丰钰【摘要】Similarity computation of Chinese words is a key problem in Chinese information processing. It measures semantic similarity between Chinese words using the information returned by web search engines. First,implement a model named WebPMI which computes similarity using page counts,and then,describe another model named CODC which analyzes semantic similarity using text snippets. Final-ly,present the algorithm based on the two models. Experimental results show that this algorithm outperforms all the existing web-based semantic similarity measures for Chinese,and is close to the traditional semantic similarity measures using lexicon.%汉字词语的语义相似度计算是中文信息处理中的一个关键问题。

文中利用网络搜索引擎提供的信息来计算汉语词对的语义相似性。

首先通过程序访问搜索引擎,获取汉字词汇的搜索结果数,并依此实现了相似度计算模型WebPMI;然后描述了根据查询返回的文本片段进行语义相关性分析的模型CODC;最后,结合这个两个模型,给出了文中算法的伪代码。

矿产

矿产

矿产资源开发利用方案编写内容要求及审查大纲
矿产资源开发利用方案编写内容要求及《矿产资源开发利用方案》审查大纲一、概述
㈠矿区位置、隶属关系和企业性质。

如为改扩建矿山, 应说明矿山现状、
特点及存在的主要问题。

㈡编制依据
(1简述项目前期工作进展情况及与有关方面对项目的意向性协议情况。

(2 列出开发利用方案编制所依据的主要基础性资料的名称。

如经储量管理部门认定的矿区地质勘探报告、选矿试验报告、加工利用试验报告、工程地质初评资料、矿区水文资料和供水资料等。

对改、扩建矿山应有生产实际资料, 如矿山总平面现状图、矿床开拓系统图、采场现状图和主要采选设备清单等。

二、矿产品需求现状和预测
㈠该矿产在国内需求情况和市场供应情况
1、矿产品现状及加工利用趋向。

2、国内近、远期的需求量及主要销向预测。

㈡产品价格分析
1、国内矿产品价格现状。

2、矿产品价格稳定性及变化趋势。

三、矿产资源概况
㈠矿区总体概况
1、矿区总体规划情况。

2、矿区矿产资源概况。

3、该设计与矿区总体开发的关系。

㈡该设计项目的资源概况
1、矿床地质及构造特征。

2、矿床开采技术条件及水文地质条件。

基于自然语言处理主观题智能阅卷技术

基于自然语言处理主观题智能阅卷技术

基于自然语言处理的主观题智能阅卷技术摘要:本文主要探讨使用自然语言处理技术来实现主观题智能阅卷的方法,使用到的关键技术包括分词、句法分析、词语相似度计算以及句子相似度计算。

文章对如何使用这些关键技术来实现主观题智能阅卷系统进行了详细的阐述。

关键词:智能阅卷;分词;词语相似度计算;句子相似度计算中图分类号:tp391.7文献标识码:a文章编号:1007-9599 (2013) 07-0000-02随着计算机技术和通信技术的高速发展,计算机已经应用到人们生活中的各个领域。

在教育领域中,计算机实现试卷自动评阅是教育系统智能化必备的功能。

一方面,计算机智能阅卷能避免人为的误差,能够更客观的反映出评阅结果,保证了阅卷的客观公正性。

另一方面,电脑阅卷省去了老师在传统阅卷模式中主观题阅卷的体力劳动,让老师省出更多时间和精力用在教学工作中。

主观题智能阅卷主要采用的技术路线是自然语言处理技术。

按照主观题的评分流程,阅卷系统主要分为五个部分:分句、分词、句法分析、词语相似度计算以及句子的相似度计算。

1分句将答案分句是评分的第一个步骤,分句的粒度大小也将影响评分结果。

本文将根据特定的标点符号(句号、问号、分号、感叹号)作为句子的分隔符,将句子分为若干子句。

在对参考答案进行分句的时候,需要将之前录入的权值赋值给对应的每个子句。

最后题目的得分应该是各子句相似度的加权求和,用s具体计算如式(1):(1)simi表示第i句的相似度,ßi表示第i句的权值,i取值范围为[0,n],n为子句的个数。

值得注意的是,参考答案每句话的权重是根据句子结束的标点符号来分配的,因此参考答案录入和学生答题的时候每句话的标点符号必须正确填写。

2分词由于分词及词性标注对准确率要求较高,如果这两个步骤出现错误,将会对后续步骤产生严重影响。

因此本文初步考虑使用已经相对成熟得分词工具来进行分词和词性标注。

本文选择的分词工具是中科院计算机研究所开发的ictclas系统,它是最早的中文开源分词项目之一。

改进的基于《知网》的词汇语义相似度计算

改进的基于《知网》的词汇语义相似度计算
Ab s t r a c t :T h e p r e s e n t Ho wNe t — b a s e d v o c a b u l a r y s e ma n t i c s i mi l a i r t y c a l c u l a t i o n me t h o d f a i l s t o g i v e d u e a t t e n t i o n t o t h e l i n e a r f e a t u r e o f c o n c e p t u l a d e s c i r p t i o n i n k n o wl e d g e d a t a b a s e ma r k — u p l a n g u a g e .T o r e s o l v e t h i s s h o r t c o mi n g ,a n i mp r o v e d v o c a b u l a r y s e ma n t i c s i mi l a i r t y c a l c u l a t i o n me t h o d wa s p r o p o s e d .F i r s t l y ,f u l l y c o n s i d e r i n g t h e l i n e a r r e l a t i o n s h i p b e t we e n t h e

要: 针对 当前基 于《 知 网》 的词; r - 语义相似度计算方 法没有充分考虑知识库描述语 言对概 念描述 的线性特征
的情 况, 提 出一种改进 的词j r - 语 义相 似度 计算方法。首先, 充分考虑概念描 述式 中各 义原之 间的线性关 系, 提 出一种 位 置相 关的权 重分配策略 ; 然后 , 将所提 出的策略 结合二部 图最 大权 匹配进行概 念相似度计 算。实验结果表 明 , 采用 改进 方法得 到的聚类结果 F值较对比方法平均提 高 了5 %, 从 而验 证 了改进 方法的合理性 和有 效性 。

基于《知网》的语义相似度计算软件使用手册【模板】

基于《知网》的语义相似度计算软件使用手册【模板】

基于《知网》的语义相似度计算软件使用手册1 功能简介本软件是根据[刘群2002]一文中的原理编写的词汇语义相似度计算程序。

主要实现了以下功能:1.1基于交互输入的义原查询、义原距离计算、义原相似度计算1.2基于交互输入的词语义项查询、义项相似度计算、词语相似度计算;1.3基于文件输入的词语义项查询、词语相似度计算;1.4相似度计算中的参数调整。

2 安装说明本软件包一共有四个文件:《基于<知网>的词汇语义相似度计算》软件使用手册.doc:本使用手册《基于<知网>的词汇语义相似度计算》论文.pdf:本软件所依据的论文,采用pdf格式,用Acrobat Reader阅读时需要安装简体中文支持包。

自然语言处理开放资源许可证.doc:本软件包的授权许可证WordSimilarity.zip:程序文件软件安装时,将文件WordSimilarity.zip文件解压缩一个目录下即可,解压缩后有以下几个文件:WordSimilarity.exe:可执行程序;Glossary.dat:《知网》数据文件Semdict.dat:《知网》数据文件Whole.dat:《知网》数据文件必须确保《知网》数据文件在程序执行时的当前目录下。

3 界面说明软件使用简单的对话框界面,如下所示:4 功能说明4.1义原操作4.1.1 义原查询1.首先在“输入1”框中输入义原名称;2.点击“察看义原1”按钮;3.在“义项1”框中将依次显示出该义原及其所有上位义原的编号、中文、英文;类似的方法可以查询“输入2”框中的义原;4.1.2 义原距离计算1.首先在“输入1”和“输入2”框中输入两个义原;2.点击“计算义原距离”按钮;3.在“输出”框中显示两个义原的距离;4.1.3 义原相似度计算1.首先在“输入1”和“输入2”框中输入两个义原;2.点击“计算义原相似度”按钮;3.在“输出”框中显示两个义原的相似度;4.2基于交互输入的词语操作4.2.1 词语义项查询1.首先在“输入1”框中输入要查询的词语;2.点击“察看义项1”按钮;3.在“义项1”框中将依次显示出该词语的所有义项;类似的方法可以查询“输入2”框中的词语义项;4.2.2 义项相似度计算1.首先分别在“输入1”和“输入2”框中输入要计算相似度的两个词语;2.点击“察看义项1”按钮和“察看义项2”按钮;3.在“义项1”框和“义项2”框中将分别显示出这两个词语的所有义项;4.分别在“义项1”框和“义项2”框中点击需要计算相似度的两个词语义项;5.点击“计算义项相似度”按钮;6.在“输出”框中将显示选中的两个义项的相似度;4.2.3 词语相似度计算1.首先分别在“输入1”和“输入2”框中输入要计算相似度的两个词语;2.点击“计算词语相似度”按钮;3.在“输出”框中将显示两个词语的相似度;说明:词语相似度定义为两个词语的所有义项相似度中的最大值。

基于褒贬倾向的句子相似度计算

基于褒贬倾向的句子相似度计算

规 定 , 。 Ⅳ 的 相 似 度各 个 概 念 的相 似 度 之 最 大 值 , 就 是 说 : 和 也
( I, 2 一 W W ) max Si ( . S ) m Si , . ( 1)
这 样 两 个 词语 之 间 的相 似 度 问 题 就 归结 到 了两 个 概 念 之 间 的 相 似 度 问 题 , “ 原 ”是 用 于 描述 “ 念 ”的最 基 本 单 位 , 而 义 概 因
收 稿 日 期 :0 0 0 7 2 1 — 40
基 金 项 目 : 西 科 技 大 学 质 工 程 项 目 ( U T B 2 ; 西科 技 大 学 校 级 自选 项 日( XI 一2 陕 S S -0 )陕 Z O5)
文 章 编 号 :0 0— 2 6 ( 0 0 0 — 0 4 — 0 10 3 7 2 1 )6 06 4
基 于褒 贬倾 向 的句 子相 似 度计 算
王凌燕, 露露 , 丁 李鹏 坤
( 西科 技 大 学 外 国语 与传 播 学 院 , 安 7 0 2 ) 陕 西 1 0 1
摘 要 : 首先 简单介绍 了基于《 知网 》 的词语相似度的计算 , 指出不足 , 并对其进行 改进 , 在其计 算过程 中增加
此 词 语 相 似度 问题 最 终 转 化 为 义 原 相 似度 『 题 . Ⅱ J
12 义 原 相 似 度 计 算 . 义 原 之 间存 在 多种 关 系 , 上 下 位 关 系 、 义或 对 义 关 系 等 , 群 等… 利 用 了 义原 的 上 下 位 关 系 , 算 出两 个 义 原 户 如 反 刘 计 和
第 3 8卷 第 6期
2 1 0 O年 1 1月
河 南 师 范 大 学 学报 ( 自然科 学版 )

一种基于知网的语义相关度计算方法

一种基于知网的语义相关度计算方法

文本 特征 , 验结 果表 明,该方法更趋于合理 , 大部 分结果更符合人们 的 日常体验 ,有效 提高 了计 算结果 的 实 绝
精确 度和准确性.
关键 词 : 网 ; 原 ;语义相似度 ; 知 语义相关度
中图分类号 :P0 T 31
收 稿 日期 : 0 0— 3—1 21 0 5
文献标识码 : A
事 件类 义 原结 构 .
e ty 实 体 ni l t

定程 度 的应 用 ; 群 等人 提 出 的方法 可 以解决 刘
同一特 征 文件 中义 பைடு நூலகம் 间 的语义 相 似 度 问题 ,但 不 能
解决 不 同特 征 文件 义原 间 的语 义 相关 性 问题 .李 索 建 将 知 网和 同义 词 词 林 结 合 起 来 计 算 不 同特 征
文件 中词语 的 相似 度 , 一定 程 度 上解 决 了不 同特 在 征 文件 间词 语 的语 义相 关性 , 是 知 网和 同义 词词 但 林词 语 的组 织 方式 完全 不 同 , 以计 算 结 果 不是 很 所 理想 ;许 云 、 广正 等 提 出 了各 自的语 义相 关 王 度计 算 方法 .本文 根据 知 网 …各 个 特征 文 件 中下 位 义原 享 上位 义原 拥有 的属性 ,即 下位 义 原 对 其 上位
张振 幸 ,李 金 厚
( 安徽工业 大学 计算机学 院 , 安徽 马鞍 山 2 30 ) 4 0 2

要: 本文 以知 网理论相似度 计算为基础 ,提出 了一种计 算词语相关度方法 ; 该方法将 知网中不 同特征文 件
间 的 义 原 通 过 其 解 释 义 原 与 其 它 特 征 文 件 中 的 义 原 建 立 联 系 ,进 而 计 算 它 们 之 间 的相 关 度 , 用 该 方 法 提 取 并

基于《知网》的词汇语义相似度计算

基于《知网》的词汇语义相似度计算
"义原"是用于描述一个"概念"的最小意义单位。
与一般的语义词典(如《同义词词林》,或Wordnet)不同,《知网》并不是简单的将所有的"概念"归结到一个树状的概念层次体系中,而是试图用一系列的"义原"来对每一个"概念"进行描述。
《知网》一共采用了1500义原,这些义原分为以下几个大类:
除了基于实例的机器翻译之外,词语相似度计算在信息检索、信息抽取、词义排歧等领域都有着广泛的应用。
2 词语相似度及其计算的方法
2.1 什么是词语相似度
什么是词语相似度?
我们认为,词语相似度是一个主观性相当强的概念。脱离具体的应用去谈论词语相似度,很难得到一个统一的定义。因为词语之间的关系非常复杂,其相似或差异之处很难用一个简单的数值来进行度量。从某一角度看非常相似的词语,从另一个角度看,很可能差异非常大。
我们的工作主要包括:
1. 研究《知网》中知识描述语言的语法,了解其描述一个词义所用的多个义原之间的关系,区分其在词语相似度计算中所起的作用;
2. 提出利用《知网》进行词语相似度计算的算法;
3. 通过实验验证该算法的有效性,并与其他算法进行比较。
关键词:《知网》 词汇语义相似度计算 自然语言处理
1. 每一个词的语义描述由多个义原组成,例如"暗箱"一词的语义描述为:part|部件,%tool|用具,body|身,"写信"一词的语义描述为:#TakePicture|拍摄write|写,ContentProduct=letter|信件;
2. 词语的语义描述中各个义原并不是平等的,它们之间有着复杂的关系,通过一种专门的知识描述语言来表示。

基于知识图的汉语词汇语义相似度计算

基于知识图的汉语词汇语义相似度计算

基于知识图的汉语词汇语义相似度计算张瑞霞;朱贵良;杨国增【摘要】提出了一种基于知识图的汉语词汇相似度计算方法,该方法以<知网>2005版为语义知识资源,以知识图为知识表示方法,在构造词图的基础上,以知网中的语义关系为依据对词汇概念中的义原进行分类,通过计算不同类型义原的相似度得到概念的相似度;为了对词汇相似度计算方法进行客观评价,设计了词汇相似度计算方法的量化评价模型;采用该模型对所提出的计算方法进行评价,试验结果证明此方法的有效度为89.1%.【期刊名称】《中文信息学报》【年(卷),期】2009(023)003【总页数】5页(P116-120)【关键词】计算机应用;中文信息处理;知识图;知网;语义相似度【作者】张瑞霞;朱贵良;杨国增【作者单位】华北水利水电学院,信息工程学院,河南,郑州,450011;华北水利水电学院,信息工程学院,河南,郑州,450011;郑州师范高等专科学校,数学系,河南,郑州,450044【正文语种】中文【中图分类】TP391在自然语言信息处理领域中,词汇相似度的计算广泛应用于基于实例的机器翻译、信息检索、信息抽取和词义消歧等领域,并取得了丰富成果。

文献[1]提出了利用《知网》进行词汇相似度计算的方法;文献[2]以《同义词词林》的词汇分类体系为基础提出了基于相关熵的汉语词汇相似度的计算方法;文献[3]提出了利用语义格实现的一种改进Jaccard系数方法来计算词汇相似度;文献[4]通过引入事物信息量的思想来计算词语相似度。

文献[2-3]采用统计的方法,文献[1,4]根据世界知识(《知网》2000)进行计算,两类方法各有异同[1]。

根据世界知识计算词汇相似度,为使其计算精确,在计算过程中必须能够最大限度的合理的应用世界知识。

另外,目前对词汇相似度计算方法尚未出现定量评价,这样不利于方法的比较、改进以及应用。

鉴于上述原因,以知识图为知识表示方法,以《知网》2005版为语义知识资源,提出了一种基于知识图的汉语词汇相似度计算方法。

中国知网查重的原理

中国知网查重的原理

中国知网查重的原理
中国知网是一个文献检索和下载平台,提供了全文检索、查重以及其他多种功能。

其查重的原理是从语义层面进行比对,判断文本之间的相似度。

具体来说,中国知网的查重机制首先会对待检测的文本进行分词,将文本分解成一个个独立的词语,并根据不同的语言特征进行处理。

然后,系统会构建每个词语的语义向量,并将其与数据库中已有的文本进行对比。

在对比过程中,系统会分别计算待检测文本与已有文本之间的相似度得分。

相似度得分主要根据词语的共现频次、词语的语义相似性以及文本的结构特征等因素进行计算。

如果待检测文本与某篇已有文本之间存在较高的相似度得分,则会被判断为存在抄袭嫌疑。

需要注意的是,中国知网的查重机制并不会直接比对标题文本,而是以文本内容为基础进行比对。

这样做的目的是为了避免仅通过标题来判断重复,因为很多情况下,标题相同的文本并不代表整篇文本内容相同。

总的来说,中国知网的查重原理是基于语义相似度的比对,通过对待检测文本进行分析,在语义层面上判断其与已有文本的相似程度,从而识别重复、抄袭等问题。

基于知网和知识图的汉语词语语义相似度算法

基于知网和知识图的汉语词语语义相似度算法
smi rt a e n Ho i l i b s d o wNe n n wl d e g a h i p e e t d,t e t a i o a k o e g r p a e b e mp o e a y ta d k o e g r p s r sn e h r d t n l n wld e g a h h v e n i r v d,e — i x
Cl s m b r TP3 】 a s Nu e 9
1 引 言
词 语 是汉语 语 素 组 成 和 自然 语 言 中能 够 独 立 运 用 的最 小 单 位 , 汉 语 最 基 本 的语 法 和 语 义 单 是 位 , 以将 词语 看作 汉语 语 言 文字 中的概 念 。词 语 可 语 义相 似 度 计 算 已广 泛 应 用 在 数 据 挖 掘 、 息 抽 信 取、 自动 问答 系统 、 文本 分类 等 诸 多领 域 , 为 当今 成
应词语 的语义相似度 。实验结果 表明该算法对词语间语义相似度计算是 有效的 。 关键词 知 网;知识图 ; 汉语 词语 ; 义相 似度 ; 图 语 词
T 31 P 9 中图分类号
A Chi e e W o d Se a t c Si ia iy Al o i h n s r m n i m l rt g rt m
7 1 1) 2 0 6
Ab t a t S m a tc s i rt n f t e b sc r l t n e we n Ch n s r s n t i p p r h r s s ma t s r c e n i i l iy i o e o h a i ea i s b t e i e e wo d .I h s a e ,t e wo d e n i m a S o c

基于知网句子相似度计算的主观题阅卷技术研究

基于知网句子相似度计算的主观题阅卷技术研究

a crc f u jciesoigpo l ge t rv d c uayo bet r rbe ra yi o e . s v c n m l mp
Ke r s Ho Ne; e t c i l i ; ujciee a n t n mutsaeitgain ywod : w tsne e mi rt sbet x miai ; l-tt e rt n s a y v o i n o
A bs r t act W e r pos a : p o e m ulis a e nt gr to of s n e e i ia iy t— t t i e a i n e t nc s m lrt caculto m e h l ain t od, t be t he s va u of le
s mi r y b t e h t n a d a s r a d su e t ’a s r a e g t n b h s me h d i l i e we n t e sa d r n we n t d n s n we s c n b e t y t i t o ,wh c a e h a t e ih m k st e
基 于 知 网句 子 相 似 度 计 算 的主 观 题 阅卷 技 术研 究
高雪 霞 ,尚 游
( 乡学 院 计算机 与信 息工程 学院 ,河 南 新 乡 4 3 0 新 5 0 3)
摘 要 :提 出 了一种 基 于 多态融 合 的 句子 相似度 计 算方 法 , 用 该 方 法 能 得 到 学 生 答 案 与 标 准 答 案 之 间 的 最
是 在分 析和 理解 大规模 真 实文 本语 义基 础上实 现 的【。 目前 ,国内外 在机 器翻译 、信 息 检索 、 自动文摘 等 4 】 技术 方 面的研究 较 多【 l 5 ,但在 有关 主观题 评分技 术方 面 的研究还 不 多 ,而 真正使 用 的系统 更少 。因为评分 一 需要 非常 高 的准确率 ,目前 的技术 仍然存 在一 些缺 陷 。若 对语 言 范围作 一些 限定 ,可提 高一 定 的准确率 【。 7 】 本文提 出了一种 基于 知 网的多 态融合 句子 相似度 计算 方法 ,对 不 同状 态使 用不 同 的权值 ,得 到学生答 案 和标 准答 案之 间 的最 佳相 似度值 ,进 而得 到学生 答卷 的得 分 ,大大 提高 了主观题 阅卷 的准确 率 。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于《知网》的词语相似度计算
[摘要]词语相似度计算是计算机中文处理中的基础和重要环节,目前基于《知网》的词语相似度计算是一种常见的方法,本文将对该方法做系统介绍。

[关键词]《知网》词语相似度计算
一、《知网》的结构
《知网》(hownet)是我国著名机器翻译专家董振东先生和董强先生创建的,是一个常识知识库,它含有丰富的词汇语义知识以及世界知识,内部结构复杂。

《知网》中两个最基础的概念是“概念”和“义原”。

“概念”是用来描述词语语义。

因为一个词可以含有多个语义,所以一个词需要多个概念来描述。

使用“知识表示语言”对概念进行描述,“知识表示语言”使用的“词汇”便是义原。

《知网》中的不可再分的、最小的意义单位是“义原”,义原用来描述“概念”。

《知网》采用的义原有1500个,它们一共可以分为十类,具体见图1。

知网反映了概念之间、概念属性之间各种各样的关系,总体来说知网描述了16种关系:
上下位关系;同义关系、反义关系、对义关系;部件-整体关系;属性-宿主关系;材料-成品关系;施事/经验者/关系;主体-事件关系;受事/内容/领属物等事件关系;工具-事件关系;场所-事件关系;时间-事件关系;值-属性关系;实体-值关系;事件-角色关
系;相关关系。

由《知网》的结构得知义原之间组成的不是一个树状结构,而是一个复杂的网状结构。

然而义原关系中最重要的是上下位关系。

所有的“基本义原”以这种上下位关系为基础构成了义原层次体系,叫做义原分类树。

在义原分类树中,父节点义原和子节点义原之间具有上下位关系。

可以通过义原分类树来计算词语和词语之间的语义距离。

二、知网的知识词典
知识词典是知网中最基本的数据库。

在知识词典中,每一个概念(概念又称为义项)可以用一条记录来描述。

一条记录含有八项信息,每一项由用“=”连接的两个部分组成,等号左边表示数据的域名,右边是数据的值。

比如下面就是一条描述概念的记录:
no=017114
w_c=打
g_c=v
e_c= ~乒乓球,~篮球
w_e=play
g_e=v
e_e=
def=exercise|锻炼,sport|体育
其中,no表示概念的编号,w_c表示汉语词语,g_c表示汉语词语的词性,e_c表示汉语词语例子,w_e表示英语词语,g_e则表示
英语词语词性,e_e表示英语词语例子,def表示概念的定义,通过一个语义表达式来描述。

需要强调的是,def项包含若干个相应的义原以及这些义原与主干词之间的语义关系。

def项是知网的核心,不可以为空,必须填写内容。

def项的起始位置,必须用来描述知网中规定的主要义原。

鉴于知网的组织关系,本文的相似度计算按照以下步骤完成:先计算义原的相似度;在此基础上计算词语的相似度。

三、基于《知网》的义原相似度计算
在《知网》中,依据上下位关系,所有的义原构成了一个树状层次结构,可以根据两个义原之间的路径长度来计算其相似度。

即根据上述树形图中,两个结点之间的路径长度来表示这两个义原的语义距离。

本文将两个义原分别记为pl、p2,将它们的语义距离记为d,p1和p2两个义原的相似度记为sim(p1,p2),相应的公式如下:sim(p1,p2)=ad+a
其中,d表示两个义原p1和p2的路径长度,a是一个调节参数,本文取相似度为0.5时的路径长度(d)的值。

sim(pl,p2)取值在[0,1]之间。

在这里,本文只利用了义原的上下位关系来计算义原相似度。

四、基于《知网》的词语相似度计算
基于《知网》的词语相似度研究已经比较成熟。

刘群等提出了一种基于《知网》的词语相似度计算方法,下面对此进行介绍。

汉语词语可以分为实词和虚词,本文做如下约定:在文本中实词
和虚词不能互相代替,即实词和虚词的相似度是零。

计算虚词的相似度就比较简单,计算用来描述虚词的关系义原之间、或者句法义原之间的相似度就可以了。

实词则不同,它需要使用语义表达式进行描述,所以实词的相似度计算难度就比较大。

本文使用实词定义项中义原和义原之间的相似度,来描述实词与实词之间的相似度。

本文选择描述这两个实词的概念之间的最大相似度作为这两个实词之间的相似度。

概念通过义原进行描述,实词概念的语义表达式由四部分组成,它们分别是第一独立义原描述式,其他独立义原描述式,关系义原描述式和符号义原描述式。

本文把这些义原描述式的相似度分别记为:sim1(s1s2sim2(s1s2
sim3(s1s2sim4(s1s
2
由此,两个概念s1s2
如下:
sim(s1s2)=
其中,βi(1≤i≤4)是可以调节的参数,代表每一部分的权重,且有β1+β2+β3+β4=1,β1≥β2≥β3≥β4。

由于第一独立义原描述式sim1可以反映一个概念的最主要特征,所以本文将它的权值定义得比较大,一般应大于0.5。

sim1到sim4各部分相似度的计算方法如下:
1)对于第一独立义原描述式:利用公式1计算两个义原的相似
度即可,方法比较简单;
2)对于其他独立义原描述式:计算相对复杂,需要对相应义原进行分组,步骤如下:(1)两个概念各自有一个其他独立义原集合,对这两组义原相互之间进行任意配对,并且计算出每一对义原的相似度;(2)将当前相似度最大的一对义原从各自的集合中取出(不再属于原集合),归入一个集合;(3)重复第(2)步,直到所有的其他独立义原完成归类。

(4)根据开始时两个概念各自的独立义原集合的大小,以及后来得到的新集合,来计算sim2;
3)对于关系义原描述式:这一部分仍然是一个集合运算问题,需要将关系义原相同的描述式进行统一归组,再计算其相似度;4)对于符号义原描述式:这一部分的计算与关系义原描述式有些相似,只有在符号相同的前提下,再计算配对义原的相似度。

最后,把上述四个相似度计算结果进行加权求和,便可以得到两
个概念之间的相似度。

假如有两个词语分别为w1w
2w1n个概念,分别为:s11s 12…,s1n w2m个概念,分别为s21s22s2m
w1w2
sim(w 1 ,w2)=sim(s1i s2j) 注:本文中所涉及到的图表、注解、公式等内容请以pdf格式阅读原文。

相关文档
最新文档