基于知网的语义相似度计算

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于《知网》的语义相似度计算

软件使用手册

1 功能简介

本软件是根据[刘群2002]一文中的原理编写的词汇语义相似度计算程序。

主要实现了以下功能:

1.1基于交互输入的义原查询、义原距离计算、义原相似度计算

1.2基于交互输入的词语义项查询、义项相似度计算、词语相似度计算;

1.3基于文件输入的词语义项查询、词语相似度计算;

1.4相似度计算中的参数调整。

2 安装说明

本软件包一共有四个文件:

《基于<知网>的词汇语义相似度计算》软件使用手册.doc:本使用手册

《基于<知网>的词汇语义相似度计算》论文.pdf:本软件所依据的论文,采用pdf

格式,用Acrobat Reader阅读时需要安装简体中文支持包。

自然语言处理开放资源许可证.doc:本软件包的授权许可证

WordSimilarity.zip:程序文件

软件安装时,将文件WordSimilarity.zip文件解压缩一个目录下即可,解压缩后有以下几个文件:

WordSimilarity.exe:可执行程序;

Glossary.dat:《知网》数据文件

Semdict.dat:《知网》数据文件

Whole.dat:《知网》数据文件

必须确保《知网》数据文件在程序执行时的当前目录下。

3 界面说明

软件使用简单的对话框界面,如下所示:

4 功能说明

4.1义原操作

4.1.1 义原查询

1.首先在“输入1”框中输入义原名称;

2.点击“察看义原1”按钮;

3.在“义项1”框中将依次显示出该义原及其所有上位义原的编号、中文、英文;类似的方法可以查询“输入2”框中的义原;

4.1.2 义原距离计算

1.首先在“输入1”和“输入2”框中输入两个义原;

2.点击“计算义原距离”按钮;

3.在“输出”框中显示两个义原的距离;

4.1.3 义原相似度计算

1.首先在“输入1”和“输入2”框中输入两个义原;

2.点击“计算义原相似度”按钮;

3.在“输出”框中显示两个义原的相似度;

4.2基于交互输入的词语操作

4.2.1 词语义项查询

1.首先在“输入1”框中输入要查询的词语;

2.点击“察看义项1”按钮;

3.在“义项1”框中将依次显示出该词语的所有义项;

类似的方法可以查询“输入2”框中的词语义项;

4.2.2 义项相似度计算

1.首先分别在“输入1”和“输入2”框中输入要计算相似度的两个词语;

2.点击“察看义项1”按钮和“察看义项2”按钮;

3.在“义项1”框和“义项2”框中将分别显示出这两个词语的所有义项;

4.分别在“义项1”框和“义项2”框中点击需要计算相似度的两个词语义项;

5.点击“计算义项相似度”按钮;

6.在“输出”框中将显示选中的两个义项的相似度;

4.2.3 词语相似度计算

1.首先分别在“输入1”和“输入2”框中输入要计算相似度的两个词语;

2.点击“计算词语相似度”按钮;

3.在“输出”框中将显示两个词语的相似度;

说明:词语相似度定义为两个词语的所有义项相似度中的最大值。

4.3基于文件输入的词语操作

4.3.1 文件输入

1.点击“文件:输入”按钮,系统将使用缺省的文本编辑器打开输入文件TestWords.Txt;

2.编辑输入文件,其格式如下

a)每行一个词;

b)若干个词构成一组,组与组之间用空行分隔;

例如:

男人

女人

孩子

老人

少女

工人

3.保存文件;

4.3.2 按文件查询词语义项

1.首先点击“文件:输入”按钮,按照上面的说明在文件中输入要查询的词语;

2.点击“文件:查询词语义项”按钮,系统将使用缺省的文本编辑器词语义项文件

TestMeanings.Txt;

3.词语义项文件中将显示所有的词语义项,

格式为:

:男人

N human|人,family|家,male|男

N human|人,male|男

:女人

N human|人,family|家,female|女

N human|人,female|女

:孩子

N human|人,family|家,young|幼

N human|人,young|幼

:老人

N human|人,aged|老

N human|人,family|家,aged|老

:少女

N human|人,female|女,young|幼

:工人

N human|人,#occupation|职位,industrial|工

4.3.3 按文件计算词语相似度

1.首先点击“文件:输入”按钮,按照上面的说明在文件中输入要查询的词语;

2.其次点击“文件:查询词语义项”按钮,按照上面的说明得到词语义项文件

TestMeanings.Txt;

3.编辑打开的词语义项文件TestMeanings.Txt,删除无关的义项(整行删除即可),但每个

词语至少应保留一个义项;

假设上述例子中删除“男人”和“女人”的各一个义项,得到文件为:

:男人

N human|人,male|男

:女人

N human|人,family|家,female|女

:孩子

N human|人,family|家,young|幼

N human|人,young|幼

:老人

N human|人,aged|老

N human|人,family|家,aged|老

:少女

N human|人,female|女,young|幼

:工人

N human|人,#occupation|职位,industrial|工

4.点击“文件:计算词语相似度”按钮,系统将根据上述词语义项文件TestMeanings.Txt

中每个词语的义项,计算以空行分隔的同一组词语中两两之间的词语相似度,并显示在文件TestSimilarities.Txt中;

还是按照上面的例子,结果文件为:

:男人

N human|人,male|男

:女人

N human|人,family|家,female|女

------------------------------------------

男人,女人:0.661111

===================================================

:孩子

N human|人,family|家,young|幼

N human|人,young|幼

:老人

N human|人,aged|老

N human|人,family|家,aged|老

:少女

N human|人,female|女,young|幼

:工人

N human|人,#occupation|职位,industrial|工

------------------------------------------

工人,孩子:0.661111

工人,老人:0.661111

工人,少女:0.568519

孩子,老人:0.861111

孩子,少女:0.8

相关文档
最新文档