知网学习阶段总结--高梦娇
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
这段时间主要做的是对知网(Hownet)的全面了解,以及对本体建设工具protégé的简单应用。
通过对知网和WordNet的了解,我发现知网和WordNet的建设方式是截然不同的。知网对每个概念的定义是通过这个概念使用时的具体的语义环境来加以限制的。通过限制概念使用时所需要的其他语义来定义每个概念。而WordNet则是通过对词语的解释,以及概念的上下位关系,同义反义关系等关系来定义每个词语。学会使用protégé,可以用他来建设自己的词汇本体的时候,我觉得可以结合知网和WordNet,对每个概念的定义中,既要体现它的各种关系词,同时还要用每个概念使用时的具体的语义环境对概念加以限定。下一步的任务就是进一步学习protégé,掌握它的具体功能,争取尽快建立一种新的结合了知网思想和WordNet思想的词汇本体。
主要参考资料是知网中文版官方网站/html/c_index.html,另外还有一些文章包括《知网简介》,《知网的理论发现》,《KDML-知网知识系统描述语言》,《建设中文词汇语义资源中的一些问题和我们的对策》,《一个基于概念的中文文本分类模型》,《基于知网的词汇语义相似度计算》,《WordNet与hownet之关系比较》等。
下面是我对知网和protégé应用的具体总结。
一.对知网的全面了解的总结
1.关于知网的基本介绍
知网是一种词汇本体。
知网(英文名称为Hownet)是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的
常识知识库。
义原是知网的最基本的构成单位,同时也是知网中不能分割的最小单位。
知网知识描述语言(KDML)是用来描述知网系统中所有概念的特定语言。
知网中每一个概念都是通过KDML,利用义原进行逐一的、孤立的定义的。
例如:以概念“打”的定义为例:
W_C=打//中文词语
G_C=V //中文词语词性
E_C=~酱油,~张票,~饭,去~瓶酒,醋~来了//中文词语例子
W_E=buy //英文词语
G_E=V // 英文词语词性
E_E= //英文词语例子
DEF=buy|买// 概念定义
2.知网义原的选取
首先,知网中义原的选择和取舍是基于主观选择的。
义原是从4000个汉字的义项(一个词往往具有几个意义,每一个意义就是一个义项)中抽取,经过人工的观察,挑选,合并同类项最终得到的。知网中的
义原一共有2199个。
选取出来的义原又被分为实体类(如“human|人”),事件类(如“lose|失去”),属性类(如“form|形状”),属性值类(如“fragrant|香”)。
这部分知识可以通过《知网简介》和《知网的理论发现》进行进一步了解。
3.知网知识描述语言(KDML)
KDML语言规则中详细规定了事件类、实体类、属性类、属性值类概念的描述方法,同时还规定了几种特定的标识符(如“,”“;”“=”)、几种特殊的指示
符号(如“~”“?”“$”)和各种动态角色(如“agent”“host of”)的使用方法。
以概念“被告人”的定义为例:
W_C=被告人
G_C=N
W_E=accused
G_E=N
DEF={human|人:{accuse|控告:patient={~}},domain={police|警}}
在这个概念的定义中,human|人、accuse|控告和police|警都是知网系统中的义原。Patient、domain则是知网系统中的语义关系。
第一个“:”后面的内容是对human|人的具体解释。被告人是被控告的人,即accuse|控告的patient(被动者)。同时被告人是由警察押送的,因此他的domain
(施动者)是police|警。
具体参见《KDML-知网知识系统描述语言》。
4.知网的最新进展
知网从2000年开始创立到现在,经过了两次大的改版,现在已经作为中文信息处理搭建和研发的基础平台。现在最显著的就是基于知网研发的概念相似度
计算软件和概念相关场计算软件。
5.知网的应用方法举例
(1)概念相似度的计算。
(2)中文文本的分类
在《基于知网的词汇语义相似度计算》,《一个基于概念的中文文本分类模型》这两篇文章中详细的讲述了这两种应用算法。
6.知网的接口
知网发行2000版的时候,接口是开放的。但是现在发展到2008版,知网的接口应用部分需要购买才能使用了,大约要花费几万块。具体参见
/html/c_index.html。
7.知网与WordNet的关系
总的来说,WordNet在一开始对概念定义的时候就采用了网状结构,对每个概念的定义中都同时标注了他的上下位关系词,同义词,反义词等。而hownet
对概念的定义则是完全孤立的,单纯的从概念的应用方法角度进行定义。
例如知网中对“Singer|歌手”的定义是:
DEF={human|人:domain={entertainment|艺},{sing|唱:agent={~}}} 即歌手是属于艺术界的,唱的施事者。
而WordNet中对“Singer”的定义为:
(1)singer, vocalist, vocalizer, vocaliser -- (a person who sings)
在对Singer的定义中同时说明了他的同义词有vocalist, vocalizer和vocaliser。
另外,WordNet中还可以通过选择查看他的上下位关系词,而hownet则不提供这个功能。
WordNet 可以被认为是一种现象,这种现象表现了各个词汇所表达的概念之间的语义关系,而这种语义关系可以通过HowNet 中有关义原的关系得到解释。
换一种说法,WordNet中所描写的各种语义关系能够通过HowNet 中的义原得到
验证、推导。
二.对Protégé的初步熟悉和简单使用
1.Protégé的基本介绍