面向旅游领域的语义查询扩展方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
面向旅游领域的语义查询扩展方法
施雅贤;李璞;肖宝;韦婷婷;蒋运承
【摘要】针对传统语义查询扩展方法存在返回结果多以及准确率不高的问题,以旅游领域为背景,提出一种语义加权查询扩展方法.利用本体推理能力与本体中的实体相关度进行查询扩展,结合TF-IDF算法的词频加权与语义相关度加权改善检索结果的排序.实验结果表明,相比其他2种方法,该方法能使更多符合要求的查询结果靠前排列,提高了旅游信息检索的正确率.
【期刊名称】《计算机工程》
【年(卷),期】2010(036)018
【总页数】3页(P43-45)
【关键词】语义查询扩展;领域本体;信息检索
【作者】施雅贤;李璞;肖宝;韦婷婷;蒋运承
【作者单位】广西师范大学计算机科学与信息工程学院,广西,桂林,541004;广西师范大学计算机科学与信息工程学院,广西,桂林,541004;广西师范大学计算机科学与信息工程学院,广西,桂林,541004;钦州学院数学与计算机科学系,广西,钦州,535000;广西师范大学计算机科学与信息工程学院,广西,桂林,541004;广西师范大学计算机科学与信息工程学院,广西,桂林,541004
【正文语种】中文
【中图分类】TP393
1 概述
为更充分表达和扩展用户意图,以改善信息检索的查全率和查准率,研究者提出语义查询扩展。
目前,语义查询扩展的方法主要是把原始查询映射到概念,根据本体中概念间的各种关系,利用一定技术提取查询语义及其语义关联,得到比原查询更长的新查询以检索文档。
如使用 WordNet[1]本体库进行查询扩展,以及OntoSeek、OntoBroker等都是利用本体概念进行查询扩展的典型,它们的不足具体包括:
(1)将查询映射到本体中的概念,而在规范的领域本体中,查询可以映射到的不只
是概念,也可能是实例等其他实体。
(2)使用的本体并没有通过规范的本体语言表示出来,而通常只是从图的角度考虑
概念间的关系,因此,没有充分地体现出本体的推理能力。
旅游业在全球发展庞大,人们创建各类旅游网站,提供相关信息,如景点、酒店、小吃等[2]。
本体丰富的知识表达能力与推理能力很好地体现旅游信息的复杂多样。
传统方法在利用本体进行语义查询扩展时,只是将查询映射到本体中的概念,提取语义及其语义关联实现扩展,而没有考虑其他映射得到的实体(如实例),也没有充分利用本体的推理能力,因此,面向旅游领域的语义查询扩展,并利用查询词权重改善排序。
2 面向旅游领域的语义查询扩展
旅游领域不同于其他领域,它拥有的专业术语(概念)很有限,要理解用户的意图,仅靠本体中的概念来扩展查询是远不够的。
因此,有必要在旅游本体中全面考虑查询词条可以映射的范围及可能的扩展情况。
2.1 实体关系定义
在利用本体进行查询扩展时,查询词可能映射到本体中的主要实体为概念、实例、
关系[3]。
根据文献[4],一般不将动词作为查询词,而是把映射实体范围缩小到{概念、实例},重新定义映射的实体范围,即Equery={C, I}。
这2种实体在本体中的关系可以分为以下3种:
(1)概念与概念的关系
概念与概念之间的关系主要包括等价关系和层次关系。
等价关系表示2个概念有
完全相同的实例,可形式化表示为C1≡C2。
层次关系H表示A-Kind-Of或Is-A,即包含关系。
Cp是Cq的超类,可形式化表示为(Cp, Cq)∈H。
(2)概念与实例的关系
一个概念可以拥有零个或多个实例,形式化表示为Ic={i1,i2,…,in};一个实例可以是一个或多个概念的成员,具有概念描述属性和具体的属性值,可形式化表示为
i∈{ Ic1∪Ic2∪…∪Icn}。
(3)实例与实例的关系
实例与实例间的关系包括等价关系和二元关系。
实例间的等价关系可形式化表示为i1≡i2。
二元关系r是表明概念对应的实例中可能存在关系 r。
当实例 ip与 iq存在关系 ri时,可形式化表示为ri(ip, iq)∈R。
2.2 推理与实体相关度计算
本文在实体间关系的基础上,结合本体推理,给出实体间的相关度计算,具体如下:(1)概念与概念间的相关度
对于概念间等价、包含关系,采用文献[5]基于层次关系的相似度计算方法来计算。
2个概念间的相关度计算如下:
其中,N1、N2分别是从C1、C2所在层到最深层次的共有父类C的IS-A边数;H是从C到本体的最顶层的IS-A边数;如果概念C1、C2有多个父类,则选择和C1、C2距离最少IS-A边数的作为最深层次的共有父类C。
抽取已构建的旅游本体其中一部分进行分析见图 1。
若计算概念“岩洞”和“博物馆”的相关度,则REL(“岩洞”,“博物馆”)=2×1/(3+2+2×1)=2/7=0.285,而REL(“峡谷”,“山景”)=REL(“山景”,“峡
谷”)=2×3/(1+0+2×3)=0.857。
由此可知,若两者是同一概念,则相关度为 1,符合等价关系;从子类泛化到父类得到的扩展词并不适合作为扩展词汇,虽然相似度一样,但是它们对扩展的效果可能不一样;需要对大量的无关的概念进行相似度计算;很多本体隐含知识与查询实体关系密切,却没被挖掘出来。
上述不足可以通过推理弥补,推理可以实现等价性检测(检测某2个概念是否等价)、确定概念之间的双亲和孩子关系,从而挖掘出潜在概念间语义关系,缩小相关度计算对象的范围[6]。
若在进行推理后,则可以知道概念“山景”与“水景”密切相关的有父类“山水美景”,祖先“景点”,子类“山峰”、“峡谷”、“岩洞”以及兄弟“水景”等,此时可以把计算对象限定在这些实体中。
图1 部分旅游本体
(2)概念与实例的相关度
在旅游本体中,当原查询是概念时,恰当的实例是对概念的诠释,考虑该实例是否具有诠释某个概念的能力,即判断其是否是概念的成员,对概念有多大影响力。
若实例不是概念C的成员,则相关度为0,否则Pic表示i为C的实例的概率,并设定可调节因子α(0<α<1),两者的乘积代表概念与实例的相关度。
对概念与实例间相关度的计算如下:
推理能够实现实例检测(检测实例是否是某概念的成员)、查询检索(找到某个概念的所有个体)。
如图 1所示,事先声明复杂概念“山水美景”,用 OWL 2抽象语法描述为EquivalentClasses(山水美景 ObjectIntersectionOf(ObjectSome ValuesFrom(hasSu-bSight ObjectUnionOf(水山))景区景点)),表示子景点若是
山景或水景的其中一类景点,则就是山水美景。
七星公园属于公园类,它具有子景点七星岩,七星岩是岩洞,岩洞是山景的一种。
推理后如图1可知,七星公园也是山水美景的一个实例,七星公园∈ {I山水美景, I公园, I现代文明,I景点}。
设定α=0.9,本体共有1 066个实例,推理前隶属概念“山水美景”有221个,推理后有258个,则REL(“山水美景”,“七星公园”)=0.9×258/1 066=0.218。
(3)实例与实例间的相关度
当原查询实体是实例时,将实例泛化到概念,会扩大查询范围,导致召回率以及正确率的降低。
因此只考虑利用实例间相关度进行扩展。
当ip, iq是等价实例(即
ip≡iq)时,相关度为1;否则,统计两者存在的关系权重:对所有ri(ip, iq)∈ R,由领域专家设定不同的权重因子βi (0<βi≤1),表示实例ip与实例 iq间的关系 ri 能使 ip与 iq之间具备的相关度βi;βi(i=1,2,…,k)中的最大值就是 ip与 iq的相关度。
实例与实例间相关度的计算如下:
如在旅游本体里声明了关系链,OWL 2抽象语法描述为SubObjectPropertyOf (SubObject-PropertyChain(hasSight has SubSight)hasSight),表示如果一个地区A,它拥有某个景点B,而B又具有子景点C,则地区A也拥有景点C。
七星公园是桂林的一个景点,有子景点七星岩,如图1所示。
经过推理可知,七星岩也是桂林的一个景点,即挖掘出了2个实例间的潜在关系。
如红瑶寨位于桂林,同时也是桂林的景点。
即isLocatedIn(“红瑶寨”,“桂林”)∈R、isSightOf(“红瑶寨”,“桂林”)∈R。
设定βisLocatedIn=0.29、
βisSightOf=0.32可得,REL(“红瑶寨”,“桂林”)=0.32。
2.3 排序的改进
为利用实体相关度获取扩展词以及扩展词不同权重改善检索效果,还需给出排序算法。
在空间向量模型的基础上,TF-IDF(Term Frequency-Inverse Document
Frequency)算法计算出的词条 Tj关于文档 Di的权重被记为 Wij。
综合考虑将TF-IDF词频权重与2.2节的语义相关度权重,给出文档Di关于查询词条Tq的得分:
通过以下2种办法限制扩展词数量:
(1)选取 REL(Tq,Tk)排名前 m 个参与计算,其他(n-m)个REL(Tq,Tk)=0;
(2)设置阈值σ,若低于σ则 REL(Tq,Tk)=0。
这样就为查询扩展词进行了加权,即实现语义加权查询扩展以及排序的改进。
3 性能分析与比较
由于本文研究背景是旅游领域,因此需要评价本文方法对旅游信息检索的影响。
采用的数据集来自广西30个旅游信息网站与景点景区相关的21 568个文档,并已
经过信息抽取以及分类,分为景点、特产、小吃、住宿、旅行社类。
构建的旅游本体共有53个概念、24种关系属性、1 066个实例。
本实验采用本体语言OWL 2、本体构建工具Protege、本体推理机Pellet、本体查询框架Jena以及本体查询语言SPARQL等工具及语言,在Lucene默认排序算法基础上进行改动完成检索与
排序工作[7]。
这里采用正确率-召回率曲线来衡量检索性能。
选取景点查询作为评估对象。
同时
设置关系权重 WisLocatedIn=0.5、α=0.75;将查询扩展词数量限制在25个。
选定“两江四湖”、“桂林”、“山水美景”等多个查询词条作为查询输入。
在本体中,实例“两江四湖”通过关系“hasSubSight”与实例“桃花江”、“漓江”、“榕湖”、“杉湖”、“木龙湖”、“桂湖”相联系;实例“阳朔”、“全州”、“荔浦”等通过关系“isLocatedIn”与“桂林”相联系;实例“阳朔”通过关系“hasSight”与实例“西街”、“月亮山”等相联系;“山水美景”是领域本体
中的概念,拥有隶属于它的多个实例,这里不一一列举。
Lucene是一个基于Java 的全文检索工具包,它的排序核心是TF·IDF加权算法。
为了验证实现的查询扩展
的有效性,给出使用无查询扩展、基于本体中实体相关度的OR逻辑查询扩展(即
所有扩展词与原查询词条等效)以及本文提出的语义加权查询扩展的旅游信息检索
的正确率-召回率曲线,如图2所示。
图2 正确率-召回率曲线
从图2可以看出,使用OR逻辑查询扩展、语义加权查询扩展,较大提高了查询
结果的准确性。
当召回率在 25%~78%时,本文方法的正确率比 OR逻辑查询扩
展高,即本文方法能使更多符合要求的结果靠前排列。
当召回率为78%~100%时,这 2种方法的正确率相同,其原因为两者依赖同样有限的扩展元素,虽然本文方
法对扩展词进行了相关度加权,但只能改变它们的排序,无法获取更多的查询结果。
实验证明,本文方法能使更多的符合要求的查询结果靠前排列,提高了正确率。
4 结束语
本文在旅游领域中提出一种语义加权查询扩展方法,并改善了检索结果的排序,最后验证了这种查询扩展方法的有效性。
在今后工作中,将重点关注如何从描述逻辑出发考虑相似度或相关度,减少对本体构建中部分关系权重的依赖。
参考文献
[1] Fellbaum C. WordNet: An Electronic Lexical Database[M].Cambridge, Massachusetts, USA: The MIT Press, 1998.
[2] Staab S, Werthner H, Knoblobk C, et al. Intelligent Systems for
Tourism[J]. IEEE Intelligent Systems, 2002, 17(6): 53-66.
[3] Revuri S, Upadhyaya R S, Kumar P S. Using Domain Ontologies for Efficient Information Retrieval[C]//Proc. of the 13th International Conference on Management of Data. Delhi, India: [s. n.], 2006.
[4] Liu Shuang, Liu Fang, Yu Clement. An Effective Approach to Document Retrieval via Utilizing WordNet and Recognizing Phrases[C]//Proc. of the
27th Annual International Conference on Research and Development in Information Retrieval. Sheffield, UK:[s. n.], 2004.
[5] Wu Zhibiao, Palmer M. Verb Semantics and Lexical Selection[C]//Proc. of the 32nd Annual Meeting of the Associations for Computational Linguistics. Las Cruces, USA: [s. n.], 1994.
[6] 王小龙, 李明. 基于 SWRL元模型的本体公理建模方法[J].计算机工程, 2010, 36(2): 53-55.
[7] 郑廷, 郑诚. 基于 Lucene的语义检索系统[J]. 计算机工程,2008, 34(16): 92-94.。