基于自然语言理解的SPARQL本体查询

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

收稿日期: 2010- 05- 24; 修回日期: 2010- 08- 03。基金项目: 广东省科技计划项目 ( 2009B070300052) 。作者简介: 张宗仁 ( 1986- ) , 男, 广东梅州人, 硕士研究生, 主要研究方向: 人工智能、数据挖掘; 杨天奇 ( 1961 - ) , 男, 江西南昌人, 教授, 主要研究方向: 人工智能、神经网络、数据挖掘。
谓语 P 通常是动词、介词和动词结构。因此在抽取三元组时, 可以先确定 S和 O, 再通过它们确定 P, 这种方法在实际操作的时候比较有效。从 nsubj ( reads 2, W ho 1 ) 得到 S =
关键词: 自然语言理解; 本体查询; 查询三元组 ; 本体三元组中图分类号: T P391 文献标志码: A
SPARQL ontology query based on natural language understanding
ZHANG Zong ren, YANG T ian q i
(D epartm ent of Compu ter S cience, J inan U niversi ty, G uangd ong Guang zhou 510632, C hina )
本文提出了基于自然语言理解的 SPARQL ( S im ple Protoco l A nd RDF Q uery L anguage ) 本体查询方法, 利用 Stan fo rd P arser来分析用户输入的自然语言查询, 然后构建相应的查询三元组, 与基于关键词的构建方法相比, 减少了查询三元组的组合个数。计算相似度时不仅考虑了词语的形式和语义相似性, 而且考虑了对应节点的深度和宽度, 有利于降低
图 1 S tan ford Parser解析树 1. 3 建立查询三元组
查询三元组: 根据语法树转化而来的三元组, 其形式是 !S, P, O∀, 由主语 ( S)、谓语 ( P )和宾语 ( O ) 三个部分组成, 它们都是关键字或者短语。主语 S 和宾语 O, 都是名词性结构;
第 30卷第 12期 2010年 12月
计算机应用 Journal o f Computer A pp lications
V o .l 30 N o. 12 Dec. 2010
文章编号: 1001- 9081( 2010) 12- 3397- 04
基于自然语言理 IX dc: < http: / /pur.l org /dc /e lem ents/1. 1 /> PREF IX: < h ttp: / /exam ple. org /book / > SELECT $ title W HERE { : book1 dc: title $ title }。 SPARQL 查询 Q = ( V, P, DS, SM ) 可以分成四部分, V 是结果形式, 具体有: SELECT, CON STRUCT, DESR IBE, A SK; P 是图形模式; DS是数据源 , 它可以由多个不同的本体组成, 在 SPARQL 中 DS通常是可以省略的; SM 是结果修改。 SRARQ L 的语法形式与关系数据库中的结构化查询语言 SQL 比较相似, 都包括 SELECT, WHERE 部分。但仅仅是语法上的相似, 两者有本质区别: SQL 基于关系代数模型来构造查询, 而 SRARQL 基于图的模型来构造查询。 1. 2 S tanford Pa rser Stanford P arser[ 8] 是概率自然语言分析器, 利用概率上下文无关文法和词汇依存分析方法。词汇概率分析器使用从手工分析的句子中获取的语言知识来产生可能的分析结果。词典依存语法分析给出了句子内各成分之间的相互依赖性, 在单纯短语结构树的基础上加入了中心词分析, 通过它们可以获取句子中各成分的句法功能和句子的句法结构。这样就解决了自然语言查询中的分词、词性标注、词法分析和短语识别等问题。例如: 句子 W ho reads the book. 的树形结构如图 1所示。对应的 T yped dependenc ies co llapsed 为: nusbj( read 2, W ho 1 ), det( book 4, the 3), dobj( reads 2, book 4)。
三元组模板中; 然而只有部分关键词能够被这些模板解释, 而且当查询多于两个关键字时将会导致解释的组合爆炸问题, 这将会需要大量的模板。文献 [ 3] 在 A quaLog 系统中把问题分类 23类, 如果输入的查询能够被分到某些类中, 它将能够正确处理; 然而, 由于受到模板数量的限制, 很多查询无法处理。文献 [ 4]利用更加通用的基于图形的方法来探讨所有可能的节点之间的链接, 这些节点对应于查询关键字。文献 [ 5]提出了一个基于自然语言的搜索引擎来帮助用户构建查询以及避免歧义, 但是系统的处理能力受限于已经定义的语法。文献 [ 6]提出了一个领域无关的自然语言查询界面, 通过询问用户来消除歧义, 在语义标记方面采用启发式规则从而实现语义解释, 利用用户的反馈来消除歧义。
( 暨南大学计算机科学系, 广州 510632 ) ( zzrzzr@ 163. com )
摘要: 为了用户能够方便地获取本体知识, 提出了基于自然语言理解的 SPARQL 本体查询。利用 Stanford P arser分析用户的自然语言查询, 根据语法构建查询三元组, 与关键词的方法相比, 有效地减少了组合的个数。结合用户词典, 能较准确地把查询三元组的词汇映射到本体实体。分值计算时除了考虑词语的形式相似和语义相似外, 还考虑了概念的模糊性, 尽量返回具体的概念。利用本体推理获取隐藏在本体中的信息, 对查询进行过滤和限制, 提高了准确率。用户通过图形交互界面和系统进行交互, 选择需要的结果, 最后返回树形查询结果, 并能看到相关的信息。实验结果表明, 该方法达到了预期的效果。
基于关键字的查询具有语法简单、词汇自由的优点, 用户能够使用自己的词汇表达信息需求, 因此非常适合普通用户的使用。但是这种方法没有考虑语法和语义, 无法将用户的信息需求明确表示出来, 可能会漏掉一些信息。例如: 搜索电脑, 可能会漏掉计算机, computer这方面的信息。已经有学者研究如何缩小关键字查询和形式查询的差距。文献 [ 2] 在语义搜索引擎中利用关键词映射, 把关键词映射到预先定义的
33 98
计算机应用
第 30卷
概念的模糊性; 利用本体推理得到隐含在本体中的知识, 提高了查全率和查准率。
1 查询三元组的构建
1. 1 SPARQ L查询语言 SPARQL 是 W 3C制定和推荐的 RDF 查询语言, 现在已经
成为标准查询语言 [ 7] 。 SPARQL 提供了强大的基于图形匹配的查询功能: 提炼查询结果 ( ORDER BY, PRO JECT ION, D IST INCT, REDUC D, O FFSET, L IM IT )、可选匹配 ( op tiona l)、值约束条件 ( filter )、替换匹配、以及直接回答 YES /NO 等其他形式的查询。最简单的图形模式是三元组模式, 一个三元组模式与 RDF 的三元组类似, 不同的是三元组模式允许查询变量出现在主体、谓词或者客体的位置上, 三元组模式合并形成一个基本的图形模式。下面是一个三元组模型例子:
K ey words: natural language understanding; onto logy query; query triple; onto logy triple
0 引言
本体是实现领域知识共享、集成和重用的基础, 它能够清晰地表示某个领域的分类 (类和属性 ) 和存储大量的知识 (实例和关系 ), 在语义网中起着重要的作用。然而为了获取本体中的形式化知识, 用户必须熟悉本体的语法、形式化查询语言、目标本体的结构和词汇。这对用户提出了很大的挑战, 因此需要利用自然语言理解的技术来解决这个问题。目前面临两个主要障碍 [ 1]: 1 )由于自然语言的含糊性和复杂性, 机器很难理解用户的意思; 2) 即使能够正确地分析自然语言查询, 仍需解决很多问题, 例如如何把它转换为正确的形式查询。
Abstract: F or users can conven iently access to onto logy know ledge, S im ple P rotoco l A nd RDF Query L anguage ( SPARQL ) onto logy query based on natura l language understanding was pu t forw ard. U ser s natural languag e inqu ires w ere ana ly zed utilizing S tanfo rd P arser, query tr ip le w as construc ted accord ing to the gramm a r, g rea tly reduc ing the number of com binations compared w ith the key w ord m ethod. Comb ined w ith user d ictiona ry, the term s o f query triple could be mo re accurate ly m apped to the onto logy entities. Scores ca lcu la tion not only cons ide red the sim ilarity o f wo rds form and sem an tic, but a lso considered the amb igu ity o f concept, and re turned the specific concept as far as poss ible. Emp loy ing onto logy reason ing to obta in the informa tion hidden in the onto logy, the query w as filted and lim ited to im prove the accuracy. U sers interacted w ith sy stem through graphica l user inte rface, se lected the desired results, and finally returned query results in the form o f tree, and re la ted inform ation cou ld be seen. T he expe rim en tal results show tha t the proposed m ethod ach ieves the expected resu lts.