基于自然语言理解的SPARQL本体查询
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
收稿日期: 2010- 05- 24; 修回日期: 2010- 08- 03。 基金项目: 广东省科技计划项目 ( 2009B070300052) 。 作者简介: 张宗仁 ( 1986- ) , 男, 广东梅州人, 硕士研究生, 主要研究 方向: 人工 智能、数据 挖掘; 杨 天奇 ( 1961 - ) , 男, 江西 南昌人, 教 授, 主要研究方向: 人工智能、神经网络、数据挖掘。
谓语 P 通常是动词、介词和动词结构。因此在抽取三元组时, 可以先确定 S和 O, 再通过它们确定 P, 这种方法在 实际操 作 的时 候 比 较 有 效。 从 nsubj ( reads 2, W ho 1 ) 得 到 S =
关键词: 自然语言理解; 本体查询; 查询三元组 ; 本体三元组 中图分类号: T P391 文献标志码: A
SPARQL ontology query based on natural language understanding
ZHANG Zong ren, YANG T ian q i
(D epartm ent of Compu ter S cience, J inan U niversi ty, G uangd ong Guang zhou 510632, C hina )
本文 提 出 了 基 于 自 然 语 言 理 解 的 SPARQL ( S im ple Protoco l A nd RDF Q uery L anguage ) 本 体 查 询 方 法, 利 用 Stan fo rd P arser来分析用户输入的自然 语言查 询, 然 后构建 相 应的查询三元组, 与基于关键词的构建方法相比, 减少了查 询 三元组的组合个数。计算相似度时不仅考虑了词语的形式 和 语义相似性, 而且 考虑了对应节点的深度和宽度, 有利于降 低
图 1 S tan ford Parser解析树 1. 3 建立查询三元组
查询三元组: 根 据语 法树 转化 而来 的 三元 组, 其 形式 是 !S, P, O∀, 由主语 ( S)、谓语 ( P )和宾语 ( O ) 三个部分 组成, 它 们都是关键字或者短 语。主语 S 和宾语 O, 都是 名词性结构;
第 30卷第 12期 2010年 12月
计算机应用 Journal o f Computer A pp lications
V o .l 30 N o. 12 Dec. 2010
文章编号: 1001- 9081( 2010) 12- 3397- 04
基于自然语言理 IX dc: < http: / /pur.l org /dc /e lem ents/1. 1 /> PREF IX: < h ttp: / /exam ple. org /book / > SELECT $ title W HERE { : book1 dc: title $ title }。 SPARQL 查询 Q = ( V, P, DS, SM ) 可以 分成四 部分, V 是 结果形式, 具体有: SELECT, CON STRUCT, DESR IBE, A SK; P 是图形模式; DS是数据源 , 它可以由多个不同的 本体组成, 在 SPARQL 中 DS通常是可以省略的; SM 是结 果修改。 SRARQ L 的语法形式与 关系数 据库 中的结 构化 查询 语言 SQL 比较 相 似, 都包括 SELECT, WHERE 部分。但仅仅 是语法上 的相似, 两 者 有本 质 区 别: SQL 基 于 关 系 代 数 模型 来 构 造 查 询, 而 SRARQL 基于图的模型来构造查询 。 1. 2 S tanford Pa rser Stanford P arser[ 8] 是概率自然语言分析器, 利用概率上下文 无关文法和词汇依存分析方 法。词汇 概率分析器使用 从手工 分析的句子中获取的语言知 识来产生可能的分 析结果。词典 依存语法分析给出了句子内各成分之间的相互依赖性, 在单纯 短语结构树的基础上加入了中心词分析, 通过它们可以获取句 子中各成分的句法功能和句 子的句法结构。这样就解 决了自 然语言查询中的分词、词性标注、词法分析和短语识别等问题。 例如: 句子 W ho reads the book. 的 树形结构 如图 1所示。对 应的 T yped dependenc ies co llapsed 为: nusbj( read 2, W ho 1 ), det( book 4, the 3), dobj( reads 2, book 4)。
三元组模板中; 然 而只有部分关键词能够被这些模板解释, 而 且当查询多于两个关键 字时将 会导致 解释的 组合爆炸 问题, 这将会需要大量的模板。文 献 [ 3] 在 A quaLog 系统 中把问 题 分类 23类, 如果输入的查 询能够被 分到某 些类中, 它 将能 够 正确处理; 然而, 由于受 到模板数 量的限 制, 很多查询 无法 处 理。文献 [ 4]利用更加通用的基于 图形的方 法来探 讨所有 可 能的节点 之 间的 链 接, 这 些节 点 对 应于 查 询 关 键字。 文 献 [ 5]提出了一个基于自然语言的 搜索引擎来 帮助用 户构建 查 询以及避免歧义, 但是系统的 处理能 力受限 于已经 定义的 语 法。文献 [ 6]提出了 一个领 域无 关的 自然 语言 查询 界 面, 通 过询问用户来消除歧义, 在语 义标记 方面采 用启发 式规则 从 而实现语义解释, 利用用户的反馈来消除歧义。
( 暨南大学 计算机科学系, 广州 510632 ) ( zzrzzr@ 163. com )
摘 要: 为了用 户能 够 方 便地 获 取本 体 知识, 提出 了 基 于自 然 语言 理 解 的 SPARQL 本体 查 询。 利用 Stanford P arser分析用户的自然语言查询, 根据语法构建查询三元 组, 与 关键词 的方法 相比, 有效地 减少了 组合的个 数。结合 用户词典, 能较准确地把查询三元组的词 汇映射 到本体 实体。分值 计算时 除了考 虑词语 的形式 相似和 语义相似 外, 还考虑了概念的模糊性, 尽量返回具体的概念。利用本体推 理获取隐藏在 本体中的 信息, 对查询进行 过滤和限制, 提 高了准确率。用户通过图形交互界面和系统进行交互, 选择 需要的结果, 最后返 回树形查 询结果, 并能看到 相关的信 息。实验结果表明, 该方法达到了预期的效果。
基于关键字的查询具有语 法简单、词汇自由的优点, 用户 能够使用自己的词汇 表达信 息需求, 因此 非常适 合普通 用户 的使用。但是这种方 法没有考 虑语法 和语义, 无法 将用户 的 信息需求明确表示出 来, 可能会漏掉一些信息。例如: 搜索电 脑, 可能会漏掉计算机, computer这方面的 信息。已经有 学者 研究如何缩小关键字 查询和形式查 询的差距 。文献 [ 2] 在语 义搜索引擎中利用关 键词映 射, 把 关键词 映射到 预先定 义的
33 98
计算机 应用
第 30卷
概念的模糊性; 利用本体推理得到隐含在本体中的知识, 提高 了查全率和查准率。
1 查询三元组的构建
1. 1 SPARQ L查 询语言 SPARQL 是 W 3C制定和推荐的 RDF 查询语言, 现在已经
成为标准查询语言 [ 7] 。 SPARQL 提供了强大 的基于图形 匹配 的查 询 功 能: 提 炼 查 询 结 果 ( ORDER BY, PRO JECT ION, D IST INCT, REDUC D, O FFSET, L IM IT )、 可 选 匹 配 ( op tiona l)、值 约 束 条 件 ( filter )、替 换 匹 配、以 及 直 接 回 答 YES /NO 等其他形式的查询。最简单的图形 模式是三元 组模 式, 一个三元组模式与 RDF 的三元 组类 似, 不 同的 是三元 组 模式允许查询变量出现在主体 、谓词或者客体的位置上, 三元 组模式合并形成一个基本的图 形模式。下面是一个三元组模 型例子:
K ey words: natural language understanding; onto logy query; query triple; onto logy triple
0 引言
本体是实现领域知识共享 、集成和重用的基础, 它能够清 晰地表示某个领域的分类 (类和属性 ) 和存储大量 的知识 (实 例和关系 ), 在语 义网 中起 着重 要的 作 用。然而 为了 获取 本 体中的形式化知识, 用户必须熟悉本体的语法、形式化查询语 言、目标本体的结构和词汇。这对用户提出了很大的挑战, 因 此需要利用自然语言理解的技 术来解决这个问题。目前面临 两个主要障碍 [ 1]: 1 )由 于自然 语言 的含 糊性 和复 杂性, 机 器 很难理解用 户 的意 思; 2) 即使 能 够 正确 地 分析 自 然 语言 查 询, 仍需解决很 多问 题, 例如 如何 把它 转换 为正 确的 形式 查 询。
Abstract: F or users can conven iently access to onto logy know ledge, S im ple P rotoco l A nd RDF Query L anguage ( SPARQL ) onto logy query based on natura l language understanding was pu t forw ard. U ser s natural languag e inqu ires w ere ana ly zed utilizing S tanfo rd P arser, query tr ip le w as construc ted accord ing to the gramm a r, g rea tly reduc ing the number of com binations compared w ith the key w ord m ethod. Comb ined w ith user d ictiona ry, the term s o f query triple could be mo re accurate ly m apped to the onto logy entities. Scores ca lcu la tion not only cons ide red the sim ilarity o f wo rds form and sem an tic, but a lso considered the amb igu ity o f concept, and re turned the specific concept as far as poss ible. Emp loy ing onto logy reason ing to obta in the informa tion hidden in the onto logy, the query w as filted and lim ited to im prove the accuracy. U sers interacted w ith sy stem through graphica l user inte rface, se lected the desired results, and finally returned query results in the form o f tree, and re la ted inform ation cou ld be seen. T he expe rim en tal results show tha t the proposed m ethod ach ieves the expected resu lts.