基于本体的语义信息检索系统模型研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于本体的语义信息检索系统模型研究
【摘要】传统的信息检索无法实现信息对语义层面的查询,在信息膨胀的今天,越来越难以满足人么对查询效率的要求。

本文通过设计一个基于本体的语义检索系统模型,通过语义标签对非结构化数据进行标注,建立统一的元数据库,并且建立相应的领域本体,利用本体的语义推理功能,从而实现了对信息资源的语义检索。

【关键词】本体;语义检索;元数据
1.引言
随着互联网与信息技术的发展,信息化的越来越深入到工作与生活的各个层面,随之而来的是信息量的急剧膨胀。

由于信息处理技术的发展,如何从海量的信息中高效快速、准确地检索到所需信息已经成为计算机领域研究的一个热点问题。

信息检索就是从信息集合中找到用户所需信息的过程。

在实践中,传统的基于关键词的检索方法主要通过把表征用户查询请求的关键词与表征信息内容的
索引词进行严格机械匹配进行的。

由于一义多词和一词多义现象的存在,缺乏语义理解能力,致使表示查询请求的关键词和用户的真实需求之间,关键词和索引词之间会存在多重表达差异,从而导致查询结果检准率低、误检率高。

为此,本文将研究研究面向本体的智能信息检索技术,并以此为基础构建一个系统模型,通过建立本体库与元数据库来准确映射信息资源,实现了对查询条件进行了语义层面的处理,从而提高检索效率。

2.信息检索与本体
2.1 信息检索
信息检索information retrieval)这个术语产生于calvin mooers1948年在mit的硕士论文。

信息检索是指将信息按照一定的方式组织和存储起来,并针对用户的需求找出所需信息的过程,又称为“信息存储与检索”[1]。

从广义上讲,信息检索包括存储过程和检索过程,对用户来说,往往仅指查找所需信息的检索过程。

信息的存储主要为对一定专业范围内的信息进行选择,并在此基础上进行信息特征描述、加工并使其有序化,即建立数据库。

检索是借助一定的设备与工具,采用—系列方法与策略从数据库中查找出所需信息。

在现代信息技术环境下,信息检索从本质上讲,是指人们希望从一切信息系统中迅速、准确地查找到自己感兴趣的有用信息,而不论它的出现形式或媒体介质[2]。

伴随着internet的广泛应用,网络上的资源呈现出海量、无序的特点,给传统基于关键词匹配的信息检索带来了局限性:对所需检索的目标不能准确描述;无法量化检索目标与候选者间的符合程度。

为此,本文提出的基于本体的语义信息检索,利用本体描述语义检索模型中的语义信息,对信息资源进行准确的语义标注,实现语义层面的检索,从而有效提高查全率和查准率。

2.2 本体
2.2.1 本体基本概念
本体(ontology)是指对世界上事物的基本描述其概念起源于哲学领域它在哲学中的定义为对世界上客观存在物的系统地描述,即存在论,是客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质,后来随着计算机科学技术的发展,本体的概念被引入计算机工程。

从本体的哲学内涵出发,结合计算机工程领域的特点,斯坦福大学知识系统实验室(ksl)的gruber于1993年在概念化(conceptualization)这一重要的定义基础上提出了第一个广泛被接受的定义:本体是一个明确定义的概念化规范[3]。

gruber把本体解释成共享概念化的明确的形式化规范。

共享体现了本体获取领域知识,能够被多个人和系统共同接受:概念化是一个的结构,d是领域、r是d上的集合和相应关系,是现实世界的抽象模型;形式化是指本体能够被机器理解和学习;明确则是要清晰地定义概念和概念之间的关系。

1998年,guarino修订了gruber的定义,引入了统称为概念关系的内涵关系,将本体定义为“本体论是一个逻辑理论,用来说明一个正规词汇表的逻辑含义[4]。

2001年,zuniga折中了两种定义,提出信息系统本体论应该是“特定的形式化语言产生的清晰公理理论[5]。

关于本体,在信息系统理论界还有很多代表性的定义,但总体来说,本体都是用于表示信息系统中隐含或不明确的信息,以便使知识的共享和复用成为可能。

2.2.2 本体的构建
构建本体时,根据各自问题域和具体工程的不同形成了不同的
构建方法。

这些方法有tove法、methodology方法、骨架法、kactus 工程法、sensus法、idef5方法和七步法[6]。

其中最具参考价值的方法是骨架法。

构建本体的核心在于严格确定领域内的术语、属性、关系和规则等,确立术语间的语义网络,建立术语库和关系库,并用规范化、形式化的语言进行描述和存储,使计算机能够识别和处理[7]。

其主要步骤是确定构建本体的目的和范围;构建本体(分为本体获取、本体编码和本体重用本体评估);使用本体语言对本体进行描述。

目前用于构建本体的工具很多,比较常见的有ontolingua、ontosaurus、webonto、protege、ontoedit等。

其中ontolingua 和webonto均只支持在线编辑而且必须是注册用户才可以使用ontosaurus是一个可以对用loom编写的知识库和本体进行浏览的web浏览器,其文库中只有少量可以使用的本体,对初学用户不易使用;protege则是一个可以免费下载的、具有图形化用户界面的、可在本地运行的本体构建工具;ontoedit也是一个在本地运行的免费程序但必须注册后由网管人员给用户提供用户名和密码。

在这5
种工具中protege有它明显的优势,因而现在的本体构建大多都是使用protege来实现的[8]。

2.2.3 本体的描述语言
owl(web ontology language)是w3组织推荐的本体描述语言,基于xml、rdf和rdf schema建立。

owl相对xml、rdf和rdf schema
拥有更多的机制来表达语义,从而超越了xml、rdf和rdf schema。

owl是最新的web本体语言标准。

2002年7月,w3c组织公布了网络本体描述语言(web
ontology language,owl)的工作草案1.0版,2003年8月该工作草案发展成 w3c的候选建议,在2004年的2月10号,owl成为w3c正式推荐的标准。

owl 已经发展成公认的未来的web本体语言标准。

owl增加了更多的词汇用于描述更多的语义特征:如类之间的关系;基数;相等关系;更丰富的属性类型;属性特征和枚举类。

owl提供了比xml、rdf和rdf模式更强大的功能,在它们的基础上增加了自己的带有形式语义的词汇[9]。

3.语义检索系统模型模型
3.1 基于本体的语义检索系统设计
本体系统模型主要分为三个模块:用户查询模块、本体管理模块、元数据管理模块,其系统结构如图1。

本系统模型的建立步骤的基本步骤可归纳如下:
(1)利用本体编辑器工具建立相关领域的本体。

(2)对收集的信息资源进行本体元数据标注:各种信息资源如pdf、web网页等,根据已建立的领域本体实体进行元数据标注。

使用rdf或owl语言对信息资源进行语义层面表示和描述,然后将其按照一定的格式存储在元数据库中。

(3)根据用户检索界面提交的概念,在理解用户需求的基础上,语义检索引擎借助解析推理工具对用户请求进行概念分析和语义
相关性推理,然后检索并对已进行本体元数据标注的信息资源库进行检索,最后将检索结果通过反馈给用户检索界面输出。

(4)设计用户检索界面:对用户的检索输入并进行概念提取,并将分析结果传递输出给语义检索引擎;在本体的帮助下匹配出符合条件的数据集合,把检索结果经过定制处理后返回给用户。

3.2 本体库的构建
一个本体可由概念、分类层次、关系、函数、公理和实例六种元素组成。

本体中的概念是广义上的概念,除了可以是一般意义上的概念以外,也可以是任务、功能、行为、策略推理过程等等[10]本体中的这些概念通常构成一个分类层次本体中的关系表示概念之
间的关联,这种关联表现了除分类层次关系之外的概念之间的所有联系本体中的函数是一种特殊的关系公理在许多领域中,表示函数之间或关联之间也存在着关联或约束实例是指属于基本概念类的基本元素,即某概念类所指的具体实体,特定领域的所有实例。

根据本体的形式化描述,构建领域本体库的步骤如图2所示。

本体的建立可以通过调用本体本体编辑器工具建立相关领域的
本体,创建相应的本体类和属性。

应用本体可看作领域本体在数据源上的映射,是将数据源中的异构数据转换成由owl来描述的本体实例得到的,具体实现时,可以首先创建一个owl文档,然后每取得一个元数据信息,就将其作为一个子结点插入到 owl 文档中,并且插入元数据的属性信息。

然后,通过本体解析工具,把应用本体存入到数据库中(比如mysql)。

另外,还可以将owl描述的本体转化成rdf三元组,并存入rdf三元组库中。

一个复杂的由owl定义的类或属性可以表示成一个或多个相应的rdf三元组。

3.3 语义匹配与语义推理
构建了查询本体后,为了进行有效的语义推理,可以根据领域本体和应用本体所定义出的语义关系,并根据相关的存放在知识库中的语义规则集进行相似度匹配推理计算本体相似度的方法有很多,基本上都是以分别属于不同本体(查询本体和应用本体)的实体之间配对比较
来实现,常用的方法如下:
(1)根据聚类原理及空间向量夹角的余弦公式进行本体之间概念、属性等相似计算。

(2)从图论和树的角度来比较两个本体的异同,如wordnet[11]就是基于概念图的本体表示方法。

(3)根据数据库领域模式匹配的理论,基于字符串匹配或字符串之间的编辑距离来比较两个本体的异同。

(4)依据谓词逻辑及机器学习的理论进行本体的相似度匹配,如使用一阶谓词逻辑的描述逻辑进行匹配。

(5)根据语法和语义进行比较,如借助于类似于wordnet的词典进行同义词的判定,根据领域、需求及粒度的划分定义好本体之后,需要用本体相似度的匹配理论进行本体之间相似度的计算,主要考虑本体之间概念属性及关系的相似度时,可以使用本体推理机辅助计算。

语义推理模块接受上一步中标注的检索词,结合推理规则,利用推理机进行语义推理,查询本体库,同时利用推理引擎进行语义推理,得到检索词之间的语义关系,最终产生标准的查询语句用于进一步的信息查询。

目前常用的推理机有jena、racer和jess[12]。

3.4 元数据库
建立元数据,就是通过对各种非结构化得信息资源进行语义描述,使信息资源在语义理解上避免歧义、多义,使其具有规范性和可操作性。

国际上应用广泛的元数据标准是都柏林元数据核心(dublin core metadata)[13],而国内元数据标准有《da/t46-2009 文书类电子文件元数据方案》。

建立元数据库的基本过程就是使用本体元数据标注,根据一定的规则和程序,对文档内容进行分析,然后给每篇文档赋予一定数量的内容标示,作为存储与检索的依据。

为了便于检索,可以使用rdf 或owl语言对信息资源进行语义层面表示和描述,然后将其按一定
的格式存储在元数据库(关系数据库、知识库等)中,从而建立了元数据库。

在本系统中,引入元数据机制,在概念层的下层形成元数据层。

这样,概念层可以直接引入元数据模式作为特定概念类的属性集,也可以在某概念集中引入某个描述性元数据模式及其定义作为概
念类。

通过这种元数据引入机制,可以将特定应用的语义元数据集成到语义层次模型中。

以设备资源为例,其设备资源信息包括名称、类型、所属企业、规格等元数据信息,可以根据设备类型将这些元数据分配到其所对应的概念节点下,作为此概念节点的一个资源实例。

如果这个概念同时还与企业信息存在关联,那么也可以将其中相关的元数据作为其概念的数据实例。

这样,元数据库中信息可以作为本体类的一个实例映射到上层的本体库中,从而使非结构化信息资源可以利用本体的语义方面的特性实现在语义层面的查询。

本文针对传统的基于关键字的信息检索中缺乏知识表示和语义
处理能力的缺陷,提出了一个基于本体的语义检索系统模型。

本体在智能信息检索系统中提供了必须的元语,该元语能够生成有效的查询与资源表述,使用语义标签对非结构化的信息进行描述,生成元数据,并且利用元数据库对为元数据进行统一存储管理,使检索系统可以使用语义层面的检索,并且利用语义推理机制,为终端用户的检索返回更有效的结果。

总之,基于本体的语义web信息检索技术可以使web信息检索能更加个性化、人性化、智能化、多样化,
在将来一定会得到进一步的应用和发展。

参考文献:
[1]李梅,王庆林.中文全文检索技术的研究及实现[j].情报学报,2003,22(1).10-17.
[2]孙建军,等.信息检索技术[m].北京:科学出版社,2004.
[3]trgruber a transation approaeh to portable ontology speeifieations,stanford
university,teehrep:logic-92-1,1993.
[4]邓志鸿,唐世渭,张铭,杨冬青,陈捷.ontology研究综述[j].
北京大学学报,2002(9).730.
[5]李善平,等.本体论研究综述[j].计算机研究与发
展,2004(7).
[6]杜文华.本体构建方法比较研究[j].情报方法,2005(10).24.
[7]mariano fernandez lopez. overview of methodologies for building ontologies[c]. in proceedings of the ijcai-99 workshop on ontologies and problem solving methods, 1999.
[8]杜文华,董慧本.本体建设工具比较研究[j].情报杂
志,2005(02):5-7.
[9]owl web ontology language
overview./tr/owl-features/.
[10]石静,肖航宇,熊前兴.基于swrl规则与本体相似度的语义检
索模型研究[j].计算机应用与软件,2010(7):236-273. [11]wordnet 3.0 reference manual.
/wordnet/documentation.
[12]朱创录.语义web推理的研究与实现[j].科学技术与工程,2010(01).。

相关文档
最新文档