语义检索
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在数字图书馆中,信息检索存在明显不足。
在文献的组织与描述上,简单将关键词作为描述文献的基本元素,文献之间没有关联,是相互独立的、无结构的集合。
在检索操作上,通常是基于关键词的无结构查询,难以反映词语间各种语义联系, 查询能力有限,误检率和漏检率很高,检索结果的真实相关度较低;计算查询和文档之间的相似度的方法也有局限。
在用户交互界面上,用户的检索意图难以被机器理解,采用自然语言输入的检索关键词与机器的交互存在障碍。
现有数字图书馆信息资源检索存在资源表示语义贫乏和检索手段语义贫乏、查准率低下等问题,语义网技术的出现,为数字图书馆的发展注入了新的活力,为信息检索质量的提高带来了新的生机。
运用语义网技术,使解决信息检索中现存的问题,完善信息检索流程成为了可能。
3.1 数字图书馆信息检索模型目前数字图书馆的信息检索主要借助于目录、索引、关键词方法来实现, 或者要求了解检索对象数据结构等, 对用户提供的关键词的准确性要求较高,基于语法结构进行检索, 却不能处理复杂语义关系,常常检索出大量相关度很差的文献。
图3.1 数字图书馆信息检索模型用户通过检索界面,输入关键词,文本操作系统对用户的关键词进行简单的语法层次的处理整合,与数字图书馆资源进行匹配检索,最终将检索的结果,再通过用户界面返回给用户。
而数字图书资源,专业数据库等都是数字图书馆信息检索的范畴,这些数字化的知识资源主要以数据库形态分布于全球互联网的数千个站点,这种以数据库形式存放的信息资源,通常是电子化了的一次文献,包括元数据、摘要或者是全文,也可以是全文链接的地址。
24 基于语义网的数字图书馆信息检索模型研究
3.2 基于语义网的数字图书馆信息检索模型的设计思想数字图书馆信息检索系统存在诸多问题。
查询服务智能化水平低,无法对用户请求进行语义分析;信息资源的共享程度低,仅仅采用题名、文摘或全文中出现的关键词标识文献内容,难以揭示文献资料所反映的知识信息,易形成信息孤岛;对用户输入的关键词进行句法匹配,查准率不高;片面追求查全率,返回大量无关结果等。
这些问题最终造成用户的真正检索意图难以实现。
人们希望有突破性的信息检索技术出现,能够支持更为强大的信息检索功能,具备理解语义和自动扩展、联想的能力,并为用户提供个性化服务。
在这样的需求下,本节深入探讨了现存问题的解决方法,结合语义网技术,提出了以下基于语义网的数字图书馆信息检索模型的设计思想。
3.2.1 机器理解与人机交互人们通过信息的交流和沟通,表达一定的思想、意思和内容,因此,自然语言和表达的信息中蕴含着丰富的语义。
尤其是自然语言中,一词多义、一义多词现象十分常见,在不同的语境中,同样的词汇还可以表达出不同的意义。
在人与人的交流中,近义词、反义词、词语的词性、语法结构等帮助人们在特定的语言环境中理解语言表达的确切含义,而计算机要做到这点却有难度。
随着网络的不断发展,网络信息充斥着人们的视野。
如何在浩如烟海的信息资源中,以最短的时间查找出相关资源,成为人们所关注的问题之一。
通常,检索系统总会返回相关度不高,甚至完全无关的信息,而有些相关的信息却往往被遗漏了。
一方面,检索工具没能把已经存在的、对用户有价值的信息检索出来,另一方面,信息资源没有很好的被归纳,提炼成知识。
利用语义网技术,将语义丰富的描述信息和资源关联起来,通过机器理解和人机交互,对信息资源进行深层次的分析和挖掘。
从本质上讲,人机交互是认知的过程,主要通过系统建模、形式化语言描述等信息技术,最终实现和应用人机交互系统。
3.2.2 语义知识与描述逻辑从语义学的角度讲,语义是语言形式表达的内容,是思维的体现者,是客观事物在人们头脑中的反映[72]。
人们在进行信息交流和沟通时,通过词语、符号来表达思想。
当人们看到
或听到语境中的一个词语或符号时,能够准确、迅速的对应到相关的事物、事件,这是由于借助了人类头脑中已有的相关概念。
当人们在
第三章基于语义网的数字图书馆检索模型研究25
语言交流中提到词语、符号时,往往先在头脑中寻找出相关的概念。
这些概念是人们在学习生活中不断积累得到的,对已有事物的认识和认知。
当相关的概念被找到,凭借这些相关概念的帮助,人们可以迅速链接到对应的事物,从而准确获知相应的信息。
词语、符号正是代表了相应的事物、事件,而人们的获知却是需要经过概念语义上的理解,最终准确地锁定事物、事件,这样就构成了语义知识图。
图 3.2 语义知识图知识是建立在逻辑的基础上。
逻辑是在形象思维和直觉顿悟思维基础上对客观世界的进一步的抽象,所谓抽象是认识客观世界时,舍弃个别的、非本质的属性,抽象出共同的、本质的属性的过程,是形成概念的必要手段。
逻辑可分为命题逻辑、一阶逻辑、框架逻辑和描述逻辑[32]:命题逻辑,其原子公式仅仅是真或假,如,露西是女的。
这是一个原子命题。
而复合命题就是在原子命题上加上逻辑连接词组成的表达式。
一阶逻辑的原子公式是对对象之间关系的陈述。
一阶逻辑使用谓词,参数采用常量或者变量。
如上例原子命题可表示为一阶逻辑,Female(Lucy) 经过推理,可得,?x Female(x)∨Male(x) ?x表示“对所有人x”,∨表示“或”,即对所有人x,要么是女的,要么是男的。
框架逻辑主要用于将概念建模集成到一致的逻辑框架中,包括类、性质、定义域和取值范围限制等。
描述逻辑,又称术语逻辑,是基于对象的知识表示的形式化,采用结构化的和易理解的形式来表示领域知识,拥有基于逻辑的正式语义。
它的基本组成成分有概念、角色和实例,通过对简单概念和角色的复合,以达到对复杂概念和角色的表示。
描述逻辑是一阶谓词逻辑的一个可判定子集。
它与一阶谓词逻辑不同的是,描述逻辑的推理问题是可判定的,很大程度上改善了推理问题的复杂性。
同时,描述逻辑的知识表示方式继承了语义网络和框架的特点,比一阶谓词更
26 基于语义网的数字图书馆信息检索模型研究
具灵活性与可理解性。
除了知识表示以外,描述逻辑还用在其它许多领域,它被认为是以对象为中心的表示语言的最为重要的归一形式。
描述逻辑的重要特征是具有很强的表达能力和可判定性,它能保证推理算法总能停止,并返回正确的结果。
在众多知识表示的形式化方法中,描述逻辑在十多年来受到人们的特别关注,主要原因在于:它们有清晰的模型-理论机制;很适合于通过概念分类学来表示应用领域;并提供了有用的多种推理服务,使系统能从明确表达的知识中得到隐含的知识。
描述逻辑能够满足本体语言在语义表达能力的需求,还能形式化描述较为复杂的本体结构,具有正式的基于逻辑的语义和很强的表达能力。
描述逻辑基于概念和关系,概念就是对象集,关系则描述了对象之间的联系。
图 3.3 描述逻辑概念系统图在描述逻辑概念系统图中,TBox(模式集)是描述领域的公理集,也称为术语集,即应用领域的词汇表,ABox(数据集)则是描述具体情形的公理集,即采用这些词汇表对个体的断言或陈述的集合。
描述逻辑不仅包括术语和断言,还提供对术语和断言推理
的功能。
对于ABox的一个重要问题是判定其中的断言能否相容。
有了概念间的包含关系,就能把术语所代表的概念组织成层次结构。
3.2.3 知识管理
知识管理,也称为内容管理,是指运用信息技术,对存在于数据库中、被印刷于纸上或者是存在于人们头脑中的各种不同来源的知识内容,进行分析整合,实现知识的生产、共享、应用及创新,从而产生价值并形成知识体系,作用于实践中。
内容管理系统的基本思想是分离内容的管理和设计。
页面设计存储在模板里,而内容存储在数据库或独立的文件中。
当一个用户请求页面时,各部分联合生成一个标准的HTML页面。
内容管理系统能够使用模板和通用的设计元素以确保整个网站的协调。
编程人员只需在他们的文档中采用少量的模板代码,然后即可把精力集中在设计之上的内容了。
要改变网站的外观,管理员只需修改模板而不是一个个单独的页面。
同时,内容管理系统也简化了网站的内容供给和内容管理的责任委托。
第三章基于语义网的数字图书馆检索模型研究27
基于本体的内容管理能够为领域知识的描述提供术语,描述特定领域知识的对象分类、对象属性和对象间的关系。
领域本体通过本体中的术语, 分别描述与通用领域或者普通工作相关的词汇,而图书馆资源本体就是用于描述该领域中相关概念和这些概念之间关系的概念,因此,非常适用于内容管理[73]。
依赖特定的任务来表达一定的内容知识,只需要考虑相关的领域内容,再依赖于领域的内容管理分析进行大规模的模型共享、系统集成、内容获取和重用。
基于本体的知识管理允许文档的机构化和语义定义,能用智能检索代替关键词匹配,还能够定义文档的不同视图,通过格式转换来进行部门间的文档转换,揭示内容之间的内在关系, 建立有效的内容管理模式来实现多方式数据存储,并采用自动的搜索索引技术,来扫描信息,实现管理的自动化。
3.2.4 概念语义检索
概念是人们在长期的生活中,对客观存在的事物,将其抽象到人脑中的反映,通过字、词、词组等形式表达。
同一个客观存在可以有多个概念对其进行描述,从而形成同义词、近义词关系。
而概念语义检索,就是突破机械的字面匹配,从词所蕴含的概念语义层次来认识用户的检索请求,从而获知用户的确切检索意图。
如用户输入关键词“计算机”,传统关键词检索只能进行字面匹配,对包含“计算机”的文档和网页信息进行查找。
“电脑”跟“计算机”在人们的语言习惯中,基本含义大致相同,检索系统却不能查找出包含“电脑”的文档和网页信息。
概念语义检索能够帮助系统实现对用户输入的关键词进行语义分析,提高查全率和查准率。
而达到此目的,就要实现蕴含语义拓展、语义相关联想、相关概念检索等。
如何来实现概念语义检索,可以构建一个知识库,对知识库进行管理、维护,并根据信息的变化而动态发展。
建立知识库,可运用专家的知识,从而将概念语义检索架构于此知识库基础之上。
知识库一旦建立,并非一劳永逸。
这只是一个基础的语义概念库,由于信息资源不断发展,知识库也需要不断更新,以适应新的需求。
因此,知识库应该具备可扩展、具有增量的管理维护的功能。
在专家意见的指导下,进行必要的扩展和更新,增加新的语义概念,删除不再使用的,修改不再适用的语义概念。
一个适用于语义检索的知识库,应该具备:达到一定规模的足够丰富的知识,并尽量延伸至所有领域;知识表示准确到位、简洁明了、清晰、无歧义,便于机器识别;知识能够反映客观存在;可扩充、学习型变化,信息时代的信息产生速度快,信息量大,知识库的动态变化才能适应不断变化的需求;结构合理,不存在重复、冗余,不消耗不必要的存储空间,并避免不一致想象出现。
28 基于语义网的数字图书馆信息检索模型研究
概念语义检索的原理可分为三个映射和两个整合的过程:用户输入检索请求,由于用户的知识领域的差异,输入的关键词的准确性有差别,需要系统对检索需求进行分析,整合出用户的检索意图,同时这也是用户需求到检索系统表达的一个映射过程;概念语义检索系统须对检索对象,即信息资源进行描述和表示,为检索服务,而这个从外界数量巨大的信息资源到对它描述和表示,经过语义整合的过程,是信息资源到数字化整序的映射过程;检索系统对用户真正的检索意图的认知表达式与概念语义检索系统中的整合后的资源匹配,检索出所需的信息资源,又是一个映射过程。
图 3.4 概念语义检索原理图
3.3 基于语义网的数字图书馆信息检索系统框架模型数字图书馆的智能化和知识化是今后的发展方向之一。
在数字图书馆信息资源检索中,运用语义网技术,使检索服务的范围扩大到了知识层次。
随着互联网的发展,语义网技术的完善,数字图书馆将不再仅仅是提供简单的通讯平台,而能够通过规范的语义表达,达到机器之间的理解和人机交互,从而更好地为人们共享知识、交流思想服务。
基于语义网的数字图书馆信息检索,能够向用户提供知识检索的功能,这是由于语义网三大关键技术XML、RDF、本体技术为语义网的语义层次上的实现提供了技术支持。
对于基于语义网的数字图书馆来说,其信息检索服务的信息资源从传统的一次文献扩大到知识的范畴,信息存储系统的数据库也转变为包含领域知识的领域本体库和知识库。
由于语义网技术与数字图书馆信息检索,具备一定的相似性和相容性,有着技术上融合的可能,本文在现有的数字图书馆检索模型的基础上,引入语义网技术,依据机器理解与人机交互、语义知识与描述逻辑、知识管理、概念语义检索的设计思想,提出了基于语义网的数字图书馆信息检索系统框架模型(图3.5)。
第三章基于语义网的数字图书馆检索模型研究29
图 3.5 基于语义网的数字图书馆信息检索框架模型由于常规的直接基于关键词的信息检索技术已不能满足用户在语义层次和知识层次的检索需求,在本模型中,运用语义网技术,改善数字图书馆传统信息检索的不足,其具体检索流程如下:(1)收集信息源中的数据,在MARC、DC等元数据标准下,利用XML、RDF 等语义网技术,将其转换为特定格式,建立元数据,存储在元数据库中。
(2)利用元数据库中的信息,概念检索技术以及数字图书馆领域中的分类体系和主题词表、语义字典等工具,在领域专家的知识和经验的帮助下,构建领域本体,最终存储在知识库中。
(3)对用户检索界面提交的查询请求,推理机根据已经构建好的领域本体知识,将其转换为规定的格式,利用领域本体的语义相似度,进行语义抽取,从而实现对检索需求的预处理。
(4)根据查询请求子模块中得到的检索表达式从知识库中匹配出符合条件的信息需求集合,并根据领域本体的语义相似度对结果集进行排序,语义相似度大的结果排序靠前,最后将整序后的结果提交至用户。
本文提出的基于语义网的数字图书馆信息检索模型,主要有三大模块组成:数字图书馆信息资源整合处理模块、用户接口及查询信息处理模
块、检索匹配与输出模块。
其中,流程(1)、(2)属于信息资源整合处理模块,流程(3)属于用户接
30 基于语义网的数字图书馆信息检索模型研究
口及查询信息处理模块,流程(4)属于检索匹配与输出模块。
3.3.1 数字图书馆信息资源整合处理模块
信息资源的合理组织,对提高信息检索效率起到了关键作用,因此,运用语义网技术,对数字图书馆信息资源进行有效处理,是本模型中的一个重要而关键的模块。
利用语义网资源标注、概念检索技术以及数字图书馆领域中的分类体系和主题词表、语义字典等工具,构建能够充分描述数字图书馆信息资源领域知识的概念空间,建立本体模型,形成领域本体。
在领域本体构建过程中,借助领域专家的帮助,充分运用专家知识和经验,捕捉相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出词汇和词汇间相互关系的明确定义。
由于用户是最终的受益者,因此,可选择性地采纳用户对领域知识的认识。
利用领域本体对文档进行标引。
先从文档集中抽取出特征词汇,分析特征词汇,并建立与概念集之间的联系,从而达到使用领域本体对文档进行语义标引[74]。
本体是共享的、形式化的、抽象的概念集合,概念及概念之间关系都已被精确地描述,通过语义标引方法,可以表示出文献中隐含的语义信息。
文献资源的所属类别能够被更好地划分,并且概念之间有了明确的语义关系。
以此来实现语义推理功能和语义查询扩展。
本体构建的过程是一个持续的、不断修正的过程。
领域本体初步建立好后,并不能一劳永逸。
本体论是世界的反映,因此它必然随着现实的发展而变化[75]。
数字图书馆信息资源随着网络的发展而动态发展,要不断适应用户的需求,就需要根据实际情况,对领域本体不断修正和随时更新。
在本模型中,采用本体更新器,根据信息资源的变化,对领域本体进行及时有效的扩充。
本体更新器具备了根据网络信息的发展,及时更新领域本体中的本体知识的功能,如增加新的知识、修改不再适用的知识,并删除不再使用的知识。
在信息资源到领域本体构建的过程中,信息资源的元数据信息提取尤为重要。
随着网络的发展,数字图书馆信息资源也在不断丰富和扩充。
在对信息资源进行合理整合组织的过程中,使用了元数据。
这是因为元数据是描述资源属性、提供精确检索服务的结构化数据,能够被机器理解和处理,同时规范、标准的元数据也是构建信息共享平台的基础。
由于数字化资源数量巨大,不可避免的形成了元数据标准难以统一,并以半结构化数据存在于网络中的局面,导致一些信息资源不精确甚至缺失、无法使用的情况。
因此,借助于XML组织文档,在无人工干预的情况下,依据原有数字图书馆信息检索中的元数据标准如MARC、DC 等,提取用户感兴趣的元数据信息,并进行整合存储。
首先,对数字化资源的文档等信息,去除在格式、内容、语言等方面存在问题或有严重缺失而影响使用的文档,即对
第三章基于语义网的数字图书馆检索模型研究31
信息资源进行初步整序,产生相对规整可用的文档信息,将不同格式的数字化文档转化为方便处理与解析的文本形式,存储在文档数据库中。
再采用MARC、DC 等标准,根据数字化文档元数据的规范定义,产生提取元数据的各种应用模式,对文档数据库中的文档信息的元数据进
行提取。
为方便数据的共享与信息交流,一般采用XML将提取的元数据组织存储在元数据库中。
而在元数据提取过程中,可以参考以下方法:区分文档各部分的重要标识,即对文档具有重要意义的关键词可认为是元数据提取过程的重要依据;对于许多文档中的普遍出现的元数据信息,可预先提取,如,日期信息、所在期刊等;对于符合某种共同模式的文档,采用统一模式。
具体提取过程如图3.6所示:
图3.6 数字化文档元数据提取过程在文档信息元数据提取过程中,将初步整序后的信息资源文档。
利用MARC、DC等元数据提取办法与标准,以及各类数据库信息进行粗粒度提取,随后进一步细化,抽取出元数据信息存储与元数据库中。
各类数据库主要指已有的会议、期刊数据库,域名数据库,地名数据库等,借助它们的信息辅助搜索与匹配,并根据实际情况,在提取过程中,视各种辅助信息的重要程度,进行优先级排序最终提取出元数据。
但是,XML 不具备语义描述能力,而这一缺陷可以被RDF解决。
RDF定义一个简单的概念模型,指定相应的值,描述资源和资源之间的关系。
RDF以XML为语法基础,运用命名空间的思想,达到复用的目的,简化了程序,减少了创建元数据的工作量。
在这些工作完成之后,利用元数据库中的信息,描述逻辑等以及数字图书馆领域中的分类体系和主题词表、语义字典等工具,在领域专家的知识和经验的帮助下,构建领域本体,最终存储在知识库中。
32 基于语义网的数字图书馆信息检索模型研究
图3.7 信息资源领域本体构建流程示意图
3.3.2 用户接口及查询信息处理模块
传统信息检索是直接使用用户输入的关键字来进行检索查询,但是其效果不尽人意,主要原因在于对各种领域的专业知识的认知不够全面,既容易对信息需求的理解失真,无法灵活更改信息需求,又难以表达检索出结果的相似性程度。
同时,用户真正的检索意图很难用几个关键字表达清楚,而且,用户对领域知识的认知的专业程度有差异,这些都影响了检索的效率。
因此,人机交互开始受到重视与关注,成为信息检索效率提高所要研究的一个方面。
而用户接口的人机交互是建立在语义的基础上,在计算机领域,语义是用户对于那些用来描述现实世界的计算机表示的解释,即用户用来联系计算机表示和现实世界的途径。
在本模型的用户接口及查询信息处理模块中,当用户在用户界面采用自然语言输入查询请求,一般是关键词或语句,推理机首先对查询请求进行预处理,负责将用户提交的自然语言查询词语或语句转换成合适的本体查询词或语句。
推理机是指系统中实现基于知识推理的部件,是基于知识的推理在计算机中的实现,主要包括推理和控制二个方面,是知识系统中不可缺少的重要组成部分。
推理机在数字图书馆信息资源领域本体的基础上,利用本体领域内的知识和一些基本的自然语言理解技术对关键词或语句进行分析,通过语义相似度的计算,进行语义推理,从领域本体中抽取出与用户查询关键词或语句具有语义相似度的本体,最终得到用户真正的检索意图。
之后可以选择两种方式:一是将在查询请求处理子模块中,运用推理机处理后得到的相关关键词组或语句群返回用户界面,让用户选择与其检索意图一致或是相关的关键词组或语句群再提交至查询处理子模块,另一个是不将经推理机处理后的查询语义关键词组或语句群返回用户界面,而是采用系统默认方式,直接将检索请求提交给系统的检索部分。