第9章 智能检索系统
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文本中可以互相替代。
Synset中的指针所表示的关系可分为两种:词汇关系和语 义关系。语义关系反映词的意义,主要包括:
(1)上位/下位关系。
(2)反义关系。 (3)依赖关系。
(4)半义/全义关系。
WordNet中的名词和动词依据Synset间的上下位关系组织
为层次结构,其他关系则通过附加指针来指示。具有同一
9.2.3 知识检索过程
KRetrieval原型系统在本体知识组织的基础上实现基于概念 的知识检索,其检索过程如下图所示 :
9.2.4 原型系统评价
KRetrieval原型系统具有一定的创新性和先进性,主要
表现在:
(1)采用了基于本体的知识组织技术,以机器可理解 的形式描述深层知识,加强了对知识的表示力度,是提 高检索知识质量的关键之处。 (2)采取三层式知识检索模型,以概念本体作为概念
基于内容图像检索模型:
主要方法有:
(1)基于颜色特征的方法 (2)基于纹理的方法 (3)基于边缘/草图的方法 (4)基于形状的方法 (5)基于空间关系的方法
基于语义的图像检索
需要综合应用多媒体技术、人工智能、信息科学、认知科 学等多学科知识来实现图像语义特征的提取、表示和检索。 基于语义的图像检索方法和传统方法相比具有以下特点: (1)检索结果不是孤立的图像列表,而是基于语 义的相关图像或图像碎片的聚合; (2)用户可以根据语义链确定的路径浏览图像, 并进行推理。
② 推理结构:用来描述功能函数间的组合关系,说 明一个高级的功能函数推理结构将被分解为哪些 较低层次的功能函数。 1. name <推理结构名称>
Function
Constituents > Description
<功能函数>
<功能函数集合>
Input-output-dependencies <数据模型集合 <文本描述>
9.2 基于本体的知识检索原型系统
KRetrieval系统:基于本体的知识检索原型系统
设计目标:对图书情报和人工智能的部分领域内的文
献知识进行检索,依据本体的基本原理组织和存储检 索领域知识。
9.2.1本体知识获取
(1)静态概念知识的获取途径主要包括: 通过专家学习
通过词表学习
通过文献学习 (2)动态概念知识学习方式主要有两种: ——人工输入方式 ——机器自动学习方式
。概念间的语义关系包括:同义关系、上位/下位关系、半义/全
义关系和反义关系。
逻辑关系的转换规则: 对于C中的任意两个概念项Ci和Cj间的逻辑关系,其基本转 换规则如下。 (1)如果Ci与Cj间具有逻辑“与”关系,即Ci and Cj,则: Ci与Cj同义 =〉Ci or Cj Ci为Cj的下位 =〉Cj Ci为Cj的半义 =〉Ci (2)如果Ci与Cj间具有逻辑“或”关系,即Ci or Cj,则: Ci与Cj同义 => Ci or Cj Ci为Cj的下位 =〉Cj Ci为Cj的半义 =〉Cj
(2)本体实例知识库
文献对象类的基本模型表示为Article类,其属性设置见下表:
属性名 articleName autherName keywords workShop articEnglishname magazineName serialNum classNum 说明 文献名 文献作者 文献关键词 作者机构 文献英文篇名 文献出处刊名 文献出处刊号 文献所属分类号 类型 string string string string string string string string
例如,用户知识的获取,系统对用户检索行为进行记
录和分析。这些记录将保存在系统日志中,作为自动学 习的基础。
9.2.1 本体知识组织
作为先进的知识表示手段,本体在知识检索系统中,主要 用于组织各种检索知识,构建知识库。 知识检索领域的知识主要包括: (1)语言知识和常识 (2)领域知识 (3)专家的知识 (4)用户的知识
的启发、联想、扩展的基础,实现动态知识检索。
(3)在检索过程中通过和用户的简单交互实现相
关反馈,用户可以通过系统知识库中的专业概念发
现和明确地描述检索需求,而系统则在多次反馈中 逐步探知和理解用户需求,这种积极的交互过程是 提高检索准确率的主要因素。 (4)该模型可以通过对用户检索过程的观察记录, 实现知识的主动获取,具有一定的智能性。
String
Boolean String
1
1 1 True
superTopic
subTopic equalTo
该概念的上位概念集合
该概念的下位概念集合 该概念的相等概念集合
Topic类的实例
Topic类的实例 Topic类的实例
relatedTo
该概念的相关概念集合
Topic类的实例
实例的定义
将具体的领域概念的性质内容填充到Topic类的各个属性槽中的过程。 例如对于“人工智能”这个概念,其各个属性的值设置见下表:
<数据模型>
<文本描述> <功能函数> <控制结构> <领域知
识模型>
(三)领域知识库
用于存储待检索领域的专业知识,包括专业领域中的各 类知识对象及其关系和不同抽象层次的分类概念、主题 概念及其关系。
(1)概念本体知识库 利用本体的知识要素对概念知识进行建模。建模 的过程主要包括两大步骤:类的定义、实例的定义。
个上位词的词项被称为同位词。
(二)专家知识库
专家的经验知识属于动态知识,可以把专家知识库的构建考虑 为检索领域的任务本体的构建,如下图所示。
任务建模要素的表示 ① 功能函数:用于描述任务的数据流。 Function-name Class-name Sub-type-of Input Output Goal-description Assumption <功能函数名称> <功能函数> <功能函数> <数据模型> <数据模型> <文本描述> <假设条件值>
Others(其他知识)
9.2.2 基于本体的知识检索模型和策略
1、基于本体的知识检索模型
知识检索模型包括:
——用户界面代理;用户界面代理的主要功能是对检索请求进 行本体化 ; ——参照本体库(它为模型提供各类本体知识的概念模型、元 数据和基本概念,如专家本体、领域本体、用户本体等); ——本体对象库,是领域本体实例库; ——检索代理,主要功能是负责整个知识挖掘与检索过程 ; ——本体代理,负责参照本体库的建立、维护、查询及其与其 他部件的协作管理; ——搜索代理,主要功能是对网络信息资源发出查询以及对返 回的结果在本体代理的协作下进行处理等。
③ 控制结构:将控制逻辑应用于功能函数,说明 各组成函数如何按照一定的逻辑顺序协调工作。 name Function <控制结构名称> <功能函数>
Input-role
Working-role Output-role Control-logic
<数据模型集合>
<数据模型集合> <数据模型集合> <控制逻辑伪代码>
3、基于领域本体的查询式扩展方法
在知识检索的执行过程中,有时会出现检索失败的情况,处 理检索失败问题的方法是对用户查询式进行扩展,放宽查询条 件或者获取更多的语义表示。 在基于本体的知识检索系统中,可以根据领域本体中的概念 和关系对用户查询式进行扩展,主要可从两个方面进行:
(1)利用基本的类层次结构关系 (2)利用其他相关关系
Ci为Cj的反义 =〉Ci or Cj
(3)如果Ci具有逻辑“非”关系,即not Ci,则: Ci与Cj同义 =〉not Cj Ci为Cj的上位 =〉not Cj Ci为Cj的全义 =〉not Cj Ci为Cj的反义 =〉Cj
如果C中的概念具有多种逻辑关系组合,则通过上面的基
本映射规则的组合来实现映射。
9. 3 基于语义的图像检索系统 9. 3.1 图像检索进展
图像信息检索也向内容检索、语义检索的阶段迈进。基 于文本信息的图像检索,已不能完全满足人们的要求。基于 内容的检索方式的出现,解决了人们对图像视觉特征所代表
的特征语义,但不能完全解决高层语义的图像检索。建立图
像的语义表示和检索机制势在必行。 基于文本的图像检索过程:
学习、语言理解等。
2、智能检索模型 智能检索模型如下图所示,它包含四个主要元素:用户需求、 检索结果、检索推理机和知识库。 (1)用户需求:包括用户知识、需求、偏好等; (2)检索结果:是用户需要的信息知识。 (3)检索推理机:它将信息检索技术与推理技术有机地结合起 来,实现知识检索任务。检索策略与方法包括概念检索方法、 基于知识推理的检索方法、基于用户知识的个性化检索方法、 基于学习的检索方法、基于本体的语义检索策略与方法。语义 推理是指利用对象或概念之间的语义关系及启发式知识,实现 智能搜索的过程,例如联想检索、分类检索和继承检索。规则 演绎推理是利用专家的规则知识进行推理。近似推理是指模糊 推理或不精确性推理。逻辑演绎推理是利用谓词逻辑进行推理。 (4)知识库:表示知识库集合,包括: 检索推理策略库、专家 知识库、用户知识库、语言知识库、领域知识库。
(一)语言知识库
用于存放系统所需要的语言学知识,主要包括字典、 词典、语法和语义知识,用于支持自然语言处理和自然语 言会话。
在基于本体的知识检索系统中,将语言知识库的构建 考虑为语言本体的构建。语言本体,是反映语言和词汇知 识的本体。
语言学本体中的概念集合主要包括语法要素(如动词、 名词、形容词等)和语法关系(如同义词关系、反义关系、 语法变形关系等)。
(四)用户知识库
系统采用分类技术来创建和修改用户模型。用户模型由两部 分组成:静态模型、动态模型。
静态用户模型类的一般结构的描述:
类名——user(用户)
槽
——ID(用户标识号)
Name(姓名) Age(年龄) Degree(学历) Vocation(职业) Domain(领域知识) Experience(系统经验)
Name
englishName isKeyword
人工智能
Artificial intelligence True
classID
superTopic subTopic equalTo relatedTo
T32.2
计算机应用 计算机视觉、专家系统、自然语言处理…… 控制论、智能代理……
Fra Baidu bibliotek
实例和实例属性的定义也是通过Daml+OIL语言实现的。
WordNet:目前世界上最著名的语言本体,在线英文 词汇参考系统,依据心理语言学的基本理论设计,由普林 斯顿大学研制。 WordNet的知识组织结构: 在每一个Synset中都包含一组同义词或词组,以及描述 该Synset与其他Synset间关系的指针。一个词和词组可以 出现在多个Synset中,位于同一个Synset中的词或词组在
第9章 智能检索系统
主要内容
(1)智能检索系统; (2)基于本体的知识检索原型系统设计; (3)基于语义的图像检索系统。
9.1 智能检索
1、智能检索
智能检索的基本思想是,模拟人类的认知功能和智能
活动,有效地利用一切知识源,尽快找到满足用户需求 的信息知识。认知功能主要是人类的认知能力和认识思 维方法。人类的思维方法直接影响其智能活动。人类的 智能活动包括智能感知、智能思维、智能行为,如推理、
基于本体的知识检索模型图:
2、基于语言本体的查询式优化方法
知识检索系统的用户查询式有三种表达形式: ——自然语言表达 ——关键词表达 ——专门的语法形式表达。
用户查询式优化步骤:
假设用户的原始的概念空间为{K,Q},其中K为用户查询式中的 检索概念项的集合,Q为概念项间逻辑关系的集合。则利用语言 本体对其进行优化的过程可以分为两步。 第一步:将K中的用户概念项映射为语言本体中的概念,形成新 的概念集合C。 第二步:根据语义关系和原始的逻辑关系Q,对C执行逻辑转换 规则,确定新概念间的新逻辑关系,形成新的概念空间。
类的定义
Topic类,作为基本的概念模型,它是Daml+OIL语言中通用 类(Thing类)的子类。 Topic类的各属性槽设置见下表:
属性名 name 说明 该概念的中文名称 类型 String 值的数量 1 候选值
englishName
isKeyword classID
该概念的英文名称
该概念是否为叙词 该概念的范畴号
任务的表示
Method-name <任务名称>
Class-name
Sub-type-of Input
<任务>
<任务> <数据模型>
Output
Goal-description Has-inference-knowledge Has-control-knowledge Has-domain-knowledge