本体信息检索情境下相关性理论研究_郝斌

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
通过以上分析 , 我们可以看出 , 本体的应用能够 在信息源端和用户端提高相关性 , 但是仍然还有很 大不足 。 在信息源端 , 该类型系统中本体是最简单 意义上的本体 , 本体间概念间只有最基本的联系且 不具备推理能力 , 因此揭示语义知识联系的能力极 其有限 。 同时 , 本体中概念匹配的对象是文档关键 词和摘要 , 是对二次信息源进行加工 , 而不是针对原 始文献进行的直接分析 , 因此 , 关键词和摘要的质量 对检索相关性的提高程度有较大影响 。 另一方面 , 有时候文档隐含的真实内容并没有在关键词和摘要
由于本体在知识表达领域中的这些优点 , 它在
信息检索领域有着广阔的应用前景 。 在文本信息检 索领域 , 通过本体 , 检索系统可以用概念对信息源进 行深层次的语义标引 , 使检索逻辑视图能更好地反 映文档真实内容[ 12] , 从而突破机械式字面匹配局限 于表面形式的缺陷 , 实现基于内容的 概念检索[ 13] , 从信息源这一维度来提高相关性 ;同时 , 普通用户可 以方便地在概念层次上描述信息需求 , 利用本体查 询语言 , 如 RD Q L[ 14] , 构造复杂的查询 , 系统根据用 户查询式 , 帮助用户准确找到真实的信息需求 。 因 此 , 基于本体的文本信息检索能够在系统和用户两 方面对相关性有所提高 。 另一方面 , 通过构建完善 的领域知识库 , 实现完全基于本体的信息检索 , 则会 给用户带来全新的检索体验 , 使相关性表现大为改 观 。具体而言 , 依据本体在检索系统中的作用与类 型 , 目前本体应用于信息检索主要有以下三种模式 : 本体用于分类 、本体用于标引和本体知识库 。 2 不同本体信息检索模式下的相关性分析
因此 , 本体的应用必然对信息检索相关性有较 大的积极影响 , 但由于本体以及相关性理论本身的 复杂性 , 一方面 , 作为前沿研究领域 , 本体的定义 、内 涵和分类是一个复杂的 、尚不成熟的体系 , 使得本体 信息检索的研究是在不同的水平 、不同的侧面上展 开的 , 具有实验性 、多样性 。 另一方面 , 相关性虽然 是情报学的重要基础理论之一 , 但由于其涉及面广 , 难以进行定量分析 , 至今没有形成明确的定义 。 基 于这两方面原因 , 国内外学界目前还没有对这一领
在本文的上一节我们论证了相关理论基础 , 下 面笔者将就不同本体信息检索模式下的相关性表现 进行具体的分析研究 。
郝 斌 :本体信息检索情境下相关性理论研 究 Hao Bin:Relevance in the Ontology-Driven Information Retrieval
2 .1 本体用于分类 在这一类型的本体信息检索模型中 , 本体一般
在信息源端 , 对文档的关键词和摘要进行分析 , 将这些关键词和摘要内容与本 体中的概念进 行匹 配 , 判断文档内容所属领域范围 , 以实现对待检文档 的优化分类 。
在用户信息需求端 , 对用户查询式进行规范 , 用 户输入某一关键字 , 利用本体 , 系统返还给用户该关 键词所属的不同领域 , 以及在不同领域的定义 , 帮助 用户理解 、定位自身真实的信息需求 , 使用户相关性 得到提高 。 如果用户在系统中输入“毛泽东” , 系统就 会在本体库中进行匹配 , 返回一系列子选项 :毛泽东 的著作 , 毛泽东介绍 , 有关毛泽东论著 …… , 这样用户 就可以根据这些选项 , 来获取真实所需的信息 。
正是该项研究的复杂性和前瞻性 , 决定了其研 究具有较大价值 , 因此 , 本文试图对这一问题作一个 探讨性研究 。作为研究基础 , 本文首先论证了相关 性理论和本体理论 ;针对本体信息检索在不同表现 形式下对相关性影响进行具体分析和对比研究 ;最 后为结语与展望 。
67
2007 年第 6 期 图书 · 情报 · 知识
在众多研究中 , 意大利学者米扎罗(Mizzaro)提 出了一个四维的相关性概念模型理论框架[ 8-9] , 该模 型吸收 、总结了很多有关相关性研究的成果 , 考虑了 系统角度和用户角度相关性因素 , 是近年来相关性 理论研究中比较重要的成果之一 。 具体而言 , 该模 型四个维度包括 :
(1)信息源 :包括文档 、文档的代表(检索逻辑视 图)和信息 ;
相关性是信息检索中一个关键性概念 , 它是衡 量一个信息检索系统效率的重要指标 , 在当今互联 网时代 , 用户虽然能够非常方便快捷地获取大量信 息 , 但在所获取的海量信息中 , 并非所有内容都与用 户需求相关 , 那些不相关信息大大影响用户获取所 需信息的效率 。 因此 , 探讨新的检索模式 , 进一步提 高检索相关性 , 满足用户快速 、准确获取所需信息的 要求 , 是信息检索研究发展的必然趋势 。 而本体作 为语义网中的关键技术 , 是近年来学界研究的热点 , 它有着良好的概念层次结构和对逻辑推理的支持 , 通过对领域知识的建模 , 表达出机器可理解的语义 知识 , 实现基于内容的检索 。
[ 作者简介] 郝斌 , 男 , 1984 年生 , 硕士生 。
域进行系统的综合研究 , 更多的只是在各类相关研 究文献中有所涉及 。成颖 、孙建军 、苏新宁等学者对 国外相关性理论发展作了一个全面的综述性研究 , 对国外相关性研究发展作了一个全面的论证[ 1-2] , 是 本文研究的理论基础之一 。Ozcan 建立了一个基于 概念的信息检索实验模型[ 3] , 其中详细分析了基于 本体的概念检索条件下 , 检索效率的提高 , 并对实现 系统的数据进行了分析 , 验证了在基于本体的概念 检索条件下查全率和查准率都有较大 改进 。 Stein L .Vallet D .等介绍了国外本体信息检索最新的一 些模型[ 4-5] , 对本体信息检索条件下检索表现进行了 定量分析 。 Nenad S to janvoic 提出了一个基于本体 信息检索模型下的相关度评价的算法[ 6] , 包括语义 相关 、内容相关和解释相关 。 这也是国外有关本体 信息检索情境下相关性定量评价的最新进展 。
按照关注对象的不同 , 传统相关性理论研究把 相关性研究分为两个方面 :即系统角度相关性(主题 相关或算法相关)和用户角度相关性 。 其中 , 系统角 度相关性定位于一种单方向的信息处理过程 , 系统 根据用户的提问输出检索结果 , 用户是信息接受者 , 该理论是对复杂的相关性概念 采取的一种简 化处 理 , 从信息组织与检索的角度来研究相关性 。 随着 研究的发展 , 人们发现 , 用户在整个信息检索过程中 处于非常重要的地位 , 检索的目的最终是满足用户 的各种信息需求 , 所以 , 不考虑用户 , 单纯从技术角 度讨论相关性 , 就限制了相关性理论的进一步发展 。 而且 , 相对于早期信息检索系统使用人员的专业性 , 随着技术的发展 , 越来越多不具备专业信息检索知 识的普通用户加入到用户群体中来 , 这就更需要从 用户角度来对相关性进行判断 , 因此学界提出了用 户角度相关性 , 从用户角度考虑 , 由用户来判断检出 文档是否相关 , 在多大程度上相关 。但同时这又带 来了新的问题 , 因为用户相关性判断因素是极其复 杂而难以捉摸的 , 考虑用户主观因素使得相关性的 定义与衡量变得更加复杂 。
本体(Ont ology)最初是一个哲学的概念 , 表示 事物的一种存在 , 是对客观世界真实存在的一种客 观描述[ 10] 。 后来随 着计算 机 、人工智 能领域 的发 展 , Nehces 、G ruber 、Bo rst 、S tuder 相继给出了本体 的一些定义 , 其中 1998 年 St uder 给出的定义较为 完善[ 11] 。 它体现了 O nto logy 的 4 个 含义 :即概念 模型(Concept ualizat ion)、明 确(Explicit)、形 式化 (F orm al)和共 享(Share)。 这四 个模块 中 , 核 心是 “概念模型” , 它是指特定领域中所有可能状态所包 含所有元素涉及概念及概念间的关系 。 或者说 , 通 过对领域概念化 , 从中抽象出概念 , 明确概念间的各 种关系 , 从而建立包含语义联系的领域知识库 。 同 时 , 完全意义上的本体还能够利用公理 、规则对概念 及概念间关系进行知识推理 。 因此 , 通过概念化建 模 , 利用本体能够建立反映客观世界领域知识及知 识间联系的概念模型 。
都是基于传统叙词表 , 或者语言本体如 WordN e t[ 15] 的简单本体 , 其主要功能是分类 , 检索的对象都是文 本型 。该类 型研 究的 典型 代表 有武成 岗 、郭祥 文 等[ 16-17] , 以武成岗的研究为例 , 该研究中采用的本体 是一个基于 WordNet , 经过改进的 简单本体 , 本体 中只提供有关概念(术语)以及概念所属的领 域范 围 , 概念间的关系也只有最简单等同关系和上下位 关系 。其作用是分析文档所属领域和对用户查询式 进行最简单的规范 , 其具体过程如下 :
(2)用户信息需求 :包括真实的信息需求 、感知 到的信息需求 、检索请求和查询提问 ;
(3)时间 :考虑需求的时效性 ; (4)组件 :包括主题 、任务 、情境和语境 。
68
本文将参照该模型来对本体信息检索情境下 , 对相关性问题进行定性分析 。由于时间维度是完全 与用户主观体验相关的因素 , 目前很难以对其进行 评价研究 , 因此 , 本文主要针对其他三个维度进行分 析讨论 。 1 .2 本体的基本概念
总第 120 期 2007 年 11 月
· 情报 、信息与共享 ·
图书 ·情报 · 知识
No .120 Nov ., 2007
本体信息检索情境下相关性理论研究
郝 斌
(武汉大学信息管理学院 , 武汉 , 430072)
[ 摘要] 相关性理论是情报学基础理论之一 , 是衡量信息检索效能的关键指标 , 而本体信息检索是 信息检索领域研究的前沿课题 、发展方向 。本文以米扎罗四维相关性模型为基础 , 对不同类型本体 信息检索模型式下的相关性表现进行了对比研究 , 发现在本体信息检索条件下 , 相关性得到较大提 高。 [ 关键词] 相关性 本体信息检索 本体 [ 中图分类号] G201 [ 文献标识码] A [ 文章编号] 1003-2797(2007)06-0067-05
1 理论基础 1 源自文库1 相关性基本理论
在信息检索中 , “相关性” 主要是指检索系统针 对用户的信息需求从文档集合中检出的文档与用户 需求之间的一种匹配关系 。这是对“相关性”概念的 一种粗泛的描述[ 7] 。 而具体描述相关性的定义比较 多 , 但大多是侧重描述相关性内涵的不同侧面 , 因此 目前还没有哪一个定义能够全面描述相关性各方面 内涵 , 并得到广泛接受认可 。 所以 , 对于“相关性”理 论研究 , 在无法给出精确定义的情况下 , 学界更多的 是采取一种理论体系或者模型来进行概括 , 以求尽 可能准确地从某一方面描述相关性内涵 。
[ Abstract] A s one of the basic t heory of Inf ormat ion Science , relevance i s t he key facto r t o evaluate the ef fectiveness o f inf orm ation ret rieval .On the o ther hand , si nce t he Onto logy-Driven IR i s the hot f ield o f IR research w hich show s a promising f uture , it i s necessary to research these tw o poi nt s to get her and the paper discuss t he relevance pe rf o rm ance i n diff erent Ontol ogy-Driven IR m odel and co mpa re them w i th the Mizzaro relevance m odel . [ Key words] Relevance Ont ology info rmatio n ret riv al Onto logy
相关文档
最新文档