基于本体的文本信息检索研究_杨建林
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
C
信息系统
利用得到的本体对查询表达式进行优化 , 以提高信息检 索 的效果 。 该系统中使用的 Tex tToO nto是一个采用自然语 言 处理技术和文本挖掘技术的工具软件 , 它支持本体的半 自 动化构建 。 面向不同的本 体学习任 务 , T extT oOn to 提供 了 一个本体工程师 (O ntology Eng inee r ), 该本体 工程师拥 有 各种算法以适应不同的本体学习任务 。 4) SHOE (S i m ple HTM L O nto logy Ex tensions)[ 8] 。 它 是一种基于 HT M L的知识表示语言 , 由美国马里兰大 学于 1996 年开发成功 。 SHO E 对 HT M L进行扩 展 , 使其能够 用 HT M L格式对知识进 行表示 。 SHOE 试 图提供 一种 对信 息 进行 标 注 的 方 法 来 表 示 知 识 。 SHOE 提 供 两 类 标 签 (Tag), 一类 用 于构 建 各 种知 识 本体 , 另 一类 用 于 标 注 W eb 文件 。 SHOE 利用这些特殊的标签将 专用的 语义数 据 加到 W eb 资源当中 , 以对知识进行表示 。 SHO E 允许表 示 概念 、 概念分类以及推理规则 , 其推理引擎可以通过它 们 推理出新知识 。 5) O ntoSeek[ 9] 。 O ntoSeek 是 基 于内 容 从在 线黄 页 和 产品目录中进行检索的系统 , 把本体用作有语义信息的 领 域词汇表 , 将本体驱动的内容匹配机制与一个表示形式 化 系统相结合 , 试图将本体论和大词典库相互集成 , 以便 提 供一个可以用 领域 内任 意词 汇进 行交 互式 语义 查询 的 系 统。 国内也有一些学者正在研究如何将本体应用于信 息检 索领域 , 但是 , 基 于本 体的 信息 检 索还 处 于实 验原 型 阶 段 , 还没有真正进入商业化实施阶段 。 国内主要的相关 研 究包括 : 1) 万捷等人提出基于内 容的信 息检 索系统 , 利用 本 体对检索需求进行语义扩充 , 并用文档分析器对检索文 档 进行过滤 。 2) 徐振宁 等人 则把 本体 作为 信息 检索 系统 的核 心 , 通过构造形式化的领域本体 , 提出了一种将知识表示和 知 识处理引入互联网信息处理的方法 , 为互联网上半结构 化 数据和关系数据库提供了统一的语义模型 。 3) 武成岗等人也提出 了基于 本体和 多智能 主体的 信 息检索服务器 , 该系统可以利用本体协助智能主体对网 络 上的各类信 息进 行领 域分 类 , 并规 范用 户 信息 检索 的 模 式。 4) 郭祥文等人讨论了 如何采 用本体 技术对 搜索引 擎 进行改进 [ 10] 。 改 进的搜 索引 擎采用 全文 检索技 术 , 保 留 了从字 (或者词 ) 到文 档的 倒排 索引 , 通 过 增加 由关 键 词到领域的索引 , 消除了关键词在语义上的歧义 , 支持 领
1 引言
基于关键词匹配 的传统文本信息检索技术对语义匹配 的支持能力较差 , 其性能取决 于用户对方法的理解 , 具有 很大的局限性 。 尽管基于关键词匹配的 检索技术已经经过 了多次改进 , 但是由于没有添 加语义处理方面的功能 , 致 使检索性能没有得到根本的改 善 , 那些 没有被文字直接表 述出来但隐含在文本 内容中的一些重要的信息也无法被检 索。 近几年 , 本体理论的发展和逐步成 熟为信息检索技术 的发展带来了新的动力 , 同时也为提高 检索系统的查准率 和查全率提供了更好的保证 。 作为一种 有效表现概念层次 结构和语义的理论和方法 , 本体已经被 广泛应用于计算机 科学和信息管理领域 , 并且被成功应用 于构建新的智能检 索系统 。 基于本体的智能检索系统 是基于知识的 、 语义上的匹 配 , 在查全率和查准率上有更好的保证 。 具体表 现为 :利 用本体 , 在用户提问检索式构 造过程中增加语义指导 , 消 除自然语言理解中的 歧义 , 明 确概念含义 , 使得构造出的 提问检索式能够更加准确地反 映用户的真实信息需求 ;使 得用户能够更加准 确 、 方便 地实现 扩展检索 和缩 小检索 ; 加强检索系 统的 推理 功能 , 在完 成对 信息 源搜 索 的基 础 上 , 根据相关概念以及相关背 景知识进行推理 , 挖掘出文 本中的隐 含信 息 , 从 而实 现基 于概 念的 智 能检 索 此 , 基于本体的信息检索成为 一个新的发展方向 。 现有的大部分关于基于本 体的信息检索研究 , 讨论的
的新的含义也是引申来的 , 是一个新概念 , 所以出现了 翻 译成不同名称的现象 [ 2 ] 。 在具体的应用环境中如何规范化地描述本体 到目 前 为止 , 还没有统一的标准 。 目前有两种本体表示方法应 用 相对广泛 , 第一种是传统的四元素表示方法 , 第二种是 较 新的六元组 表示 法 。 前 者源 于 G rube r博士 的观 点 , 后 者 则是 2002 年由新加坡南洋理工大学的 M yoM yo N aing 博士 提出 。 前者在世界范围内得到了比较高的认同 , 但是形 式
。因
— 598 —
第 29卷 2006 年第 5 期
ITA
过于灵活 , 不易掌 握 。 后者因 为定 义规 范 , 可操 作性强 , 受到了国内广大研究 者的欢迎 [ 3] 。 四元素表示方法的基本思 想是 :一 个本体主要由概念 (Concepts)、 关系 (Re lations)、 实 例 ( Instance s) 和公 理 (Ax io m s) 这 4 个元素 组成 。 概念 表示某 个领域 中一类 实 体或事物的集合 , 关系描述概念之间或 某个概念的属性之 间的关联 , 实例是概念表示的 具体的事物 , 公理用来限制 概念和实例的取值范 围 , 包括 许多具体的规则和约束 。 六 元组本体 表 示 方法 将 本 体定 义 为 { C,
介绍了一个基于本体的信息检 索系统 , 该系统以文本的元 数据和摘要为信息源 , 采用 T ex tT o O n to自动构建 本体 , 再
情报理论与实践
[ 6]wenku.baidu.com
。 3) T ex tToO nto。 “ The Se m antic W eb in O ne D ay” 中
域分类 。 在检 索过 程中 , 本 体用 于 对查 询 表达 式进 行 优 化 , 如果查询表 达式 中的 某个 词是 某个 本 体中 的一 个 术 语 , 那么 , 系统返回这个 术语 在该本 体中 的信息 , 例如 ,
3 本体在信息检索领域的应用现状
本体是一种技术 , 它可以在许多涉 及知识表示与共享 的环境下应用 。 由于本体具有 良好的概念层次结构 , 并且 支持逻辑推理 , 这使得本体在 信息检索 , 特别是知识检索 中得到了广泛的应用 。 基于本体的信息检索的基 本思想是 :在领域专家的帮 助下 , 建立相关领域的本体 ;收集信息源中的数 据 , 并参 照已建立的本体把收 集来的数据按规定格式存储在元数据 库中 ;对从用户检索界面获取 的查询请求 , 查询转换器按 照本体把查询请求转换成规定 的格式 , 在本体的帮助下从 元数据库中匹配出符合条件的 数据集合 ;检索的结果经过 处理后返回给用户
[ 1]
2 本体概念
本体是一个源于哲学的概念 , 原意指关于存在及其 本 质和规律的学说 , 后来被计算机科学领域引入 , 特指对 共 享概念模型所作的明确化 、 形式化 、 规范化说明 , 它强 调 领域中的本质概念 , 也强调这些本质概念之间的关联 。 某 个领域的本体能够将该领域中的各种概念及概念之间 的关 系显性地 、 形式化地表达出来 , 从而将概念中包含的语 义 表达出来 。 在计算机 科 学领 域 , 术 语 “ 本 体 ” 是 英 文 “ O nto logy” 的中文译法 。 On to logy 在人工 智能或 信息系 统中的 中 文翻译 , 国内有不同 的名称 , 如 “ 概念集 ”、 “应 用知 识 体系 ”, “ 概念分类体系 ”, “ 实体论 ”, 模型 ”, “本体 论 ”、 “本 体 “ 本体 ” 、 “ 本体簇 ” 等 。 由 于 O nto logy 在英语 中
[ 4]
。
目前 , 国外关于基 于本体的 信息 检索的 研究 比较多 , 相关的研究项目包括 : 1) (O nto) A gent ( 基于 网络代 理搜索 本体的本 体 )。
2
它的研究目的是为了帮助用户 检索到所需的 、 互联网上已 有的本体 , 其中采用了一类叫 做参照本体的本体 。 参照本 体是以互联网上已有的本体为 对象建立起来的本体 , 它保 存有各类本体的元数 据
信息系统
ITA
●杨建林 ( 南京大学信息管理系 江苏
210093)
基于本体的文本信息检索研究
摘 要 :本文对如何构建基 于本体的文本信息检索系统进行了探讨 , 并认为 , 利用反映概念之间关系 的领域本体指 导主题标引 , 利用反映实体之间关系的领域本体指导实体关系标引 , 并以本体的形式表示文 档替代物和查 询表达式 , 可以进一步提高文本信息检索系统的性能 。 关键词 :本体 ;信息检索 ;文本检索 ;标引 Ab stract : The paper discusses how to construct an on to logybased tex t infor m a tion retrieva l sy stem, and th inks tha t if the sub jec t indexing is based on the dom ain onto logies de scribing the rela tions be t w een concep ts, the entity re lation index ing is based on the dom ain onto log ies de scribing the rela tions between en tities, and the docum en t sur roga te s and que ry expressions a re described in the fo r m at of onto logy, the perfor m ance of the text infor m a tion retrieval sy ste m w ill be improved. K eyword s: on to logy; info r m a tion re trieval; tex t re trieva l ; indexing 检索对象都是 W eb 资源 , 很少涉及 无结构的文 本 。 但是 , 现有的信息检索系统 , 除搜索引擎外 , 大部分系统的信 息 源都是无结构的文本 。 因此 , 研究基于本体的文本信息 检 索依然具有重要的现实意义 。
[ 7]
A ,
C
R, A , H,
R
X} , 其中 C 表示概念的 集合 ; A 表示多 个属性 集合组 成 的集合 , 其中每个属性集合对 应于一个概念 ; R 是一 个关 系集合 ; AR 是由多 个属 性集 合组 成的 集 合 , 其中 每个 属 性集合对应于 R 中的 一个 关系 ; H 表示 概念 之间 的层 次 结构关系 ; X 表示公 理集 合 , X 中的元 素实 际上是 概念 、 关系属性之间的一些 约束条件 。
[ 5]
。
2) O n tobroker (基 于本 体的 分 布式 半结 构 化信 息 获 取 )。 它是用来处理 HT M L、 XM L 和 RDF 格式的信息 源和 信息源语义描述的系 统 , 提供 信息检索 、 查询和维护支持 服务 , 其核心是用形式化本体 描述背景知识 , 并明确 W eb 文档的语义 , 以便 综合 利用 本体 论的 表达 能力 和 推理 机 制
信息系统
利用得到的本体对查询表达式进行优化 , 以提高信息检 索 的效果 。 该系统中使用的 Tex tToO nto是一个采用自然语 言 处理技术和文本挖掘技术的工具软件 , 它支持本体的半 自 动化构建 。 面向不同的本 体学习任 务 , T extT oOn to 提供 了 一个本体工程师 (O ntology Eng inee r ), 该本体 工程师拥 有 各种算法以适应不同的本体学习任务 。 4) SHOE (S i m ple HTM L O nto logy Ex tensions)[ 8] 。 它 是一种基于 HT M L的知识表示语言 , 由美国马里兰大 学于 1996 年开发成功 。 SHO E 对 HT M L进行扩 展 , 使其能够 用 HT M L格式对知识进 行表示 。 SHOE 试 图提供 一种 对信 息 进行 标 注 的 方 法 来 表 示 知 识 。 SHOE 提 供 两 类 标 签 (Tag), 一类 用 于构 建 各 种知 识 本体 , 另 一类 用 于 标 注 W eb 文件 。 SHOE 利用这些特殊的标签将 专用的 语义数 据 加到 W eb 资源当中 , 以对知识进行表示 。 SHO E 允许表 示 概念 、 概念分类以及推理规则 , 其推理引擎可以通过它 们 推理出新知识 。 5) O ntoSeek[ 9] 。 O ntoSeek 是 基 于内 容 从在 线黄 页 和 产品目录中进行检索的系统 , 把本体用作有语义信息的 领 域词汇表 , 将本体驱动的内容匹配机制与一个表示形式 化 系统相结合 , 试图将本体论和大词典库相互集成 , 以便 提 供一个可以用 领域 内任 意词 汇进 行交 互式 语义 查询 的 系 统。 国内也有一些学者正在研究如何将本体应用于信 息检 索领域 , 但是 , 基 于本 体的 信息 检 索还 处 于实 验原 型 阶 段 , 还没有真正进入商业化实施阶段 。 国内主要的相关 研 究包括 : 1) 万捷等人提出基于内 容的信 息检 索系统 , 利用 本 体对检索需求进行语义扩充 , 并用文档分析器对检索文 档 进行过滤 。 2) 徐振宁 等人 则把 本体 作为 信息 检索 系统 的核 心 , 通过构造形式化的领域本体 , 提出了一种将知识表示和 知 识处理引入互联网信息处理的方法 , 为互联网上半结构 化 数据和关系数据库提供了统一的语义模型 。 3) 武成岗等人也提出 了基于 本体和 多智能 主体的 信 息检索服务器 , 该系统可以利用本体协助智能主体对网 络 上的各类信 息进 行领 域分 类 , 并规 范用 户 信息 检索 的 模 式。 4) 郭祥文等人讨论了 如何采 用本体 技术对 搜索引 擎 进行改进 [ 10] 。 改 进的搜 索引 擎采用 全文 检索技 术 , 保 留 了从字 (或者词 ) 到文 档的 倒排 索引 , 通 过 增加 由关 键 词到领域的索引 , 消除了关键词在语义上的歧义 , 支持 领
1 引言
基于关键词匹配 的传统文本信息检索技术对语义匹配 的支持能力较差 , 其性能取决 于用户对方法的理解 , 具有 很大的局限性 。 尽管基于关键词匹配的 检索技术已经经过 了多次改进 , 但是由于没有添 加语义处理方面的功能 , 致 使检索性能没有得到根本的改 善 , 那些 没有被文字直接表 述出来但隐含在文本 内容中的一些重要的信息也无法被检 索。 近几年 , 本体理论的发展和逐步成 熟为信息检索技术 的发展带来了新的动力 , 同时也为提高 检索系统的查准率 和查全率提供了更好的保证 。 作为一种 有效表现概念层次 结构和语义的理论和方法 , 本体已经被 广泛应用于计算机 科学和信息管理领域 , 并且被成功应用 于构建新的智能检 索系统 。 基于本体的智能检索系统 是基于知识的 、 语义上的匹 配 , 在查全率和查准率上有更好的保证 。 具体表 现为 :利 用本体 , 在用户提问检索式构 造过程中增加语义指导 , 消 除自然语言理解中的 歧义 , 明 确概念含义 , 使得构造出的 提问检索式能够更加准确地反 映用户的真实信息需求 ;使 得用户能够更加准 确 、 方便 地实现 扩展检索 和缩 小检索 ; 加强检索系 统的 推理 功能 , 在完 成对 信息 源搜 索 的基 础 上 , 根据相关概念以及相关背 景知识进行推理 , 挖掘出文 本中的隐 含信 息 , 从 而实 现基 于概 念的 智 能检 索 此 , 基于本体的信息检索成为 一个新的发展方向 。 现有的大部分关于基于本 体的信息检索研究 , 讨论的
的新的含义也是引申来的 , 是一个新概念 , 所以出现了 翻 译成不同名称的现象 [ 2 ] 。 在具体的应用环境中如何规范化地描述本体 到目 前 为止 , 还没有统一的标准 。 目前有两种本体表示方法应 用 相对广泛 , 第一种是传统的四元素表示方法 , 第二种是 较 新的六元组 表示 法 。 前 者源 于 G rube r博士 的观 点 , 后 者 则是 2002 年由新加坡南洋理工大学的 M yoM yo N aing 博士 提出 。 前者在世界范围内得到了比较高的认同 , 但是形 式
。因
— 598 —
第 29卷 2006 年第 5 期
ITA
过于灵活 , 不易掌 握 。 后者因 为定 义规 范 , 可操 作性强 , 受到了国内广大研究 者的欢迎 [ 3] 。 四元素表示方法的基本思 想是 :一 个本体主要由概念 (Concepts)、 关系 (Re lations)、 实 例 ( Instance s) 和公 理 (Ax io m s) 这 4 个元素 组成 。 概念 表示某 个领域 中一类 实 体或事物的集合 , 关系描述概念之间或 某个概念的属性之 间的关联 , 实例是概念表示的 具体的事物 , 公理用来限制 概念和实例的取值范 围 , 包括 许多具体的规则和约束 。 六 元组本体 表 示 方法 将 本 体定 义 为 { C,
介绍了一个基于本体的信息检 索系统 , 该系统以文本的元 数据和摘要为信息源 , 采用 T ex tT o O n to自动构建 本体 , 再
情报理论与实践
[ 6]wenku.baidu.com
。 3) T ex tToO nto。 “ The Se m antic W eb in O ne D ay” 中
域分类 。 在检 索过 程中 , 本 体用 于 对查 询 表达 式进 行 优 化 , 如果查询表 达式 中的 某个 词是 某个 本 体中 的一 个 术 语 , 那么 , 系统返回这个 术语 在该本 体中 的信息 , 例如 ,
3 本体在信息检索领域的应用现状
本体是一种技术 , 它可以在许多涉 及知识表示与共享 的环境下应用 。 由于本体具有 良好的概念层次结构 , 并且 支持逻辑推理 , 这使得本体在 信息检索 , 特别是知识检索 中得到了广泛的应用 。 基于本体的信息检索的基 本思想是 :在领域专家的帮 助下 , 建立相关领域的本体 ;收集信息源中的数 据 , 并参 照已建立的本体把收 集来的数据按规定格式存储在元数据 库中 ;对从用户检索界面获取 的查询请求 , 查询转换器按 照本体把查询请求转换成规定 的格式 , 在本体的帮助下从 元数据库中匹配出符合条件的 数据集合 ;检索的结果经过 处理后返回给用户
[ 1]
2 本体概念
本体是一个源于哲学的概念 , 原意指关于存在及其 本 质和规律的学说 , 后来被计算机科学领域引入 , 特指对 共 享概念模型所作的明确化 、 形式化 、 规范化说明 , 它强 调 领域中的本质概念 , 也强调这些本质概念之间的关联 。 某 个领域的本体能够将该领域中的各种概念及概念之间 的关 系显性地 、 形式化地表达出来 , 从而将概念中包含的语 义 表达出来 。 在计算机 科 学领 域 , 术 语 “ 本 体 ” 是 英 文 “ O nto logy” 的中文译法 。 On to logy 在人工 智能或 信息系 统中的 中 文翻译 , 国内有不同 的名称 , 如 “ 概念集 ”、 “应 用知 识 体系 ”, “ 概念分类体系 ”, “ 实体论 ”, 模型 ”, “本体 论 ”、 “本 体 “ 本体 ” 、 “ 本体簇 ” 等 。 由 于 O nto logy 在英语 中
[ 4]
。
目前 , 国外关于基 于本体的 信息 检索的 研究 比较多 , 相关的研究项目包括 : 1) (O nto) A gent ( 基于 网络代 理搜索 本体的本 体 )。
2
它的研究目的是为了帮助用户 检索到所需的 、 互联网上已 有的本体 , 其中采用了一类叫 做参照本体的本体 。 参照本 体是以互联网上已有的本体为 对象建立起来的本体 , 它保 存有各类本体的元数 据
信息系统
ITA
●杨建林 ( 南京大学信息管理系 江苏
210093)
基于本体的文本信息检索研究
摘 要 :本文对如何构建基 于本体的文本信息检索系统进行了探讨 , 并认为 , 利用反映概念之间关系 的领域本体指 导主题标引 , 利用反映实体之间关系的领域本体指导实体关系标引 , 并以本体的形式表示文 档替代物和查 询表达式 , 可以进一步提高文本信息检索系统的性能 。 关键词 :本体 ;信息检索 ;文本检索 ;标引 Ab stract : The paper discusses how to construct an on to logybased tex t infor m a tion retrieva l sy stem, and th inks tha t if the sub jec t indexing is based on the dom ain onto logies de scribing the rela tions be t w een concep ts, the entity re lation index ing is based on the dom ain onto log ies de scribing the rela tions between en tities, and the docum en t sur roga te s and que ry expressions a re described in the fo r m at of onto logy, the perfor m ance of the text infor m a tion retrieval sy ste m w ill be improved. K eyword s: on to logy; info r m a tion re trieval; tex t re trieva l ; indexing 检索对象都是 W eb 资源 , 很少涉及 无结构的文 本 。 但是 , 现有的信息检索系统 , 除搜索引擎外 , 大部分系统的信 息 源都是无结构的文本 。 因此 , 研究基于本体的文本信息 检 索依然具有重要的现实意义 。
[ 7]
A ,
C
R, A , H,
R
X} , 其中 C 表示概念的 集合 ; A 表示多 个属性 集合组 成 的集合 , 其中每个属性集合对 应于一个概念 ; R 是一 个关 系集合 ; AR 是由多 个属 性集 合组 成的 集 合 , 其中 每个 属 性集合对应于 R 中的 一个 关系 ; H 表示 概念 之间 的层 次 结构关系 ; X 表示公 理集 合 , X 中的元 素实 际上是 概念 、 关系属性之间的一些 约束条件 。
[ 5]
。
2) O n tobroker (基 于本 体的 分 布式 半结 构 化信 息 获 取 )。 它是用来处理 HT M L、 XM L 和 RDF 格式的信息 源和 信息源语义描述的系 统 , 提供 信息检索 、 查询和维护支持 服务 , 其核心是用形式化本体 描述背景知识 , 并明确 W eb 文档的语义 , 以便 综合 利用 本体 论的 表达 能力 和 推理 机 制