浅析信息检索模型的现状及趋势

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计 算机 光盘 软件 与应用
信息技术应用研 究
Cm u e D S f w r n p lc to s o p t r C o ta e a dA p i a i n 21 0 2年第 1 期
浅析信息检索模型的现状及趋势
田 欢
( 兰州职 业技 术学院 ,兰 州 70 7 3 00)
当今 世界 已经 进入 了信 息 化社 会 ,大量 的信息 渗透 到工 业 生 产 ,社 会 生活 的方 方面 面 。在 这爆 炸性 信 息增 长 中 ,数 字信 息 占
据 了最 主要 的方面 ,而 传统 信 息载 体 的贡献 比例越 来低 。有 关研 究 报 告 显示 ,20 年 全 球每 年 制 造 、复 制 出 的数 字信 息量 共 计 06
型 和数 字 型 。

按 内容 划 分 :一次 信息 源 、二 次信 息源 和三 次信 息源 。

次信 息 源 :也 叫原始 文 献或 第一 手 资料 。 以作者 本人 的科
学研 究 或研 究 成果 为依 据而 创作 的 原始文 献 , 均属 于一 次信 息源 。 如 :期 刊论 文 、科 技报 告 、专利 文献 、学位 论文 、会议 文 献等 。 二 次信 息 源 :将一 次信 息 源进 行加 工 、整 理 、提炼 、浓 缩 、
Th t t sa d Tr n so f r a i n Re re a o e eS a u n e d f n o m t t iv l I o M dl
Ti n Hu n a a
(a z o o - e hC l g ,a z o 7 0 7 , hn ) L n h u c T c ol eL n h u 3 0 0C i V e a
摘 要 :本 文概 述 了信 息 源的 分类 ,对信 息检 索的概 念做 了简单 的描 述 。对 于经 典的 布 尔检 索、 向量 空间检 索、概 率 检 索做 了比较详 细 的分析 ,并且 对信 息检 索模 型 的发展 方 向做 了一 定 的介 绍 。 关键 词 :信 息 源 ;信 息检 索模 型 ;可视化 ;智能 化 ;一体 化 中图分类号:T 3 1 文献标识码 :A P 9 文章编号:10- 59( 02 1 02- 2 0 7 9 9 21 )0— 02 0
书。
图 1信 息检 索模 型 的分 类体 系 ( )向量 空 间模型 二
三 、信 息检 索 模型 的概 念 及经 典模型 信 息检 索模 型 ( R ,If ra in R t ivlM d1 IM n om to e r ea o e )就 是 运 用 数 学 的语 言和 工具 ,对 信息 检 索 中的信 息及 其 处理 过程 加 以
的信 息量 ,人 们如 何快 速准 确 的找 到 自己感 兴 趣或 者需 求 的信 息
布 尔 运 算 的法 则 。布 尔 模 型 的主 要 特 点 是 它 实现 简 单 ,易 于 理 解 , 能 处 理 结构 化 的提 问, 容 易表 示 统 一 关 系 和词 组 ,检 索速 度 快 。但 是它 也 具 有 明 显 的 缺 点 ,传 统 的 布 尔逻 辑 运 算 比较严 格 , 刚性 较 强 ,查询 的结 果 不容 易控 制 ,无 法 提 供 定量 的 比较 ,
向量 空 间模 型 (e trS a eM d 1 由 S lo V c o pc o e ) atn等 人于 2 O 世纪 6 0年代 末提 出。V M 念 简单 ,把对 文 本 内容 的处理 简化 为 S概 向量 空 间 中的 向量运 算 ,并且 它 以空 间上 的相 似度 表 达语 义 的相 似度 ,直 观 易懂 。 当文档 被表 示 为文 档空 间 的 向量 ,就 可 以通 过 计算 向量 之 间 的相似 性来 度量 文 档间 的相似 性 。文 本处 理 中最 常 用 的相似 性度 量 方式 是余 弦距 离 。VM 的优 点:具 有 广泛 的适 用 S 性 ,检索 基于 聚 类文 档 ,结果 可 以采 用排 序输 出 方式 。但其 缺 点


前言
( )布 尔模 型 一 布尔 模 型 出现 于 2 O实 际 5 O年 代 。 简单 的 说它 为 基于 集 合 论 的 布尔 逻 辑运 算 ,是 一 种基 于特 征项 的严 格 匹配 模 型 。首先 , 它 建 立一 个 二值 变 量 的集 合 ,如 果 查询 文本 中有 相应 的特 征项 , 则 变 量可 取 “ r e ,反之 取 “ a s ” Tu ” F l e 。查 询 由特 征 项和 逻 辑运 算 符 ( AD 、“ R 、“ O ” “ N ” O ” N T )组 成 。文 本 查 询 的 匹配 规 则 遵循
A b tac : i ril r v d sa o e ve o e ca sfc t o m ain s u c sa smpl e c ito ft o c p s r tTh satc ep o i e n v r iw ft ls i ai ofi r to o r e , i h i on nf ed s rp in o c n e tof he if r ain ere 1Fo l si oe ere a, c o pa er tiv lte p o a l y t e iv r ea ld a l ssa d t e n o m to r tiva. rca scBo la rtiv l n ve t rs c ere a , r b bit o rt e e amo e d tie nay i,n h i r h dr cin fde l p e f r ain ere a o lito ucin. ie to o veo m nt i o m t r tiv l de n d to of n o m r K e wor sI or ai n S u c sI or ai nr tiva o e ; s al ain; tli e ; tg ai n y d :nf m to o r e ;nf m to ere l d lViu i t I elg ntI e r to m z o n n
也很没明显:相似度计算量较大,不能处理布尔表达等结构化的 查询 。 ( 转第 4 ) 下 6页

22 一
计 算机 光盘 软 件 与应用
工 程 技 术
C m u e D S f w r n p lc to s o p t r C o ta e a dA p i a i n
无 法 满 足特 殊 的查 询 要 求 。 目前 大 多 数 文 献 数据 库 或 检 索 工 具 都 提供 布 尔 运算 的检 索 ,如 中 国期 刊全 文 数据 库 ,维普 ,b iu a d
或 go l 。 o g e

是 需要 解 决 的一个 关键 问题 。我 国电厂 检修 的分 级及 检修 现状 。 二 、信 息 源 的分类 信 息源 的分类 形式 主要 有 以下几 种 : 按 载体 类 型划 分 :书写 型 、 印刷 型 、缩 微 型、机 读 型 、声像
翻 译 和抽 象 ,表 达 为某种 数 学公 式 。它 决定 于三 个方 面 :1 处理 . 查 询 公式 和文 档 的视 角 ;2 处理 查询 公 式与文 档 关系 的理 论 ;3 . . 查询 公 式与 文档 之 间的算 法 。 图 1 示 了 IM的分 类体 系 。 表 R
图 1所示的经典模型为 目前最常用的模型,主要包括布尔模 型 、向量 模 型和概 率模 型 。
标 引 、编序 后 所形 成 的各种 目录 、题录 、索 引 、文 摘等 信息 源 。
如 :信 息检 索 工具 。 三 次信 息源 :对 某 一专 题 的一 次信 息源 和 二次信 息源 的有关 信 息进 行检 索 、筛 选 、分析 、加工 ,并结 合编 者 的实地 调查 研 究 , 进 行综 合分 析 后重 新编 制 的成 果 。如 :书评 、专题 述平 、学 科年 度 总结 、动 态 综述 、字 典 、百科 全 书 、年鉴 、 手册 、指 南等 工 具
11 亿 G , 60 B 中国数 字信 息量 为 17 1 G , 2 . 亿 B 占全 球信 息量 的 79 ; .% 而受 “ 富媒 体 ” 、用户 创建 内容和 l 亿 网 民三大 因素 推动 ,到 6 2 1 ,全球 数字 信 息量 预计 为 9 8 0 0年 80亿 G ,而 中 国的数字 信 息 B 量 预计 为 9 0 5 多 G , 占全球 信息 量 的 9 1 。 0. 亿 B将 . % 面对 几乎 无 限
wk.baidu.com
21 0 2年第 1 期
的数 据 库相 比又 存在 一 些新 的 问题 。 1确定 合法 身份 的程序 更加 . 复杂 。 由于 整个 分布 式 数据 库系 统 具有 多个 用户 和用 户 组 ,且这 些用 户 以及 用户 组都 是 分散 于整 个分 布 式系 统 当 中的 ,处于 各个 站 点之 中 。 给系 统确 认 访 问用户 的合 法 身份 带来 了一 定 的难 度 , 这 其确 认 方法 更加 复杂 。2信 息流 动风 险 增加 。分 布式 数据 库 系统 . 是基 于 整个 系统 的数 据 共享 而建 立起 来 的 ,而这 些数 据 一般 都不 是 由 同一个 用户 加 以存 储 的,而 是分 布 于各 个不 同的站 点之 中 。 且 同一 个数 据对 各个 不 同用 户所 要求 的 安全 等级 不一 样 。而 系统 所设 置 的那 种 自主访 问控 制 授权 机制 将 使得 访 问者可 能 自主 的将 其访 问权 限间接 或者 是 直接 的转 交给 无 访 问权 限的用 户 ,增加 了 信息 流 动 的风 险 。3 访 问控 制手 段单 一 。当 前分 布式 数据 库 网系 . 统所 采 用 的访 问控制 措施 一般 是 根据 不 同用户 的安全 级别 来对 其 访 问 申请 进 行控 制 的 。以一个 企 业 的 内部 办 公系 统为 例 ,企业 的 财务 主 管与 人事 主管 的安 全 级别 是一 样 的 ,但 是 财务 主管 却不 能 随意 的 获得 人事 主管 的信 息 。 同样 ,人事 主 管也 不能 随意 的获 得 财务 主 管 。因此 ,有 必要 采取 多 种手 段来 对各 个 不 同身份特 征 的 用 户 提 出针对 性 的访 问控 制策 略 。 二 、提 高分 布式 数据库 系统 安全性 的策 略 ( )加 强 身份 验证 。加 强 身份 验证 主要 是针 对攻 击 者采 用 一 的假 冒手 段 而采取 的针 对 性措 施 ,它 主要 是在 用户 提 出数据 访 问 请 求 时 ,在用 户和 数据 库 系统 之 间设 置一 道身 份验 证程 序 , 以确 保 用 户真 实 身份 的合 法性 。之 后 再对用 户 的访 问权 限进 行 定义 与 设置 ,确 保其 对有 限 资源进 行 访 问 。同 时,在 各个 服 务器站 点与 分 布 式数 据库 系统 之 间也 要进 行 身份认 证 ,这 样才 能保 证分 布 式 数 据库 系 统 的安全 性 能 。 二 ) 信保 密 。应 该在 系统 内部 进行 通 ( 通 信 的双 方 问建 立起 一套 保 密通 道 。在完 成 了信 息访 问者 的身份确 认 ,并确 认信 息访 问者 的访 问权 限之后 ,就可 以授 权访 问者 获 取 数 据 了 , 是 为 了防止通 信过 程 中 出现数 据窃 取 以及 重发 等 问题 , 但 还 应 该在 通信 双方 之 间建立 起 通信 保密 通 道 ,对两 者之 间进 行 的 数 据传 输 进行 加密 处理 。 三 ) 问控 制及 审 计 。在对 数据 库进 行 ( 访 管 理 的过 程 中, 为 了抵 御 黑客 采取 越权 攻击 的方式 ,在 对其 管 理 方 式进 行 设置 时就 采用 了所 有 用户 都 不可 以对 数据 库 中存储 的数 据 进行 直 接操 作 的方式 。而是 通过 在 系统 中嵌 入一 个对 访 问进行
相关文档
最新文档