WEB信息检索综述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
B信 息检索综述
张 培 宾
( 州航 空 工业 管理 学院 图书馆 , 南 郑 州 4 0 1 ) 郑 河 5 05 摘 要: 本文对 目前 比较 常用的几种 We 信 息检 索工具及 其功能进行 了 绍 , b 从检 索工具 、 索技 巧和发晨, 检 劳荨兄个另回进行 了 分 析 , 对 We 息 检 索 的发 展 趋 势 进 行 了分析 和 预 测 。 并 b信 关键 词 : }信 息检 索 ; 索 工具 ; 索技 巧 we 】 检 检 2 b信息 检 索 的一 些 关键 技 术 。2 .基 于 内容 的 检索 技 术 。 . We 2 .1 2 1概述 因特网上丰富多彩的 We b信息资源给人们带来 _巨大的便利, r 每 We b是一个分布式的、 全球性 的数字图书馆模型 , 它的 U L相当于地 R 常因 U L会变动而导致搜索的返 回结果 R 天上网浏览新闻, 收发邮件 , 检索相关资料等几乎成 了人们每 日必需的 址的文件标识器。而现实中 , 道:作餐 。不论是哪种类型的网络信息, I : 一般 情况下 , 我们不知道其 变得无用。另一种代替 U L来定位搜索 目标 的方法是基于内容的方 R 它是一个包含关键词的表, 可作为检索 目标 网页的查询条件。这种 在网上存储的地址, 也尢法记住那么多内容的地址 。另外 , 其他一些媒 法 , 体如图像 、 音频和视频也大量存在。We b是一个非常大的 、 非结构化且 查询 称 为基 于 内容 的 寻址 , 要查 询 。它 的优点 是 , 或概 当一个 目标 网页 基于内容的寻址定位也不会改变 , 从而仍然可以得出正确的检 无处不在的数据库, 这就需要有效的T具来管理 、 检索和从数据库 中筛 移动时 , 互联网上存在着多种格式的文档 , 除了文本之外还 选信息。为了有效地查询和利用网上信息 , 人们开发 了各种 We b信息 索结果。另~方面, 音频、 视频。 『 人f使用搜索引擎式基本上都是进行文本搜索, 1 对 检 索 系统 , 索 引擎 (erhE g e ) 是 一类 能 自动 搜索 , 织 有图像 、 即搜 Sac n i s。它 n 组 We 信息 资源 , 供检 索服 务的信 息服 务系统 。 b 并提 多媒体内容 的检索技术 尚不成熟 。就此问题 目前提 出了基于内容的图 We b信息检索的基本形式有三种。 第一种搜索引擎 , 它标引一部分 像检索技术 ,其1 作原理是 ,由机器 自动提取包含图像 内容的可视特 二 网络 文献作 为 一个 全 文数 据库 ; 二 种 是 We 第 b目录 , 按 主题 来 对所 征 : 它 颜色 、 纹理 、 形状 、 对象的位置和相互关系等。对数据库中的对象和 检索与样本相似的图像。2 . .2 2 选的 We, t文献进行分类 ; 三种还没有完全成熟 , 第 却利用超链接结构 查询样本图像在特征空间进行相似匹配 , 自 然语言处理技术。 自然语言处理长期以来一直是人工智能的一个核 来检 索 网络 。 人 1 实现 We . 1 b信息检索的条件 。实现 We 信息检索必须具备 包 心研 究 领域 。比较 基础 的技 术有 自动分 词 、 名和机 构名 的 自动 识别技 b 资源, 信息处理干信息传输这j大条件。 u 其中, 信息资源指对各种信息进 术 、 自动标引技术等, 其它像信息抽取 、 自动文摘 、 文档 自动分类 、 中文 行分类 , ,l , , 汇总 力1 组织 按照客观事物的相互关联建立起来 的有序结 概念词的 自动发现以及概念词之间的语义关系的确定等复杂技术也都 工 构 ; 处理 指利 用计算 机信 息 进行 的~ 系列筛 选 , 信息 反馈 , 匹配 , 算 等 必不可少。 计 应用了这些技术的搜索引擎我们称之为智能搜索引擎。 实现 语义理解 、 知识管理和知识检索 。 其中, 加]操作 ; 息传输指人和计算机借助通信 网络进行的信息传递和交 智能搜索的过程主要分三部分 : : 瞧 流。 因此, 信息经济学专家提出: “ 信息网络是现代通信 网, 算 机网和信 知识库是实现智能搜索的基础和核心。.3 l } 1 2 .集成搜索引擎技术。 2 这种技 息资源网的综合 , 现代通信 , 电子计算机 , 信息资源( 息内容 ) 信 三者互相 术是将搜索引擎系统建立在多个现有的搜索引擎之上,提供对这些引 渗透 , 连接 , 合而形 成的全方 位的服 务网络 。 联 这 种网络按 不 同途 径发 擎进行统一访 问的服务 。 集成搜索引擎 自己并不维护所有文件的索引。 但是 , 了提供 更好 的服 务 , 个 复杂 的集成 搜索 引 擎通 常会维 护一 些 为 一 展, 往信息资源开发 , 利用和共享这个方向下趋向三网合一” 。 1 面 临的主要 难题 。主要 有两类 : 本 身 的问题 和用 户及其 检 关于底层搜索引擎内容 的信息。当向集成搜索引擎提 【查询以后 , . 2 数据 叶 I 它能 索系统交互的问题。 数据的分布. 数据分布在许多计算机和平台上。 将该 查询分 送 到适 当 的底层 搜索 引擎 ,再搜 集 和整 理底 层引擎 返 回的 a I 生: 网络 互联 的有 效带 宽及其 可靠 I经 常发生变 化 。. 定数据 的大 量存 结果 。 多个 搜索 引擎组 合在 一起 , 查询 的 网络 覆盖 面将 比任何单 个 生 b 不稳 将 可 在 : B资源经 常更 新 , 致要 处理 大量 空链接 和重 新 定位 的 问题 。C 搜索引擎都要大很多。由一个建立在多个专题搜索引擎基础之上的集 WE 导 . 非结构和冗余数据: 由于网络的共享性, 许多网络资非常相似或有大量 成搜索引擎代替综合引擎 ,可以解决存 We 上搜索的可扩展性 问题。 b 的镜像存存。不同的资源有着不同的概念模型 , 缺乏一致 } . 生。d 异构数 此外 ,集成搜索引擎还可以方便对多个引擎的查询 ,提高检索的有效 据: 全球文献 巾有各种语种 , 如扣丁语系和汉语等 , 而且不能简单地通 性。 .4 2 .数据挖掘技术与检索技术的结合 。 2 数据挖掘技术也称数据库知 识发现技术, 被广泛 的应用于数据仓库 、 并行分布式数据库 中, 以发现 过 软件来解 决 。 2We 信 息资 源检 索方法 与搜 索技术 b 数据 中隐含的规律和趋势 , 用来分析经验 、 解释原因、 制定决策 、 指导改 使数据库具有知S, Yg的詹陛。 I 数据挖掘技术涉及许多学 2 We 信息资源检索方法 。 .1 . } I , 2 .直接访问信息源搜索的途径。通 进和预测趋势 , 1 常 的做法 足通 过 I P地址 直接 打 开 网站或 网页 , 般 是在 已知 所查 询 的 科的技术 , 一 包括数据库技术 、 统计学 、 机器学习 、 模式识别技术以及信息 b挖掘技 术 , 实现对 We 它 b存取 信 息在某 一具体 的网站或 网 页时使 用 ,不过 这种 方法需 要 记忆 大量 的 检 索技术 。现在有 一种 新技术 称为 We 域名, 网址。一种更简便的方法是安装网络实名插件 , 可在浏览器的地 模 式 、 b We 结构 和规 则 , 动态 的 We 以及 b内容的查 找 。 b We 挖掘技 术最 址 栏或搜 索引擎 网站 中 , 输入 中英文 网站名 称 , ,7 1 直接 如 32 网络实 名 , 大的特 | 是从 大量 数据 巾发 现有 用 的知识 ,因此发 展面 向互联 网的 就 州 入网站 , 输 企事业 单位 , 商标, 产品等炎键词的中英文名称 , 就能直达 知识挖掘技术 , 并将其与灵活使H 的信息检索技术无缝的结合起来 , j 将 方便的、 内容空前丰富的学)知识和问题的 J 对应的网站或网页。 .2 21 利用网络检索 具。 . 可使刚综合 眭搜索引擎 , 会向人们提供一户 网站 , 查 询过 程 一 求 解途 径 。 G ol e 在 般提供分类查询和关键词查询。 有些网站还提供 很多网址的链接, 根 3搜索引擎及其技术 据 需要 点击 , 可直接 进 入 网站 当需 要检 索某 些专 业性 或特 定信 息 时 , 可 31 .搜索引擎构成。搜索引擎是一种最为常见的 We h信息检索系 使 J 々题搜 索 引擎 .例如 专业 地 图搜 索 的T具 有 图吧 (t: w p 统 , l I j . hp / wma— t, w 主要 由 四部分 组成 :网络 机器 人 : 个 功能 很强 的程 序 , 会 定 a 是一 它 hlOl, aCl)矧行天下m p w , p o ) .3 -l { / , ¨ 2 . i。21 构造检索提问式的要 期 根据 预先 设定 的地 址去查 看 对应 的 网页 ,如 网页发 生变 化就重 新 获 Ⅲ cn . 点。 存检 索 中 , 两个最 为关键 的步 骤 , 是慨括 检索 提问 , 择精确 的 取该 网页 , 则根据 该 网页 中的链接 继续 去访 问 。 有 一 选 否 网络机 器人访 问贞 面 检 索词 ; 二是正�
相关文档
最新文档