WEB搜索引擎的原理与实现研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
定期 在 WE B 网页上 进行 全 网爬行 搜 索 , 然后 发现 新 的 网页 , 把 它们取 回来放到本地 的数据库 中 , 对获得的网页进行索引 , 并 且 记 录和 检 索 与 此相 关 的 属性 , 但 是 对 于 在 中文 的 搜 索 引擎 中 开始 应 该 把 中 文进 行 分 词 ; 当 然从 中也 可 了解 到 , 依 据 一 些 相关 的方 法 的 和采 用 一些 用 特 定属 性 的计 算 机程 序 在互 联 网 中 进行 信 息 的 发掘 , 搜 集查 找 相 关 的信 息 , 并对 所 获 得 的信 息 进 行 吸 收理 解 , 进行 加 工 处理 , 提取 有 用 的 信 息 , 通 过 这 些步 骤 之后 , 为互联网用户提供相关的信 息导航和相关的信息检索服 务 , 这 一系 统就 叫做 搜 索引擎 ( s e a r c h e n g i n e ) , 我们 不得 不 承认 的 是搜 索 引 擎 在现 实 中已经 成 为互 联 网用 户使 用 网络 获取 信 息 的 必 不可 少 的 工 具 , 而 且也 不 得 不 承认 互 联 网 已经 成 为 了我 们 生 活 中不 可 缺 少 的一 部 分 , 它 几 乎 无处 不 在 , 时 时 刻 刻地 影 响 着 人们 的生 活 。
3 搜 索 引擎 的实现
1 ) 实 现 机制 。搜 索 引 擎 的实 现机 制 一 般 的形 式是 多样 的 , 我 们 这里 可 以介绍 两 种 , 首先 , 通 过手 工 方 式 对 网页进 行 相 关 索引 , 例如 y a h o o 的 网页 就是 以人 工手 工 分类 的 方式 来进行 的 , 而 人 工手 工 分 类这 样 的方 式 在 今 天这样 一 个 高 素质 人 力 资源 价 格非 常昂贵的时代是非 常不经济的 , 但是 , 我 们 注 意 到 它 的 WE B的覆盖 率 比较 不够 高 , 并 且不 能 同时保 证 获取最 新 的信息 。 另 一 种是 对 网 页进 行 自动 的索 引 , 像A h a V i s t a 则 是完 全通 过 自 动 索 引来 实 现 的。但 在分 类方 面 的准确 性可 能不 如手 工分类 。 2) WE B搜索 引擎 实现 。 ① 利 用 网络 蜘蛛 来 获 取 网络 资 源 。这 是 一种 半 自动 化 的 资 源 ( 由于此 时 尚未 对 资源 进 行 分 析 和理 解 , 所 以 不能 成 为信 息 而 仅 仅 是一 种 资源 )获 取 的途 径 。所 谓 半 自动 化 , 指 的是 人 需 要 对搜 索器 的起 始 网络资 源 u r l ( U n i f o r m R e s o u r c e L o c a t o r ) 进 行 指定 , 从 而获取 u r l 所 指 向 的先关 的 网络资 源 , 并分 析该 资源 所 指 向 的其 他 资 源和 和 获 取 它 所 指 向 的信 息 。S p i d e r 访 问资 源 的 过程 , 是 一 个关 于 互 联 网信 息 进行 分 部组 织 的过 程 。事实 上 在 个真实的 S p i d e r 程序之 中 , 一 般 是为 了能 够 在准 确 的时 间 内
2 0 1 3 年第1 1 期总第 1 3 1 期 S- L- C0 N VALLI : Y
WE B 搜索引擎 的原理 与实现研究
吕苗 苗
( 江苏 盐城 卫生 职 业技 术学 院 , 江苏 盐 城
2 2 4 0 0 5 )
摘 要 随着中国经济的飞速发展 , 市场需求的不断增大 , 网络与通信技术的运用也跟着迅速发展 , 互联网已经成为 人们 获 取信 息的 重要手 段之 一 ,W E B 信 息在 此 基础 上 不 断地增 长 , 即成 为 一个海 量信 息的 空 间。在使 用 互联 网搜 索信 息 的过 程 中必 然存 在一 些 问题 , 为 了更好 的 实现 互联 网搜 索 , 准 确 、快 速 、方便 的获 得 有效 信 息 , 这 就 需要 对 互联 网 搜 索引擎进行有效使用。本文首先就 W E B 搜 索引擎的原理进行 了相 关的概述 , 并对搜 索引擎相关技术及发展进行初步
一
2搜索引擎的分类
搜索引擎是一个 中间层 , 介于用户层和 WE B信息层之间的
中间 , 在 内 部 的结 构 就有 一 定 的不 同之 处 。用 户 可 以直 接 从 机
取 和 即时 更新 , 不 需 要 人 工来 干 预 , 还 比较 适 用 于检 索 难 以查 找 的信 息 或者 检 索一 些 比较模 糊 的 主题 的优 点 。这 类搜 索 引擎 的优 秀代 表 是 : E x c i t e 、A h a V i s t a 、G o o g l e、I n f o s e e k 、I n k t o m i 、 L y c o s 、F A S T 、N o r t h e n r L i g h t 等。 3) 关 于 元搜索 引擎 。作 为元搜 索 引擎 它 本身 并没有 拥有 的 数据 , 而是 针 对用 户 在进 行 信 息查 询 时 提 出 的相 关 的要 求进 行 提 前 处理 操 作 , 将 其 分别 转 换 成底 层 搜 索 引擎 能 够进 行处 理 的 格式 , 并 在 同 时 向多 个搜 索 引 擎进 行 传 递 , 接 着对 综 合 了各 种 搜 索 引擎 的检 索结 果 排 除过 多 的信 息重 复 出现 、重 新 组织 信 息 以及 进 行顺 序 方 面 的 出新 解决 , 通过 这 些 之后 , 才 把处 理 了 的 信 息作 为搜 索 的结果 返 回给 网络 用户者 。 元 搜 索 引擎 不 仅 仅 能够 容 纳各 种 检 索 的信 息 , 而 且还 能 够 获 取 更 多 的信 息量 、信 息涉 及 面 更广 表 达 上也 更 充 分 , 并且 对 信 息 进 行 过滤 和加 入 一 些 新 的排 序 , 最 后实 现 满 足搜 索 引擎 用 户 的 需求 。但 是所 选 用 的搜 索 引擎 的功 能却 不 能 够充 分 的发 挥 出来 , 一 般 情 况下 还 需要 互 联 网用 户进 行 更 加 细致 的区别 和 筛 选 。元 搜索 引擎 的在 应 用中 的代表 有 I n f o Ma r k e t 、 WE B C r a w l e r 等。
研究。
关键 词 W E B ; 搜索引擎 ;实现
中图 分 类号 : T P 3 文 献 标识 码 : A 文章 编号 : 1 6 7 卜7 5 9 7( 2 0 1 3 )1 卜0概 述
搜 索引 擎 的基本 原 理是通 过 网络 机 器人 , 即用 蜘 蛛 ( S p i d e r )