基于WEB的文件搜索引擎设计与实现
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文件 。 然后 将 目录信息 保 存 在本 地 数 据 库 中 . 如果 有 查 模 块 的流 程 如 图 21所示 . 询 请求 ,则 检 索 自有 数 据库 中 的数 据 。将 相 关 的信 息
( 文件所 在 的地 址)返 回给请 求 者 。系统 包 含 两个 子 系 统 :f t p数据 采 集器 和 f t 索 引 擎 网 站 。其 中 n P数 p搜 据 采集 器 的功 能有 : 站 点 扫描 数 据 采 集 、 站 点数 据 多 单 采集、 站点 数 据更 新 和 数 据 库 配 置 。f t 索 引擎 的 功 p搜
能 :检 索要 查 询 的数 据信 息 并 返 回文件 所 在 地址 和 下 载 文件 。 系统 功 能描述 如 图 11 .。
0 0 0
图 21数 据 采 集 流 程 图 .
兀 P服 务 器 上 的数 据 采 集 过 程 实 际 上 是 一个 自动 的搜 集 过程 .并 以相 对 完善 的格 式 保 存在 设 计 好 的数
可。
3 数据 查询 模块 、
操 作 系 统 中 L U 算 法 的 思 想 淘 汰 C c e文 件 中很 久 R ah 没有 被访 问索 引表 。使 用 C e e后 , 于新 的查 询 。 ah 对 首
数据 查 询 模块 的主 要功 能 是 为用 户 提供 一个 统 一 先 就 是 查 看 C c e是 否 命 中 , 如果 命 中 ,直 接 返 回 ah 的查询 界 面 。 便用 户进 行 查询 和查 看 操作 , 方 并对 查 询 C ce中 的结果 索 引 表 .否 则 按 照原 来 的字 符 串 匹配 ah 搜 查 的结果 进行 排 序 。 在查 询 的过程 中 , 首先要 获 得用 户 的 算法 进行 匹配 。 索 结果 页实 现缓 存后 。 询就 能降 低
查 询关 键字 .然 后根 据 查询 关键 字 到 索引 文 件 中检 索 重复 的计 算量 , 高 同时 响应用 户检 索请 求 的能 力 。 提 用 数据 , 后将 查 询 的结 果 排序后 在 查询 界 面 中显示 。 最 因 于采用 重 用缓存 中保存 的历史 相 同 的查 询结果 网页 的 此查 询模 块设 计 时主 要包 括 查询 页 面 的设计 、查 询程 方法 大大 提高 了查 询效 率 。 序 的编写 和查 询 结果 的返 回以及 关 键 字统 计 等 。 4 存 储模 块 设计 、 查询 界 面 以网 页的形式 显 示给 用 户 。在 设 计 时 , 对 数 据 存储 模 块 的 主要 功 能 是对 通 过抓 取 程序 抓 取 服务 器上 的资 源都 是文 件 , 是 由设 计 一个 表单 供用 户 按照 文 件 的类 型进 行 过 滤信 而文 件是 由树 形 结构 存储 的 .所 以文件 的存 储 最重 要 息 。因 为本 系 统 是一 种 F P搜 索 引擎 , 单 中需 包 含 的也 就是 文 件地址 和文 件名 .通 过 文件 地址 可 以对 其 T 表 我们 想获 得 的是 文件 而不 是 目录 。 以数 据 所 文 件名 信 息 , 另外 为方便 用 户查 找 特定 类 型 的文 件 , 设 进行 下载 。 置 一个 页框 包 括全部 、 件 、 件 和视 频 页面 供用 户 选 存储 时将 目录和文 件 分别 放 入不 同的 表 中 (目录表 1 课 软 『 和 择 文件 类 型。用 户浏 览 到此 w b页面 ,填 写并 提交 表 【 件 表1 ; 计 F P站 点 信 息 表 来 存 放 服 务 器 名 ( e 文 )设 T 域 单 。提 交 时 在 客 户 端 对 关 键 字 进 行 过 滤 这 样 就 减 少 名或 是 I P地址 ) 开 放 的端 口号 、 户 名 和密码 站 点 说 、 用 明信息 等 : 设计 关 键字 信息 表来 存放 关键 字基 本 信息 。 We b服务 器 的工 作 量 。表单 提交 给 We b服 务器 之 后 , 由查 询程 序进 行 分析 . 生成 查询 语 句并 执行 查 询操 作 。 5 管 理和 维 护模块 、
21 0 1年第 6期
福 建 电
脑
13 l
基 于 WE B的 文件 搜 索 引 擎 设 计 与 实现
李 华 英 ,轩 春 青
(1郑 州师 范 学院 河 南 郑 州 4 0 4 2河 南财 经政 法 大 学成 功 学院 河 南 郑 州 4 10 . 504 . 5 2 0)
【 摘 要】 :本文分析和设计 了一个基 于 WE B的文件搜 索引擎 ,并在 a . t q s vr 05环境 下用 s n 、 le e 20 p e s r
要用 于搜集 F P服务 器 提供 的 目录列 表 以及 向用 户 提 用 多 线 程 技术 和 网络 编 程技 术 .支 持 单站 点 和多 站点 T 供 文件 信息 的查 询 服务 。 由于 F 搜 索 引擎 专 门针对 抓 取 . 取 时 采用 宽度 优 先遍历 技 术 。 是为 了 防止爬 1 抓 但 各 种文 件 , 而相对 WWW 搜 索 引 擎 , 找软 件 、 因 寻 图像 、 虫无 限制地 宽 度优 先 抓 取 .限制 爬 虫 抓取 到 一定 深度 电影 和音 乐 等 文件 时 ,使 用 兀 搜 索 引 擎 非 常 便 捷 。 即万 维 网直 径 的长 度 时停 止 抓取 。 同 时抓 取 时考 虑对 为 了更好 的为我 校 师生 提 供 服务 .实 现 教师 与 学 生 资 模 糊 I P段进 行 筛选 , 即扫 描器 。并 支 持对 F P站 点信 T 源共 享 、 生 基 于个 人 存 储 的 网络 U 盘 实 现 与其 他 用 息 更 新 。 学 户 之 间 的资 源 共享 . 我们 设 计 了 自己 的 nP 服务 器 搜 2 数 据采 集模 块 、
顺 序输 出。 查询 结果 由查 询程 序进 行 统计 分 析 , 按 搜 所 示 。 并 索 次数 排 序 、 以分 页 的方式 返 回给用 户 浏览 。 查询 结果 主要 包 含 文 件 在第 三 方 服 务器 上 的符 号 链 接 地址 . 以 及 相关 关 键字 等信 息 。 由 于 F P站点 上 资 源众 多 .因此我 们 采 用 分 页显 T 示 机 制。 在本 系统 中 。 采取 了 一种 智 能 的分 页方 案 : 将
当前 的 起 始 显示 项 号 对 应 的链 接 放 在 链 接 表 的 中 间 。 以最 大 显 示 项 数 为 间 距 生 成 有 限 个 向后 和 向 前 的 链 接 , 样 用户 可 以保 持 鼠标不 动 的情 况 下 , 这 以相 同 的间
距 向前 或 向后 翻 页【 l 】 图 51站 点 管 理 . 用 户 在使 用 搜 索 引擎 进 行检 索 时 .查询 词 可 能 干 数据 更新 包 括 ” 点可 连 接性 的测 试 ”校 园 网 内新 站 . 差万别 。 是如果 从 大量 用户 的查 询 统计 上 分析 , 但 总会 开通 的 FT 站 点 的 登 记 等 .我 们 这 里是 通 过 wno k I isc 有一些 词 汇会 被经 常查 询 。 有些 词 汇 却很 少 查 询 。 而 即 下 2 查 询词 很 可 能在不 久 的将 来 还会 被查 询 。基 于这 种 现 控件来 实 现 的。 只需 要通 过 它来 登 录 ( 转第 1 5页 )
对 查 询结 果 的 排序 常用 的算 法是 堆 排 序 或 者快 速
优化。 首先 通 过按类 型 进行 分组 排 序 , 类 型相 同的文 从 而较 少人 为 的操 作 负担 。因 此本 文设 计 了一 个 F P 把 T
件 放在 一起 . 后加 入一 个权 值 , 照权 值 从 大 到小 的 服 务器 站 点 的 自主 管 理平 台 。站 点 管理 界 面 如 图 5L 然 按 .
据库 中 。具 体 的分析 如 下 :数 据 采集 的过程 就 是登 录
F P站 点 , 历其 中 的文件 , 后 返 回该 站 点 上 的文 件 r 遍 然 信息 并 保存 在 数 据库 的 目录表 和文 件 表 中 。本 系统 设
计 的 m 针 对 站 点 信 息 的抓 取 和 返 回结 果 进 行 分析 。 将 其 用语 言 来 描述 如 下 : 数 据 采集 过 程
于用 户输 入页 面 的设 计 采用 复 杂查 询 页码 .复 杂查 询 的信 息进 行存 储 。 由于 m
为 了保证数据库 中的数据与 肿 站点中的数据保 持一 致 .则 需要 对 站点 进行 管 理 和维 护用 以实 现数 据 排序 。 由子 堆 排序具 有 元素 移动 少 、 间 复 杂度 低 等优 空 点。 因此 常被用 来进 行查 询 结果 的排 序 。 现有 的堆排 更新 和 维护 。 本 文 的设计 中 。 在 在 管理 和维 护功 能包 括站 序 算法 中考虑 通过增 加 一个 参 数 .实 现不 同属 性 问 的 点 管理 、 数据 更新 和 服务 器 配置功 能 。 了实现 站 点 中 为 排 序 .进 而实 现查 询结 果 的灵 活性 并 对查 询 结 果进 行 信息 的更 新 , 站点 中信息 的 采集 最好 是 做成 自动 化 的 ,
索 引擎 。 数 据 采 集 模 块 是 Leabharlann Baidu 、 索 引擎 系 统 的核 心部 分 . 1P搜 1 系统 总体 结 构 、 它 主 要 负 责从 肿 服 务 器 上 获取 F P资 源 信息 . 把 r 并 本 系统 主 要原 理 是 :检 索 各 个 F P服 务 器上 面 的 获 取 的信 息 反馈 给 搜索 引擎 , 用户 提供 检 索服 务 。 r 为 该
图 11系 统 功 能 描 述 图 .
整 个 系统 采用 BS CS结构 相 结 合 的模 式 . 客户 /、/ 在
端 采用 了 A a 、s、 技 术 , jx esj s 系统 采 用 S evr2 0 QLS re 0 5 数据库 , C 用 #语言进 行 软 件开 发 。用户 登 陆 环境 采用
{ 读 取 站点 信 息 : 登 录站 点并 遍 历 : 接 收返 回信 息 :
14 1
数据 入库
福
建
电
脑
2 1 年 第 6期 01
象 . 虑对 搜 索结果 进 行缓 存 。 搜索 结果 缓存 的实 现 考 而
和操 作系 统 中提 到的 L U算 法 思想基 本 一致 。 R R L U算 l 具 体实现方 案就是利用 C #提 供 的 基 于 Wisc 法 的基 本 思想 是选 择 最近 最久 未 被使 用 的页 面予 以淘 no k
方 法 .采用 多线 程 技术 和 网络 编程 技术 支 持单 站 点 和 汰 把字符 串匹配 的 结果 索 引表 保存 起来 以方便 下 次 多 站点 抓取 .站 点遍 历 时常 常采 用 宽度 优 先策 略进行 使 用 . 们使 用文 件 来 实 现 C c e 把用 户 的查 询 串转 我 ah 。 遍历 。Wisc no k方法 提供 了基 于 T P协议 的套 接 字链 换 成 1 制表 示 的字 符 串作 为 文件名 . 命 中 的索 引 C 6进 把 接 。 以通 过 它 实 现 Fr l 议 。 可 ] 协 P 我们 要 做 的 就 是 实现 表 保存 在 C c e文件 中。 外 . 动 一个 单独 的进 程 每 ah 另 启 F P站 点 的 登 录 、 发 送 Us T T命 令 和 接 收 返 回信 息 即 隔 十 分钟 检测 一 次所 有 C c e的最 后访 问 时 间 .利用 ah
C≠ 语 言编 程 实现 了该 F P搜 索 引擎的 主要 功 能 。 ≠ T
【 关键词】 :WE ;T ; B F P 搜索引擎; ≠语 言 c≠
0 弓 言 、 I
普 通 标 准浏 览 器 , 目的是 减少 系统 的维 护开 销 。 服务 在 器 端 的爬 行 器 ( rw e , 取 丌 P数据 信 息 ) C a lr抓 设计 时采 文件 搜 索 引擎 是 因特 网最 主 要 的服 务 之 一 .它 主