面向主题搜索引擎的实现与优化
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息做 详细了解时 , 例如用户想 了解关于 “ 求职” 的 与 通 用爬 虫不 同 ,主题 爬 虫 由于 仅专 注 于某 一 信息 , 同时又要求信息是关 于建筑行业 的, 这种需求 主题 的We 子集 , b 因而能 够对 该领 域进 行更 深入 的挖
通用 搜 索引擎 很 难准 确满 足 。在此 背景 下 , 针对某 一 掘和更及时的数据更新。 B 主题搜索引擎采用的是 BS
2y g
面向主题搜索引擎的实现与优化
刘兆伟’黄 永峰 1 京师范大学信息科 学与技术学院 北 京1 0 7 (. 北 85 0 2清华大学 电子工程 系网络研究所 北 京1 0 8 ) . 0 4 0
摘
要:主题搜索是搜索引擎发展的一个新方向。L cn,_ 前优 秀的搜索引擎开源软件之一。文章 以 uee 目  ̄
Bs B 搜索引擎为栽体 , 研究了面向主题搜 索引擎的实现和优化 , 出了 E 提 J 中文分词实现方法, 针对B s B 文本结构 特性 , 改进和优化 了L cn ̄ 索评分算法, uee 构建了一套高性能的主题搜 索引擎实验 系统。通过对水木清华等 BS B 信息的采集和测试 , 明了该主题搜 索引擎的性能和效率得到较大改进和提 高。 证 关键词:搜索引擎;ueeB S L cn ;B 搜索; 中文分词
实现 了个 性化 的B S B 主题 搜索 引 擎 , 过 实验 验证 系 元 化 。面 向主题 搜索 引擎 可 以更深 入 地挖 取 特定 领 通 统 的效率 。 域 的信 息 , 根据用 户 的需 要进 行多元 化 的检 索 。 下 面 以面 向B S B 主题 搜索 引 擎 为例 , 究 主题 搜 研
准 确度 降低 ,而 中文分 词 的准 确 度往 往 直 接影 响搜 索 引擎 的查 询效果 和用 户体 验 。如查 询 “ 国”结果 中 ,
中可能会 把 含有 “ 于 中 间的 国家 ” 其 他 的 页检 位 或
页 面信 息抽 取 :大 部分 论 坛 站点 具 有很 多 的共
性 , 如 每个 B S 例 B 站点 在 各 自讨 论 区的 版 面 、 页信 网 息 的布局 结构 模板 基本类 似 。 同一 个B S 坛站 点其 B论 网页 的模 板 基本 一致 。以清 华 大学 的水 木社 区站 点 为例 , 面截 图如 图2 页 所示 。
数据 采集 的专 业性 和更 新 的实时性 。
24 . 网 页 信 息 预 处 理
L cn本身 自带 SadrA aye: 用 来 实现分 uee t ad nl r n z  ̄,
词 。 个分词 器 是基 于单 字 的分 词 , 这 由于中文 和英 文 形 状 和语法 上 的 巨大 差异 ,单 字 切分 使 中文 的查询
点 : 1 针对 性强 。 对某 一特 定领 域 、 () 针 某一 特定 人群 本文分析了传统搜索引擎存在 的不足 ,介绍 了 或 某 一 特 定 需 求 提 供 有 一 定 价 值 的 信 息 和相 关 服 L cn 的体 系 结 构 , B 搜 索 引 擎 为 载体 , 究 了 务 。( ) 索精 确 。因为 其信 息资 源是 针对 特定 主题 uee 以B S 研 2检 面 向主题 搜 索 引擎 在 特定 领 域 的优 化 方法 ,设计 并 的 , 因而可 以很好 地 提 高检 索 的准 确度 。( ) 3 检索 多
收 稿 日期 :0 1 0 — 2 2 1 — 62 9 4
—L
数据通信
2 1 . 0 14
图1面向主题搜 索引擎结构图
图3 解 析 后 的 页 面截 图
主题 爬 虫 , 以根 据 B S 可 B 的特 点 , 行 面 向B S 进 B 主题
的信息 采集 , 抓取 时 更有 针 对性 , 选 择地 进行 页 在 有 面 抓取 , 尽量 多地 抓取 与主题 相关 度 高 的网页 。保证
1 通用搜 索引擎分析
全文 检 索服 务 系统 。通 用 搜 索 引擎 的 优点 是 信息 量
索 引擎 在特 定领 域 内 的实现 和优化 。 面 向主题 搜 索引 擎 的体 系 结构 与通 用 搜 索 引擎
. 传统 搜索 引 擎 即通 用 搜 索 引擎 是 指 面 向网 页 的 22 面 向主题搜 索引擎框 架
随着 w b20 e .时代 的 到来 ,互 联 网上 每天 都有 海 特定领域或者特定需求对该领域信息进行深度发掘 量信 息生 成 、 共享 和更 新 。搜索 引擎 的出现 为人 们 提 的主题 搜 索引擎 的出现 就有 其必 然性 。 供 了对 海量 互 联 网资 源 快 速 定 位 和 检 索 的工 具 , 并 逐渐 在 信息 检索 领 域 占据 主 导 地位 。随着 网络 资 源 2 主题搜索 引擎 的实现与优化 以几 何 速度 增 长 ,一个 搜 索 引擎 很 难 收集 所 有 主题 2 1 面 向主题搜 索引擎 的优 点 . 的 网络 资源 。因此 , 向主题 的搜 索引擎 以其高 度 的 面 目标 化 和专业 化 成为搜 索 引擎 下一 步 的发展 方 向 。 主题搜 索 引擎 相 对通 用 搜 索 引擎有 以下 几个 优
全 、 盖 面广 。但 随着 互联 网资 源 的不 断膨 胀 , 用 的结构类 似 , 覆 通 大致分 为数据 采集 、 信息 预处理 、 创建 索 搜 索 引 擎会 出现 查 询不 准 确 、 深度 不 够 等 问题 , 难 引和检索系统四大核心模块。整体结构图如图1 很 所示。
3 满 足 当前 用 户 的检 索需 求 。当用 户 需 要对 特 定领 域 2. 主 题 数 据 采 集
, l l 曩霞 ; l 昂 囝 刃 氍 璧 鼙 垂 矧 撩
索 出来 。 本B S B 主题 搜 索 引 擎 采 用 了J 分 词 系 统进 行 中 E 文分 词 。J分 词是 一套 用Jv编 写 的分 词软 件 , E aa 其性