一种基于Lucene的面向主题爬行搜索引擎的研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
通 用 搜 索 引擎 能 在 一 定程 度 上 帮 助 用户 从海 量 的 网 势 , 已经 成 为搜 索 引擎研 究 和应 用 领域 的热 门课 题 。 络 信 息 中检 索 出许 多有 用 的信 息 , 但是 这 些信 息往 往
目前 国 内外 已有 很 多研 究者 对 面 向主题 搜 索 引擎 的 二、 L u c e n e介绍及 结构 2 . 1 L u c e n e介绍
一
…
…
秉 麓
器
一
种基 于 L u c e n e的面 向主题爬行搜 索引擎 的术 学院 浙 江 宁波 3 1 5 0 1 2 )
【 摘 要】 : 本文简要介绍 了主题搜索的基本概念以及 L u c e n e 的基本结构。 研 究了面向主题搜 索引 擎的实现和优化 , 提 出了J E中文分词 实现方法, 主题索引 系统的构建 , 完成 了一个高性 能的主题搜 索
档信息, 然 后 进 行 网页 和文 档 信 息 的提取 、 处 理 和建 结构 封装 、 索 引核 心 、 对 外接 口三 大部 分组成 。 其 中直 随着 网络 信 息 的存 在 形 式 多元 化 趋 势 和 用 户对 将 所有 源 码 分 为 了 7个 模 块 f 在J a v a语 言 中 以包 即
搜 索 结 果 的精 确 化 、 深 入 化 的要 求 , 现 阶 段 的搜 索 引 p a c k a g e 来表 示) , 各个 模块划 分 如 图 1 所示 。 需要 说 明 擎 一 通 用搜 索 引擎 由于 其搜 索 范 围为 整 个 互 联 网 的 的是 o r g . a p a c h e . 1 u c e n e . q u e r y P a s e r 是做 为 o r g . a p a c h e .
索 引擎来 帮助 自己在 网络 中检索 想要 的信 息 。 但 是近 时 更新 , 能 够 跟上 互 联 网上 信 息 的变 化 , 从而 保 证 搜
年来 , 人 们对 于 图 片 、 视 频 以及特 定 领 域 的 信 息等 资 索结 果更 加准确 、 具 体和深 入 。由于这些 优势 , 面 向主 源 的搜 索 需求 , 增长 索 引 擎 的其 中一 个 发 展 趋
对 搜 索结 果 的要求 。
立 出来 。
浙江工商职业技 术学院科研基金 项 目: 一种基 于 L u c e n e的面向主题爬行搜 索引擎的研究
・
2 4 ・ 福建 电脑 l 2 o 1 3 年 第5 期
L u c e n e是 a p a c h e 软 件 基金 会 i a k a r t a 项 目组 的一
涉 及 多个 领 域 、 纷繁 复 杂 。很 多时 候还 需 要用 户在 返 相关技 术做 了大 量 的研究 。
回 的结 果页 面 中不停 的翻页 , 甚 至 还要 不 断变 换 关键 词重 新搜 索 , 才 能查 询 到 自己想 要 的信 息 。这给 用户 搜 索信 息 带来 了极 大 的不便 。
本文 在 基 于 L u c e n e的基础 上对 搜 索 引擎 中的 中 个 子项 目,是 一 个 开放 源 代 码 的 全 文检 索 引擎 工 具
文分 词 技术 和 索 引技术 做 了简 要 的介 绍 与研 究 , 并提 包 , 它 不 是 一 个 完 整 的全 文 检 索 引擎 , 而 是 一个 使 用
引擎 系统 。
【 关键词 】 : L u c e n e ; 面向主题 ; 中文分词 ; 索引
在 当今 的社会 , 通 过 互联 网获 取信 息 已逐渐 成 为
面 向主 题搜 索 引擎 是 针 对 特 定 领 域 用 户 的特 定
人们 日常 获 取信 息 的途 径之 一 。与 此 同 时, 互 联 网 的 需求 而 产 生 的 , 因此 , 面 向主 题 搜 索 引 擎专 注 于 获 取 信 息量 也 与 日俱 增 , 网上 获 取 信 息 的难 度 也 随之 增 针 对特 定领 域 的信 息 并且提 供 相 应信 息 的检 索服 务 。
加 。搜索 引 擎 的 出现 , 为人们 提 供 了获 取信 息 的新 途 相 比较 通 用搜 索 引擎来 说 , 面 向主题 搜 索 引擎搜 集 的 径, 通 常情 况 下 , 人们 习惯 用 G o o g l e和 百 度 等通 用 搜 信 息是与特定主题相关 的, 信息量较少 , 信 息能够及
出了一 种新 的 中文 分词 方 法 , 构建 了一个 面 向主 题 的 i a v a 语 言编 写 的全 文检 索 引擎 的架构 , 主要 提 供 了查 搜索 引擎 。
一
询 引擎 、 索 引引擎 、 存储 管理和 文本 分析 接 口。它 可 以 嵌入 到各 种应 用 中来实 现针 对应用 的全 文搜 索功 能 。
2 . 2 L u c e n e 组 织结 构 从 图 1中我们 清 楚 的看 到 , L u e e n e的系统 由基 础 接操 作索 引文件 的索 引核心 又是 系统 的重 点。L u c e n e
、
面 向主题 搜索 简介
搜 索 引擎 是 一种 为用 户 在 互 联 网上 进 行 信 息搜 索 的工 具 , 它借 助 于 网络爬 虫 在互 联 网上 搜 集 网页文 立索 引 , 为用 户提供 信 息检 索服 务 。
所有信息, 从 而 信 息 更 新 的 时效 性 差 , 导致 了通 用搜 1 u c e n e . s e a r c h的语法 解 析器 存在 ,不 被 系统 之外 实 际 索 引擎 的搜 索 结果 多而 杂 的情 况 , 不 能满 足 特定 用户 调 用 , 因此 这 里 没 有 当 作对 外 接 口看 待 , 而 是 将之 独
目前 国 内外 已有 很 多研 究者 对 面 向主题 搜 索 引擎 的 二、 L u c e n e介绍及 结构 2 . 1 L u c e n e介绍
一
…
…
秉 麓
器
一
种基 于 L u c e n e的面 向主题爬行搜 索引擎 的术 学院 浙 江 宁波 3 1 5 0 1 2 )
【 摘 要】 : 本文简要介绍 了主题搜索的基本概念以及 L u c e n e 的基本结构。 研 究了面向主题搜 索引 擎的实现和优化 , 提 出了J E中文分词 实现方法, 主题索引 系统的构建 , 完成 了一个高性 能的主题搜 索
档信息, 然 后 进 行 网页 和文 档 信 息 的提取 、 处 理 和建 结构 封装 、 索 引核 心 、 对 外接 口三 大部 分组成 。 其 中直 随着 网络 信 息 的存 在 形 式 多元 化 趋 势 和 用 户对 将 所有 源 码 分 为 了 7个 模 块 f 在J a v a语 言 中 以包 即
搜 索 结 果 的精 确 化 、 深 入 化 的要 求 , 现 阶 段 的搜 索 引 p a c k a g e 来表 示) , 各个 模块划 分 如 图 1 所示 。 需要 说 明 擎 一 通 用搜 索 引擎 由于 其搜 索 范 围为 整 个 互 联 网 的 的是 o r g . a p a c h e . 1 u c e n e . q u e r y P a s e r 是做 为 o r g . a p a c h e .
索 引擎来 帮助 自己在 网络 中检索 想要 的信 息 。 但 是近 时 更新 , 能 够 跟上 互 联 网上 信 息 的变 化 , 从而 保 证 搜
年来 , 人 们对 于 图 片 、 视 频 以及特 定 领 域 的 信 息等 资 索结 果更 加准确 、 具 体和深 入 。由于这些 优势 , 面 向主 源 的搜 索 需求 , 增长 索 引 擎 的其 中一 个 发 展 趋
对 搜 索结 果 的要求 。
立 出来 。
浙江工商职业技 术学院科研基金 项 目: 一种基 于 L u c e n e的面向主题爬行搜 索引擎的研究
・
2 4 ・ 福建 电脑 l 2 o 1 3 年 第5 期
L u c e n e是 a p a c h e 软 件 基金 会 i a k a r t a 项 目组 的一
涉 及 多个 领 域 、 纷繁 复 杂 。很 多时 候还 需 要用 户在 返 相关技 术做 了大 量 的研究 。
回 的结 果页 面 中不停 的翻页 , 甚 至 还要 不 断变 换 关键 词重 新搜 索 , 才 能查 询 到 自己想 要 的信 息 。这给 用户 搜 索信 息 带来 了极 大 的不便 。
本文 在 基 于 L u c e n e的基础 上对 搜 索 引擎 中的 中 个 子项 目,是 一 个 开放 源 代 码 的 全 文检 索 引擎 工 具
文分 词 技术 和 索 引技术 做 了简 要 的介 绍 与研 究 , 并提 包 , 它 不 是 一 个 完 整 的全 文 检 索 引擎 , 而 是 一个 使 用
引擎 系统 。
【 关键词 】 : L u c e n e ; 面向主题 ; 中文分词 ; 索引
在 当今 的社会 , 通 过 互联 网获 取信 息 已逐渐 成 为
面 向主 题搜 索 引擎 是 针 对 特 定 领 域 用 户 的特 定
人们 日常 获 取信 息 的途 径之 一 。与 此 同 时, 互 联 网 的 需求 而 产 生 的 , 因此 , 面 向主 题 搜 索 引 擎专 注 于 获 取 信 息量 也 与 日俱 增 , 网上 获 取 信 息 的难 度 也 随之 增 针 对特 定领 域 的信 息 并且提 供 相 应信 息 的检 索服 务 。
加 。搜索 引 擎 的 出现 , 为人们 提 供 了获 取信 息 的新 途 相 比较 通 用搜 索 引擎来 说 , 面 向主题 搜 索 引擎搜 集 的 径, 通 常情 况 下 , 人们 习惯 用 G o o g l e和 百 度 等通 用 搜 信 息是与特定主题相关 的, 信息量较少 , 信 息能够及
出了一 种新 的 中文 分词 方 法 , 构建 了一个 面 向主 题 的 i a v a 语 言编 写 的全 文检 索 引擎 的架构 , 主要 提 供 了查 搜索 引擎 。
一
询 引擎 、 索 引引擎 、 存储 管理和 文本 分析 接 口。它 可 以 嵌入 到各 种应 用 中来实 现针 对应用 的全 文搜 索功 能 。
2 . 2 L u c e n e 组 织结 构 从 图 1中我们 清 楚 的看 到 , L u e e n e的系统 由基 础 接操 作索 引文件 的索 引核心 又是 系统 的重 点。L u c e n e
、
面 向主题 搜索 简介
搜 索 引擎 是 一种 为用 户 在 互 联 网上 进 行 信 息搜 索 的工 具 , 它借 助 于 网络爬 虫 在互 联 网上 搜 集 网页文 立索 引 , 为用 户提供 信 息检 索服 务 。
所有信息, 从 而 信 息 更 新 的 时效 性 差 , 导致 了通 用搜 1 u c e n e . s e a r c h的语法 解 析器 存在 ,不 被 系统 之外 实 际 索 引擎 的搜 索 结果 多而 杂 的情 况 , 不 能满 足 特定 用户 调 用 , 因此 这 里 没 有 当 作对 外 接 口看 待 , 而 是 将之 独