面向教育主题的垂直搜索引擎的设计与实现
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
图1 面 向教育主题垂直搜索引擎总体结构设计图
1 . 1 教育主题信息采集与主题识别模块 在信息采集模块中 ,运用 面向教育主题 的网络蜘蛛对教育主题相关信息进行抓取 ,这是搜索引擎 的第
个 步 骤 。从 某一 个 具有 主题 意义 的种 子 U R L 开始 ,按 照深 度 优先 算 法 ,采 用 多 线程 并 行抓 取 方 式 自动 在 互联 网上搜索爬行 。遍历教育领域的门户网站 ,抓取与教育主题相关 的网页 ,采集网页信息 ,抽取并压缩
1 垂 直 搜索 引擎 的体 系结构 设计
面向教育主题的垂直搜索引擎系统主要包含信息采集模块与主题识别模块 、信息抽取与索引模块 、用 户接 口与信息检索模块三部分 ,总体结构设计如图1 所示 。
【 收 稿 日期 】 2 0 1 3 - 0 1 - 0 8 f 基金项 目】 吉林省科技发展计划项 目( 2 0 1 0 0 7 0 9 ) 。
第3 2 卷第 2期
V0 l - 3 2 No . 2
长春师 范学 院学报 ( 自然科学 版 )
J o u na r l o f C h a n g c h u n N o r m a l U n i v e r s i t y ( N a t u r a l S c i e n c e )
随着互联网技术的快速发展和网络信息量 的爆炸式增长,如何快速 、有效 、准确地从海量信息中获取 所需的有价值的信息 ,越来越受到人们的关注。通用搜索引擎在信息采集、存储等方面都面临着很大的挑 战。通用搜索引擎试图返回面向所有用户的查询结果 ,使得其搜索到的信息量过大、查准率低 、深度不够 , 不能满足针对某一特定领域精确搜索 的要求。在这样的背景下 ,垂直搜索引擎应运而生。它是一种与通用
2 0 1 3年 4月
Ap r . 2 01 3
面 向教育 主题 的垂直搜索 引擎 的设计 与实现
王树文 , 郑阔 实 , 陈竞博 。
( 1 . 吉林省计算 中心,吉林长春 1 3 0 0 1 2 ;2 . 中共吉林省委党校( 吉林省行政学 院) ,吉林长春 1 3 0 0 1 2 ; 3 . 吉林大 学计算 机科 学 与技术 学 院 ,吉林 长春 1 3 0 0 1 2 )
色教育信息 ,比如数字图书搜索 、教育视频搜索 、考试信息搜索、名师介绍搜索等 。本文设计 的面向教育 领域的垂直搜索引擎系统在通用搜索引擎 的技术基础上 ,采用了面向教育主题网络蜘蛛选择性 的收集仅包 含 教育 主题 相关 信 息 的网页 ,建 立面 向教 育 主题 的 网页数据 库 ,并 把 网页 中非结 构 化信 息 提取 、转 化 为 结
一
网页内容存人原始数据库 中,然后跳转到 网页中链接指 向的其他网页 ,直至遍历整个 网络。 在 此 过程 中 ,运 用 主题识 别 算法 对 网络 蜘 蛛所 采集 的页 面进 行 主题 相关 性 判 断 ,根 据计 算 得 到 的相 关 度 结果 ,对 采集 到 的网 页进 行取 舍 ,将相 关 度 大 于预 先 设定 的 阈值 的 网页保 存 到 面 向主题 网页 数 据库 中 ,
节 。实验结果表明 ,该 系统能够快速地响应用户 的查询请求 ,并且返 回结果具有较高 的准确性 。实
现 了教育资源的共 享 ,具有较高的应 用价值 。
[ 关键词】 垂直搜索引擎 ;主题 网络蜘蛛 ;主题相关度
【 中图分类号】 T GI 5 6 【 文献标识码】 A 【 文章编号】 1 0 0 8 0 4 0 — 0 5
[ 作者简介】 王树文 ( 1 9 6 8 -) ,女 ,辽 宁大连人 ,吉林省计算 中心高级 工程师 ,从事计算机应 用研 究。
・
4 0・
f - — ‘ - — - ‘ _ ‘ 。 ’ ‘ 。 。 ’ ‘ 。 。 。 。 。 _ ’ ‘ - — —  ̄
— — I : ! 兰 l
搜 索 引擎截 然不 同的搜 索模 式 ,是专 门针对某 一 领域 的专业 搜 索 引擎 。其 特 点就 是 专 、精 、深 ,具 有 行业 色 彩 ,是通用 搜 索引擎 的细 分和延 伸f 1 】 。
在教育资源数字化 、网络化的趋势下 ,互联网上产生了大量分布广泛、不同格式的教育资源 ,专 门针 对教育领域 的数字化教育资源搜索成为垂直搜索引擎的重要应用之一 , 其可 以为人们提供大量有价值的绿
舍 弃 与主 题不 相关 的 网页 。这垂 直搜 索 引 擎 的核 心部 分 ,可 以控 制 信息 采集 的规模 ,保 证采 集 到 的信 息 的
专业性 ,提高搜索的准确性。 1 . 2 信息抽取与索引模块 信息抽取与索引模块对存储于面向主题数据库 中的大量结构和非结构化 的数据进行抽取 ,将 网页主题 块 中特定的结构化信息抽取出来 。并进行过滤 、分词等预处理操作 ,构造索引,计算词的权值按检索结果 合 理排 序 ,并存 人 索引数 据 库 中 。
构化数据 ,建立索引数据库 。最后以检索 的方式同用户进行信息交互 ,为用户提供面向教育主题的垂直搜 索服务 。 通用搜索引擎系统主要 由采集器 、索引器、检索器 、相关数据库及用户接 口等部分组成[ 2 1 ,而本文设计 的面 向教 育 主题 的垂直 搜索 引擎 为 了实 现查询 结果 与教 育 主题 相关 ,还 需要 增 加 面 向主题 的特 征 词数 据 库 及主题相关性计算器 ,用于判断爬取的网页信息是否与主题相关。
【 摘 要】 由于通用搜索引擎具有搜索信息量 大 、查询不准确 、深度不够等缺点 ,本文在通用搜索引 擎技术 的基础上 ,依据专业领域搜索策略 ,设计并实现 了一个 面向教 育主题 的垂直搜索引擎系统 , 着重研究 了专业网络蜘蛛定制 、基于V S M的主题相 关度算法 和倒排索 引建立等关键技术及其实现细