面向招聘信息主题搜索引擎的研究与设计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
模块 中首先 提供关 键词表 和 网站集 合 ,
由主题爬 虫 根 据初 始 种 子 站点 获 取 信 息, 然后再交 由主题过滤模块进行过滤 。
( ) 始 种 子 URL的 选 取 与 设 定 二 初
p b i tt v i r v l o d a l u l sai o d T a eW r T b e c c
=
ll 哇 穗 蠡 }
。
1 _ _
下码 :
p bi s t od m i (tn [ rs u l t i vi an S g 】ag) c ac i r
t o r eEx e to hr wsPas r c pi n
主题爬虫 的 目标 是完成主题 信息的 收集 ,其设计是 在通用搜索 引擎 上的爬
虫进行功能扩充 的。主题信息抓 取流程 设 计如图 4所示 。
析 We b页面的纯 Jv aa开源类库 , 主要用
于分析 H ML格式 的 We T b页面 , 完成 内
=u ) nl 1
{
S r g r = ” t :ww b i u ti u l n h t / w. ad . p/ c r/? o s n l 0 i &r = 0 e g 2 1 &c= &wd ” m= &s = n 1 &i= b 3 2 tO -
{ t{ r y
图 3 主 题 爬 虫 的 工 作 流 程
Tae rT be ( 关 键 rvl d al ” Wo 词 表 ”; )
} a h E cpi ) ct ( xet ne c o {
主题爬虫 的工作流程是 ,首先从初
始种 子站点 中开 始进 行信息 的采 集 , 对
二、系统功能分析 ( )系统 功能需求分析 一
率 。其三 , 为用户提供 友好 的交互 界面 , 操 作简单方便 。
三 、招聘信 息主题 搜索 引擎 的 系统 总体设计
主题爬 虫在 网络上搜集 网络资 源是
有针对性 , 在对信息进行 采集完成后 , 经 过分析 、 提取等处理 后 , 给索引模块进 交 行索引 ,最 后用户可 以通过 检索模块进 行相关 的查 询检索 ,这是 主题 搜索 引擎 的整个 工作 流程 , 在这一过程 中 , 主题爬
面 向 招聘 信 息 主题
搜 索引擎的研 究与设计
口 广西工商职业技术 学院 付 光
【 摘 要 】根 据特定的主题 用户的应 用需求 , 深入研究主题 搜索引擎的组 织与 结构 , 并结合 实际情况 , 对主题信 息收集模 块进行设计。
要找工作 的信息检索用 户提供面 向招聘 信息 、 岗位需求等 方面 的检索 功能 , 与百 度和谷 歌的区别在于能 够快速 的返 回给 检索用户更精确 的信息 。
”
一
t{ r y
Sti rngb fe uf r; Fie rt rr s lFie= n l lW ie e u t l ul; Prnt rtrmy l = n l; i W i Fi e e ul
Sr g d tl = tn s e i i f
i n me fe a + l
择使用混合模 式 ,即人工指定 与 自动生 成相结合 。首先 工的筛选 , 过滤等 , 提取一定 的链接
是 否与主题相关 ,只考 虑尽可能 多的下
地址 , 通过对地址 的分析 , 以得 到这些 可
地址 的上级 目录或者 网站然后 再加入知 名 的招聘 网站 。
【 文献编码】 o 1. 6/in 40 di0 99 . . 5一 : 3 js 0 s
9 8 ( .0 1 6 5 8 9 C) 1. . 1 2 00
要在通用搜索引擎的基础上,针对某一
个领域 的主题资源进行处 理 ,主要 的用
户功能需求如 图 1 所示 。
索引数据库中检索得到相应的结果 , 并
信息 ,主题搜 索引擎成 为 了未来 搜索引 擎发展的趋势 。目前 , 每年都有几百万的 高校应届毕业生毕业 ,教育部公 布 2 1 00
年全 国高 校应届毕业 生人数 达到 6 0万 3
招 聘信 息 主题 搜 索 系 统 的设计 目 标: 其一 , 系统的为 了符合 主题用户 的 本 实际需要 ,为用 户收集各类 招聘信息 及 各类 岗位信 息 ,其 中包括用 户最关心 的
行 次序 。
元 搜 索 策 略 的 实 现 主 要 通 过
HT L asr M Pre 来完成 。H ML asr 一款 T Pr 是 e 功能 强大的 H ML解析器 , T 处理速 度快 ,
是 目前 比较 流 行 的 解 析 器 。 它 是 一 个 解
(eu Fl) rsh i ; e
虫将影 响整个 主题搜索 引擎 的性能 。主
主题搜索引擎 与通用搜 索引擎 的工 作原理基本相 同 , 因此 , 本系 统的设计 就 是 以通用搜索 引擎为基本架 构 ,在 网络
面向招聘信 息 的主题 搜索可 以为需
上 通过信息抓取模 块将与招聘 信息相关
题爬虫 的工作流程如 图 3 所示 。
r s h i = e F l Wrtr eu Fl n w e i e i e
2 决定 主题爬虫 的搜 索策略 。主题 .
爬 虫在 访 问 U L的过 程 中与 通用 搜 索 R 引擎 的爬虫不 同,通用搜 索引擎 的爬 虫
对 于 U L的 访 问 不 需 考 虑 爬 取 的 页 面 R
将结果 返 回给用户 。系统 的总体结 构如
图2 。 示
从 20 0 9年开 始 , 索引擎进 入新一 搜
轮的快速发展 时期 。0 0年上 半年 , 21 一方
面 ,搜索 引擎 用户规模 和渗透率 持续增
长; 另一方面 , 用户使用 搜索 引擎 的频率
增加 ,生 活中各种信息 的获取更 多地诉
求于互联 网和搜索引擎 。搜索 引擎界掀
l
图 1 系统 功能需求
( ) 计 目标 二 设
E 兰 蛩 竺 竺
图 2 系统 总体 结构
起 了一场 看不见 的硝 烟的战争 ,人们希
望搜索 引擎 能够更加精 确的返 回所需的
根据 系统的总体设计 结构 ,系统 在
设定 的一定 时间间隔 内定期 在 网络上抓
Bu e e Re d r ra e = f rd a e e d r n w e
B f rd edrnwFl edrfea e ; u ee R a e(e iR ae(lnm ) e i w i (b fr edred ie )! hl (u e :rae. aLn ( ) e r
( re l) wi fe ; t i
载页面 , 从而完成对海量信息 的收集 。 主
题 爬 虫 爬 取 的 目标 是 有 针 对 性 的 ,在 访
m y ie F l
=
n w e
P i t rtr rnW ie
问 U L收集 信息 的过程 中 , 要考虑 待 R 需 爬 行的页面 与主题 的相关度 ,并 根据与 主题 的相 关 程度 来决 定爬 行 U L的爬 R
dtr. t . su1xI t f
F l w tf e = n w F l i e re l i i e i e
( si ) dtl ; te
i !r e l. i s ) f w i f e xs ( ) ( t i e t { w i fec a N w i ( : r e l. e t e Fl ) t i r e e }
本系统的设计是在 N th uc 上进行二次 开发与设计 的。N th uc 是一个完整的 Jv aa 应用系统 , 是基于 L cn uee的完整的搜索引 擎 。N t u h开放源码 , c 方便程序员通过对源 码 的修改 ,对 N t uc h进行重新发布 ,通过 T mct We o a等 b服务器可以进行检索 。
式 返 回给 用 户 。 四 、 题 信 息 抓 取 模 块 的设 计 主
( ) 题 信 息抓 取 的 设 计 目标 及 流 一 主
程
人 。应届生毕业 生都希 望能够搜集 许多 的招聘信 息以便尽快地 找到合适 自己的 工作 岗位 , 为此 , 开发一个 面 向招聘 信息 的主题搜索引擎是非 常有 意义的。
公 司名 称 、 作地 点 、 工 薪金 待遇 、 系 方 联
取 网页中的有效信息 ;对 抓取得到 的网 页信息进行 分词处理 , 建立索引 , 存人 索 引数据库 ;系统在接收用 户的查询请求 后, 对查询语句进行 分词处理 , 与索 引数 据库 中的索引数据进行 匹配 ,将得 到的 匹配信 息提取排序后 ,以结果页面 的形
一
式等 。 二 , 其 系统 的开发是 面向招 聘信息 这一特定 的主题 ,相对于通 用搜索 引擎
返 回的结果 更精 确 、 更集 中 、 快速 , 更 引 入 中文分词技术 , 设计 一个 中文 分词器 , 提 高 N th原 有 的分 词 器 的分 词 准 确 uc
、
Nuc th简 介
获取 的 网页 的页面进行 分析 和处 理 , 提
取其 中的 U L R ,判 断获取的 网页 的页 面 及 U L与主题 的相 关度 , R 如果 满足某一 个停止 的条 件则停止采集 任务 ,如果没
图 4 主 题 信 息 抓 取 设 计 流 程 图
epitt k rc( ; . nSa Tae ) r c
}
本系统要设计 和实 现的是一个 面向 招聘信息 的主题搜 索引擎 ,在信息 抓取
l 从 关键词 文件 中读取 主题 关键 / / 字, 进行元搜 索
有满足则继 续根据某种搜索 策略选择优
先级高 的 U L继续进行信息 的采集 。主 R 题爬虫 的任 务就是尽可能 多的采集与 主 题相关度 的页面 ,以此来保证 系统对 主
主题蜘蛛 出发进行 主题信息 的收集 时一般是按 照给定 的初始种子 的站点作 为入 口地址 ,初 始种子站点 的选择 将直 接影 响信息采 集的结果 。在对种子 站点 进行选取 时 ,尽量选择主题范 围内具有 较高权威性 的网站 ,确保主题爬 虫从这 些站点集合 出发能收集到与旅游 主题相 关度高的主题资源 。 本搜 索 引擎 的初 始种 子 U L的选 R
容的提取 。 使用 H ML asr T P re进行链 接抽 取非 常有效 ,能够快速 的提取 网页 中的
链 接地址。
( 上接 第 12页) 2
营销体验 、成 功的
评 成 绩 =实训 工 作 态 度 +营销 实 训 表
方式和对学 生的实训考核 方式 。同时应 建立稳定 的实训基地 ,把 高职院校 的专
(tn l a )ho sO xet n S g e me t w E cpi i i r fn r I o
f
题 的覆盖率 , 因此 , 主题爬 虫的设计主要
从 以下两个方 面进行考虑 : 1下载 与主题相关 的网页 。对于 主 . 题搜索 引擎来说 ,在用户 向系统提交查 询请求后 ,返 回给用户 的信息应尽量 的 满 足用户的需求 ,而不是 返 回大量 的无 用信息 。因此 , 主题爬虫 的任务不 是去尽 可 能多的收集互联 网上 的信息 ,而是尽 可 能的下载 与主题相关 的网页。
经验或失败 的教训带入课 堂 ,使 营销理
的内容进行收集 ,信 息提取模块将 收集 到 的信 息进行 内容 的提取 并交给 中文分 词模块 进行分词后存储 ,由索 引模 块进 行 索引后保存在索引数 据库 中,用索 搜 索 引擎 c
要实现一个 专题 的搜 索引擎 ,只需
以通过 向检 索模块 提交查 询请 求后 , 在