面向招聘信息主题搜索引擎的研究与设计

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

模块中首先提供关键词表和网站集合，
由主题爬虫根据初始种子站点获取信息，然后再交由主题过滤模块进行过滤。
（）始种子ＵＲＬ的选取与设定二初
ｐｂｉｔｔｖｉｒｖｌｏｄａｌｕｌｓａｉｏｄＴａｅＷｒＴｂｅｃｃ
＝
ｌｌ哇穗蠡｝
。
１＿＿
下码：
ｐｂｉｓｔｏｄｍｉ（ｔｎ［ｒｓｕｌｔｉｖｉａｎＳｇ】ａｇ）ｃａｃｉｒ
ｔｏｒｅＥｘｅｔｏｈｒｗｓＰａｓｒｃｐｉｎ
主题爬虫的目标是完成主题信息的收集，其设计是在通用搜索引擎上的爬
虫进行功能扩充的。主题信息抓取流程设计如图４所示。
析Ｗｅｂ页面的纯Ｊｖａａ开源类库，主要用
于分析ＨＭＬ格式的ＷｅＴｂ页面，完成内
＝ｕ）ｎｌ１
｛
Ｓｒｇｒ＝ ” ｔ：ｗｗｂｉｕｔｉｕｌｎｈｔ／ｗ．ａｄ．ｐ／ｃｒ／？ｏｓｎｌ０ｉ＆ｒ＝０ｅｇ２１＆ｃ＝＆ｗｄ ” ｍ＝＆ｓ＝ｎ１＆ｉ＝ｂ３２ｔＯ－
｛ｔ｛ｒｙ
图３主题爬虫的工作流程
ＴａｅｒＴｂｅ（关键ｒｖｌｄａｌ ” Ｗｏ词表 ”；）
｝ａｈＥｃｐｉ）ｃｔ（ｘｅｔｎｅｃｏ｛
主题爬虫的工作流程是，首先从初
始种子站点中开始进行信息的采集，对
二、系统功能分析（）系统功能需求分析一
率。其三，为用户提供友好的交互界面，操作简单方便。
三、招聘信息主题搜索引擎的系统总体设计
主题爬虫在网络上搜集网络资源是
有针对性，在对信息进行采集完成后，经过分析、提取等处理后，给索引模块进交行索引，最后用户可以通过检索模块进行相关的查询检索，这是主题搜索引擎的整个工作流程，在这一过程中，主题爬
面向招聘信息主题
搜索引擎的研究与设计
口广西工商职业技术学院付光
【摘要】根据特定的主题用户的应用需求，深入研究主题搜索引擎的组织与结构，并结合实际情况，对主题信息收集模块进行设计。
要找工作的信息检索用户提供面向招聘信息、岗位需求等方面的检索功能，与百度和谷歌的区别在于能够快速的返回给检索用户更精确的信息。
”
一
ｔ｛ｒｙ
Ｓｔｉｒｎｇｂｆｅｕｆｒ；ＦｉｅｒｔｒｒｓｌＦｉｅ＝ｎｌｌＷｉｅｅｕｔｌｕｌ；Ｐｒｎｔｒｔｒｍｙｌ＝ｎｌ；ｉＷｉＦｉｅｅｕｌ
Ｓｒｇｄｔｌ＝ｔｎｓｅｉｉｆ
ｉｎｍｅｆｅａ＋ｌ
择使用混合模式，即人工指定与自动生成相结合。首先工的筛选，过滤等，提取一定的链接
是否与主题相关，只考虑尽可能多的下
地址，通过对地址的分析，以得到这些可
地址的上级目录或者网站然后再加入知名的招聘网站。
【文献编码】ｏ１．６／ｉｎ４０ｄｉ０９９．．５一：３ｊｓ０ｓ
９８（．０１６５８９Ｃ）１．．１２００
要在通用搜索引擎的基础上，针对某一
个领域的主题资源进行处理，主要的用
户功能需求如图１所示。
索引数据库中检索得到相应的结果，并
信息，主题搜索引擎成为了未来搜索引擎发展的趋势。目前，每年都有几百万的高校应届毕业生毕业，教育部公布２１００
年全国高校应届毕业生人数达到６０万３
招聘信息主题搜索系统的设计目标：其一，系统的为了符合主题用户的本实际需要，为用户收集各类招聘信息及各类岗位信息，其中包括用户最关心的
行次序。
元搜索策略的实现主要通过
ＨＴＬａｓｒＭＰｒｅ来完成。ＨＭＬａｓｒ一款ＴＰｒ是ｅ功能强大的ＨＭＬ解析器，Ｔ处理速度快，
是目前比较流行的解析器。它是一个解
（ｅｕＦｌ）ｒｓｈｉ；ｅ
虫将影响整个主题搜索引擎的性能。主
主题搜索引擎与通用搜索引擎的工作原理基本相同，因此，本系统的设计就是以通用搜索引擎为基本架构，在网络
面向招聘信息的主题搜索可以为需
上通过信息抓取模块将与招聘信息相关
题爬虫的工作流程如图３所示。
ｒｓｈｉ＝ｅＦｌＷｒｔｒｅｕＦｌｎｗｅｉｅｉｅ
２决定主题爬虫的搜索策略。主题．
爬虫在访问ＵＬ的过程中与通用搜索Ｒ引擎的爬虫不同，通用搜索引擎的爬虫
对于ＵＬ的访问不需考虑爬取的页面Ｒ
将结果返回给用户。系统的总体结构如
图２。示
从２００９年开始，索引擎进入新一搜
轮的快速发展时期。００年上半年，２１一方
面，搜索引擎用户规模和渗透率持续增
长；另一方面，用户使用搜索引擎的频率
增加，生活中各种信息的获取更多地诉
求于互联网和搜索引擎。搜索引擎界掀
ｌ
图１系统功能需求
（）计目标二设
Ｅ兰蛩竺竺
图２系统总体结构
起了一场看不见的硝烟的战争，人们希
望搜索引擎能够更加精确的返回所需的
根据系统的总体设计结构，系统在
设定的一定时间间隔内定期在网络上抓
ＢｕｅｅＲｅｄｒｒａｅ＝ｆｒｄａｅｅｄｒｎｗｅ
ＢｆｒｄｅｄｒｎｗＦｌｅｄｒｆｅａｅ；ｕｅｅＲａｅ（ｅｉＲａｅ（ｌｎｍ）ｅｉｗｉ（ｂｆｒｅｄｒｅｄｉｅ）！ｈｌ（ｕｅ：ｒａｅ．ａＬｎ（）ｅｒ
（ｒｅｌ）ｗｉｆｅ；ｔｉ
载页面，从而完成对海量信息的收集。主
题爬虫爬取的目标是有针对性的，在访
ｍｙｉｅＦｌ
＝
ｎｗｅ
ＰｉｔｒｔｒｒｎＷｉｅ
问ＵＬ收集信息的过程中，要考虑待Ｒ需爬行的页面与主题的相关度，并根据与主题的相关程度来决定爬行ＵＬ的爬Ｒ
ｄｔｒ．ｔ．ｓｕ１ｘＩｔｆ
Ｆｌｗｔｆｅ＝ｎｗＦｌｉｅｒｅｌｉｉｅｉｅ
（ｓｉ）ｄｔｌ；ｔｅ
ｉ！ｒｅｌ．ｉｓ）ｆｗｉｆｅｘｓ（）（ｔｉｅｔ｛ｗｉｆｅｃａＮｗｉ（：ｒｅｌ．ｅｔｅＦｌ）ｔｉｒｅｅ｝
本系统的设计是在Ｎｔｈｕｃ上进行二次开发与设计的。Ｎｔｈｕｃ是一个完整的Ｊｖａａ应用系统，是基于Ｌｃｎｕｅｅ的完整的搜索引擎。Ｎｔｕｈ开放源码，ｃ方便程序员通过对源码的修改，对Ｎｔｕｃｈ进行重新发布，通过ＴｍｃｔＷｅｏａ等ｂ服务器可以进行检索。
式返回给用户。四、题信息抓取模块的设计主
（）题信息抓取的设计目标及流一主
程
人。应届生毕业生都希望能够搜集许多的招聘信息以便尽快地找到合适自己的工作岗位，为此，开发一个面向招聘信息的主题搜索引擎是非常有意义的。
公司名称、作地点、工薪金待遇、系方联
取网页中的有效信息；对抓取得到的网页信息进行分词处理，建立索引，存人索引数据库；系统在接收用户的查询请求后，对查询语句进行分词处理，与索引数据库中的索引数据进行匹配，将得到的匹配信息提取排序后，以结果页面的形
一
式等。二，其系统的开发是面向招聘信息这一特定的主题，相对于通用搜索引擎
返回的结果更精确、更集中、快速，更引入中文分词技术，设计一个中文分词器，提高Ｎｔｈ原有的分词器的分词准确ｕｃ
、
Ｎｕｃｔｈ简介
获取的网页的页面进行分析和处理，提
取其中的ＵＬＲ，判断获取的网页的页面及ＵＬ与主题的相关度，Ｒ如果满足某一个停止的条件则停止采集任务，如果没
图４主题信息抓取设计流程图
ｅｐｉｔｔｋｒｃ（；．ｎＳａＴａｅ）ｒｃ
｝
本系统要设计和实现的是一个面向招聘信息的主题搜索引擎，在信息抓取
ｌ从关键词文件中读取主题关键／／字，进行元搜索
有满足则继续根据某种搜索策略选择优
先级高的ＵＬ继续进行信息的采集。主Ｒ题爬虫的任务就是尽可能多的采集与主题相关度的页面，以此来保证系统对主
主题蜘蛛出发进行主题信息的收集时一般是按照给定的初始种子的站点作为入口地址，初始种子站点的选择将直接影响信息采集的结果。在对种子站点进行选取时，尽量选择主题范围内具有较高权威性的网站，确保主题爬虫从这些站点集合出发能收集到与旅游主题相关度高的主题资源。本搜索引擎的初始种子ＵＬ的选Ｒ
容的提取。使用ＨＭＬａｓｒＴＰｒｅ进行链接抽取非常有效，能够快速的提取网页中的
链接地址。
（上接第１２页）２
营销体验、成功的
评成绩＝实训工作态度＋营销实训表
方式和对学生的实训考核方式。同时应建立稳定的实训基地，把高职院校的专
（ｔｎｌａ）ｈｏｓＯｘｅｔｎＳｇｅｍｅｔｗＥｃｐｉｉｉｒｆｎｒＩｏ
ｆ
题的覆盖率，因此，主题爬虫的设计主要
从以下两个方面进行考虑：１下载与主题相关的网页。对于主．题搜索引擎来说，在用户向系统提交查询请求后，返回给用户的信息应尽量的满足用户的需求，而不是返回大量的无用信息。因此，主题爬虫的任务不是去尽可能多的收集互联网上的信息，而是尽可能的下载与主题相关的网页。
经验或失败的教训带入课堂，使营销理
的内容进行收集，信息提取模块将收集到的信息进行内容的提取并交给中文分词模块进行分词后存储，由索引模块进行索引后保存在索引数据库中，用索搜索引擎ｃ
要实现一个专题的搜索引擎，只需
以通过向检索模块提交查询请求后，在