面向主题的快速搜索引擎的设计与研究

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

配每个ＵＬ一个相关性消息值ｑ并给每个ＵＬＲ，Ｒ
网页抓取、网页预处理、网页分类和网页选择，相等的相关度值，到后面将要计算到的值较大，初定、始页面会人为地根据主题进行筛选，主题的紧如图２所示。与
第２第３期０卷２１年６月０１
淮
阴
工
学
院学Biblioteka 报Ｖ０，ｌ２０Ｎｏ．３
ＪｕｎｌｏａｙｎＩｓｉｔｆＴｃｎｌｇｏｒａｆＨｕｉｉｎｔｕｅｏｅｈｏｏｙｔ
Ｊｎ２１ｕ．０１
面向主题的快速搜索引擎的设计与研究
Ａｂｔａｔｈｓｐｐｒｍａｅｎａａｙｉａｄｃｍｐｒｓｎｏｅｔｃｎｑｅｆｔｅｐｅｅｔｐｐｌｒｓａｃｎｉｅｓｒｃ：Ｔｉａｅｋｓａｎｌｓｓｎｏａｉｏｆｔｅｈｉｕｓｏｒｓｎｏｕａｅｒｈｅｇｎｈｈ
进行比较，其结果分为三种情况： ①相关度值大于相关度阈值，父网页的相且关性消息ｑ值等于初始值，则直接传递父网页的ｑ
值给子网页。
主题爬虫算法
＜识结描＞＼别果述／＼
／
＼
② 相关度值大于相关度阈值，父网页的相且关性消息ｑ值小于初始值，恢复ｑ值为初始值，则
ａｃｒｃａｉｒｉｈｒｔａｈｔｏｅｏｄｎｒｅｒｈｅｇｎ，ｗｈｃａｅｆｒｅｘｅｄｄｔｌｋｎｓｏｃｕａｙｒｔａｅｈｇｅｈｎｔａｆｈｒｉａｙｓａｃｎｉｅｏｔｉｈｃｎｂｕｔｒｅｔｎｅｏａｌｉｄｆｈｏｅａｄｃｍｍｅｃａｂｉｓｗｔｏｅｅｅｃａｕ．ｍｃｎｏｒｉｗｅｓｔｉｓｍｅｒｆｒｎｅｖｅｌｅｈｌ
ｓａｃｎｉｏｓｔｓｙｔｅｎｓｏｉｆｒｎｓｒｔｉｆｒｎｐｅｉｌｙａｄｈｂｅ．Ｔｈｓｓａｃｎｉｅｅｒｈｅｇｎｅｔａｉｆｈｅｄｍａｄｆｄｆｅｅｔｕｅｓｗｉｄｆｅｅｔｓｃａｔｎｏｂｉｓｈｉｅｒｈｅｇｎｈａｈｈｒｃｅｓｉｓｏｉｈｅｆｃｅｃｓｔｅｃａａｔｒｔｃｆｈｇｆｉｉｎｙ，ｐａｔｃｂｌｙａｄｌｗｏｔｗｈｉｈｃｎｍａｅｒｈａｄｔｓｆａｌｔｉｒｃｉａｉｉｎｏｃｓｔｃａｋｅｓａｃｎｅｔｏｌｈｅｄｏｓｉｌｍｅｔｃｗｅｌ—ｋｏｂｉｅｎｗｎｗｅｓｔｓ，ａｄｔｅｅｐｅｍｅａａｉｄｃｔｓｔａｈｉｅｒｈｅｇｎｅｄｔｅａｌａｄｔｎｈｘｒｎｔｄｔｎｉａｅｈｔｔｓｓａｃｎｉ￣ａａｒｃｎｈｅｉｌ
势之一。
收稿日期：０１００２１ — ４— ８作者简介：张安妮（９９一）女，１７，山东东营人，硕士，工程师，主要从事电子政务、数据挖掘研究。
（）２对网页或数据的分析与过滤；（）ＵＬ的搜索策略。３对Ｒ
第３期
被放进完成队列。
图１主题爬虫搜索框架
面向主题爬虫搜索框架见图１具体算法如，
下：
（）将初始页面ＵＬ集合放进等待队列，１Ｒ分
２搜索引擎模型设计
该搜索引擎模型设计分为五个模块：主题确
规则进行排序，等候爬虫的抓取。
抓取队列：ＲＵＬ在抓取时被放进抓取队列，目的是防止ＵＬ被同时多次抓取。Ｒ
错误队列：抓取过程中出错的ＵＬ被保存在Ｒ
到错误队列。
完成队列：一个ＵＬ被爬虫完全抓取之后，Ｒ就
必须核查链接和文档，以防网页被重复抓取。
评价主题网络爬虫系统的指标主要有两个：爬准率（ｒｃｓｎ和爬全率（ｅａ）Ｐｅｉｏ）ｉＲｃｌ。１
爬准率：ｒｃｓｎ＝采集的目标网页数／爬Ｐｅｉｏｉ总
技术和Ｗｅ信息的迅速发展，ｂ从上世纪９Ｏ年代初网络爬虫是一个功能强大的自动提取网页程开始逐渐发展起来的。一般地，索引擎是指根序，搜通过请求站点上的ＨＭＬ文档访问某一站点，Ｔ据一定的策略、用特定的计算机程序搜集互联遍历Ｗｅ间，一个站点移动到另一个站点，运ｂ空从自网上的信息，在对信息进行组织和处理后，为用户动建立索引，加入到网页数据库中。网络爬虫并提供检索服务。进入某个超级文本时，用ＨＭＬ语言标记结构利Ｔ随着网络信息技术的高速发展，搜索引擎的来搜索信息及获取指向其他超级文本的ＵＬ地Ｒ关注点从如何找到更多的信息转移到如何找到准址，可以完全不依赖用户干预实现网络上的自动确、有用的信息，准率成为搜索引擎的首要目查 “ 行” 爬和搜索。标，而这正是综合型搜索引擎面临的问题所在。主题爬虫还要解决的主要问题：于是，为查询某一主题或学科信息的主题搜索专（）１对抓取目标的定义；引擎便应运而生，并成为搜索引擎发展的主要趋
中图分类号：Ｐ９Ｔ３文献标识码：Ａ文章编号：１０７６（０１００１００９— ９１２１）３— ０２— ４
ＯｎＦｓｅｒｈＥｇｎｓｎａｄＲｅｅｒｈＢｓｄｏｕｊｃ — ｒｅｔｄａｔａｃｎｉｅＤｅｉｎｓａｃａｅｎＳｂｅｔ—ｏｉｎｅＳｇ
张安妮，姜华，郝相莲：面向主题的快速搜索引擎的设计与研究
１３
抓取目标定义是网页分析算法与ＵＬ索策Ｒ搜略的基础，网页分析算法和排序算法是决定搜而索引擎所提供的服务形式和爬虫网页抓取行为的
关键，两部分算法是紧密相关的。这
主题确定：采用主题词集来确立主题，对每个主题词指定不同的权值。权值设置采用特征提取
和手工设置两种方法。
网页抓取：题爬虫由给定的一个链接集开主
１４
淮阴工
学院
学
报
始。按照链接的权重次序进行检索，些网页被这传递到预处理模块。对重定向链接和镜像站点，
张安妮，姜华，相莲郝
（山东黄河信息中心，济南２０１）５０３摘要：目前流行的搜索引擎技术进行分析、对比较，采用面向主题的优化网络爬虫算法，设计能更好地满足用户不同专业
和爱好需求的主题搜索引擎。该搜索引擎具有高效、用、实低成本等优点，可对国内各大知名网站进行搜索测试。实验结果表明，该搜索引擎的数据查全率和查准率都高于普通搜索引擎，可以进一步推广应用到各类办公、商务网站上。关键词：主题；搜索引擎；网络爬虫
（）４下载网页到本地磁盘，并建立索引，然后
将ＵＬ地址放进完成队列。Ｒ（）利用解析器解析出网页中的链接与对应５
的链接文本，计算链接地址相关度值。
抽取特征信息
查询搜索引擎
（）将第四步得到的相关度值与相关度阈值ｆ６
密度较高。
（）对等待队列中的ＵＬ先根据ｑ值大小２Ｒ，
排序，根据相关度的大小排序。再
（）３根据第二步排好序的等待队列，将排序最
前的ＵＬ拿出放进抓取队列，虫开始抓取。Ｒ爬
网站内不同主题网页
ｔｃｎｌｇ，ｎｙｕｉｇｓｂｅｔ—ｏｅｔｐｉｉｄｎｔｏｋｒｐｌａｏｉｍ，ｄｓｎｕｊｃ —ｏｅｔｄｅｈｏｙａｄｂｓｕｊｃｏｎｉｄｒｎｅｏｔｚｅｒｅｔｅｌｒｈｍｅｗｉｇｔｅｉｓｓｂｅｔｒｎｅｇｉ
传递ｑ值给子网页。
图２搜索引擎模型设计
③相关度值小于相关度阈值，则将父网页的ｑ（＜＜）０ｑ１值乘以遗传基因比例ｍ，传递子网页的
相关性消息值ｑｍ。
（）将ＵＬｑ值和相关度值放进等待队列，７Ｒ、重复第二步。
网页预处理：取网页先存人本地硬盘，用行网页数；抓利
网页清洗工具（：ｔｙ对网页代码进行纠错及如Ｊｄ）ｉ
规范化处理。文本预处理技术用于规范化文本，
ＷｅｐｉｓＯｐｉｉａｉｎＡｌｏｉｈｍｂＲｅｔｌｔｍｚｔｏｇｒｔｅ
ＺＨＡＮＧ —ｎ，ＪＡＮＧＨｕ，ＨＡＯＸｉｎＡｎｉＩａａｇ—ｌｎｉａ
（ｈｎｏｇＹｌｗＲｖｒｎｒｔｎＣｎｅ，ｉａ５０３，ｈｎ）ＳａｄｎｅｏｉｆｍａｏｅｔＪｎｎ２０１ＣｉａｌｅＩｏｉｒ
Ｋｅｙｗｏｒｓ：ｔｍｅ；ｅｃｎｉｅ；ｂｒｐｔｅｄｈｅｓａｈｅｇｎｗｅｅｉｓｒｌ
Ｏ引言
ＷＥＢ搜索引擎（ｅｒｈＥｇｎ）随着ＩｔｎｔＳａｃｎｉｅ是ｎｅｅｒ
１面向主题的优化爬虫算法设计
１１网络爬虫的工作原理．
（）算法结束。８
１２主题爬虫抓取算法．
爬虫抓取过程中使用了四个队列，别是等分待队列、抓取队列、错误队列、成队列。完
等待队列：爬虫解析到的ＵＬ先被保存到等Ｒ待队列中，在等待队列中的ＵＬ按照特定的排序Ｒ