网络爬虫技术研究

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

１２３主题爬虫流程设计．．
主题爬虫需要根据一定的网页分析算法，过滤掉与主题无关的链接，保留有用的链接并将其放入等待抓取的ＵＬ队列。然后，它会根据一定的搜索策略从待抓取的队列中选择下一个要抓取的ＵＬ，并ＲＲ重复上述过程，直到满足系统停止条件为止。所有被抓取网页都会被系统存储，经过一定的分析、过滤，然后建立索引，以便用户查询和检索；这一过程所得到的分析结果可以对以后的抓取过程提供反馈
１１通用网络爬虫（ｅｅａｐｒｏｅｗｂｃａｅ）．ｇｎｒｌｕｐｓｅｒｗｌｒ
通用网络爬虫根据预先设定的一个或若干初始种子ＵＬ开始，以此获得初始网页上的ＵＬ列表，ＲＲ在爬行过程中不断从ＵＬ队列中获一个的ＵＬＲＲ，进而访问并下载该页面。页面下载后页面解析器去掉
量网页和关键资源不仅可以大大提高主题爬虫搜集Ｗｅ面的效率和质量，还可以为主题表示模型的ｂ页优化等应用提供支持 ¨ 。
１２２主题爬虫模块设计．．
主题爬虫的目标是尽可能多的发现和搜集与预定主题相关的网页，其最大特点在于具备分析网页内
于成龙于洪波
１７１）５０１（牡丹江大学电子信息工程系，黑龙江牡丹江
摘要：网络爬虫为搜索引擎从互联网上下载网页，是搜索引擎不可或缺的组成部分。介绍网络爬虫的分类、工作原理及存在的问题，并对主题爬虫进行了详细设计，最后总结了设计高性能网络爬虫需要解决的技
统，它对主题的定义既不是采用关键词也不是加权向量，而是一组具有相同主题的网页。国内南京大学
的张福炎、潘金贵教授等设计了一个数据采集系统ＩＧ（ｎｅｅＤｔＧｔｅｙｔ，该系统主要是对ＤＳＩｔｔａａｒｓｍ）ｍａｈＳｅ
３）通用搜索引擎大多是基于关键字的检索，对于支持语义信息的查询和索引擎智能化的要求难以实
现。
由此可见，通用爬虫想在爬行网页时，既保证网页的质量和数量，又要保证网页的时效性是很难实
现的。
１２主题网络爬虫（ｏｉｌｂＣｒｗｌｒ．ＴｐｃａＷｅａｅ）１２１主题爬虫原理．．
第３期
于成龙，等：网络爬虫技术研究
图２主题爬虫结构图
的爬行策略用以指导爬虫的爬行过程。ＵＬ的超链接评价得分越高，爬行的优先级就越高。其主要思Ｒ
想是，在系统爬行之前，页面相关度计算模块根据用户输入的关键字和初始文本信息进行学习，训练一个页面相关度评价模型。当一个被认为是主题相关的页面爬行下来之后，该页面就被送入页面相关度评
术难题。
关键词：网络爬虫；搜索引擎；高性能中图分类号：Ｔ３１Ｐ９文献标识码：Ａ文章编号：１００１（０１３— ０５— ５０９～３２２１）００２０
网络爬虫（ｒｗｅ）也称网络蜘蛛，或网络机器人。它为搜索引擎从万维网上下载网页，并沿着Ｃａｌｒ网页的相关链接在ｗｂ中采集资源，是一个功能很强的网页自动抓取程序，也是搜索引擎的重要组成部ｅ件，它的处理能力往往决定了整个搜索引擎的性能及扩展能力等。传统的网络爬虫从一个或若干个初始种子开始爬行，获得初始的ＵＬＲ，在爬取网页的过程中，不
主题爬虫并不追求大的覆盖率，也不是全盘接受所有的网页和ＵＬ，它根据既定的抓取目标，有Ｒ选择的访问万维网上的网页与相关的链接，获取所需要的信息，不仅客服了通用爬虫存在的问题，而Ｈ－
返回的数据资源更精确。主题爬虫的基本工作原理是按照预先确定的主题，分析超链接和刚刚抓取的网页内容，获取下一个要爬行的ＵＬ，尽可能保证多爬行与主题相关的网页，因此主题爬虫要解决以下Ｒ关键问题：１如何判定一个已经抓取的网页是否与主题相关；２如何过滤掉海量的网页中与主题））
第１卷第３８期
２１年６月０１
ＪＲＮＡＬＯＦＤＯＯＵＮＧＧＵＩＲＳＴＦＴＨＮＯＬＧＹＡＮＵＮＶＥＩＹＯＥＣＯ
东莞理工学院学报
Ｖ１８Ｎ．ｏ１ｏ３．
Ｊｎｕ．２１０１
网络爬虫技术研究
断从当前页面上获取新的ＵＬＲ放入队列，直到满足系统结束条件为止。然而随着网络资源的爆炸式膨胀和信息量的飞速增长，通用的爬虫技术在索引规模、更新速度和个性化等很多方面都已不能满足用户的需求，与此同时，应运而生的主题爬虫则不像通用爬虫那样采集全部网络资源，而是从互联网上采集特定主题资源的网页，大大提高搜索效率，日渐受到人们的青睐，逐渐成为研究的热点。早期研究者Ｄｒ人于１９ｅＢａＰ等９４年提出了ｆｈｓａｃ法，它是最早使用查询来指导爬虫爬行的系统。１９ｉ．ｒｈ算ｓｅ９８年ＭＨｒｖｉ．ｅｏｉ等研究人员将ｆｈｓｒ算法进一步拓展为ｓａ．ａｈ算法¨ ，他们的搜索策略都是来源ｓｃｉ．ａｈｓｅｃｈｒｓｒｋｅｃＪ于文本检索，拥有很好的理论基础而且容易计算，但却忽略了网页链接的结构信息，所以预测相关
容和判别主题相关度的能力。根据主题爬虫的工作原理，下面设计了一个主题爬虫系统，主要有页面采集模块、页面分析模块、相关度计算模块、页面过滤模块和链接排序模块几部分组成，其总体功能模块结构如图２所示。页面采集模块：主要是根据待访问ＵＬ队列进行页面下载，再交给网页分析模型处理以抽取网页Ｒ主题向量空间模型。该模块是任何爬虫系统都必不可少的模块。页面分析模块：该模块的功能是对采集到的页面进行分析，主要用于连接超链接排序模块和页面相关度计算模块。页面相关度计算模块：该模块是整个系统的核心模块，主要用于评估与主题的相关度，并提供相关
价器计算其主题相关度值，若该值大于或等于给定的某阂值，则该页面就被存入页面库，否则丢弃¨ 。
页面过滤模块：过滤掉与主题无关的链接，同时将该ＵＬ及其所有隐含的子链接一并去除。通过Ｒ过滤，爬虫就无需遍历与主题不相关的页面，从而保证了爬行效率。排序模块：将过滤后页面按照优先级高低加入到待访问的ＵＬ队列里。Ｒ
２６
东莞理工学院学报
上新的ＵＬＲ，保存到ＵＬ队列，直到满足系统停止条件。其工作流程如图１所示。Ｒ
图１通用网络爬虫工作流程图
通用爬虫主要存在以下几方面的局限性Ｊ）由于抓取目标是尽可能大的覆盖网络，所以爬行的：１结果中包含大量用户不需要的网页；２）不能很好地搜索和获取信息含量密集且具有一定结构的数据；
不相关的或者相关度较低的网页；３）如何有目的、有控制的抓取与特定主题相关的ｗｅｂ页面信息；４）
如何决定待访问ＵＬ的访问次序；５如何提高主题爬虫的覆盖度；６如何协调抓取目标的描述或定Ｒ））义与网页分析算法及候选ＵＬ排序算法之问的关系；７Ｒ）如何寻找和发现高质量网页和关键资源。高质
页面上的ＨＭ标记后得到页面内容，将摘要、ＵＬ等信息保存到ＷｅＴＬＲｂ数据库中，同时抽取当前页面
收稿日期：０１２—２２１一Ｏ２
作者简介：于成龙（９７）１７一，男，黑龙江牡丹江人，讲师，硕士，主要从事计算机视觉和图像处理研究。
和指导。其工作流程如图３所示。
１２４深度网络爬虫（ｅｐＷｅａｅ）．．ＤｅｂＣｒｗｌｒ
１９９４年Ｄ．ｉｌｗｒｒｊｌｌｏｔ出ＤｅＷｅ（层页面）的概念，即ＤｅＷｅ是指普通搜索引擎难以发ｌＥｓｈ提ｅｐｂ深ｅｐｂ现的信息内容的Ｗｅ面 ¨ ｂ页。ＤｅＷｅｅｐｂ中的信息量比普通的网页信息量多，而且质量更高。但是普通
Ｗｅｂ上中英文技术资料进行自动搜集。
１网络爬虫的分类及工作原理
网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫（ｅｅａＰｒｏｅＧｎｒｌｕｐｓＷｅｒｌ）ｂＣａｅ、主题网络爬虫（ｏｉｌｂＣａｌｒ、深层网络爬虫（ｅｐＷｅｒｗｅ）ｗｒＴｐｃｒｗｅ）ａＷｅＤｅｂＣａｌｒ。实际应用中通常是将系统几种爬虫技术相互结合。
ＵＬ的准确度不高。另外，美国卡内基梅隆大学的ＡＫＭｃａｕ和Ｍ．ｉａ等人于１９Ｒ．．ＣｌｍｌＮｇｍ９９年针对计算
机科学设计了主体型搜索引擎ＣＲＯＡ系统Ｊｉｅｔ等人研究设计了ＣｎｘＦｃｓｒｌ聚焦爬虫。ＤｌｎｉｉｇｏｔｔｏｕｅＣａｅｅｄｗｒ系统Ｊ．ｇａｗｌ。ＣＡｇｒａ等学者利用Ｈｂｎｕｈｒｉ逻辑分组算法和向量空间模型，提出了一种网页ｕｓｄＡｔｏｉｅａｔｓ主题管理系统ＷＴＳＭ系统。ＭＥｒ等学者提出了一种基于计算ｏｔｏｙ．ｈｉｇｎｌ相关度的主题爬虫，并设计ｏｇ了其体系结构和框架。ＳＣａｒｂｒ提出了一种新的Ｗｅ．ｈｋａａｔｉｂ资源爬行系统，即ＩＭｏｕｅｒｌ。系ＢＦｃｓｄＣａｅ。ｗｒ