基于关键词的主题网络爬虫

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

ＥＬＥＣＴＲＯＮＩＣＳＷＯＲＬＤ ·技术交流
基－３＝荚键词ｇ－３重题网络爬密
南京航空航天大学周萍
【摘要】通常来说，用户从搜索引擎获取的网页中，大部分都是不符合特定需求的，只有一小部分才是想要的结果。网络爬虫在搜索引擎中扮演着重要的角色，起着关键性的作用。本文主要讲述了基于关键词的网络爬虫，通过使用相关性决策机制和本体的知识来设计出最合适的爬虫抓取路径。和传统的网络爬虫相比较，本文设计的爬虫具有最优性，并通过高准确性来提高搜索效率。【关键词】网络爬虫；基于特定主题的网络爬虫；本体；关键词；知识路径
网络爬虫的关键问题就是从ｗｅｂ中只下载重要的网页，然后分析这些网页中ｕＲＬ的优先级，并根据优先级放到ｕＲＬ队列中的合适位置。网路爬虫的两大问题如下所示：（１）计算爬虫抓取的网页的优先级；（２）设计爬虫抓取 Leabharlann Baidu页的爬行策略。
０引言
网络爬虫主要下载主题相关的网页或者满足用户需求的特定网页，而不是像传统的搜索引擎那样下载整个Ｗｅｂ网页库。因此，主题爬虫的基本要求是选择那些满足用户需求的网页。链接分析算法和网页排序算法一样，通常根据ＵＲＬｓ的相关性和搜索策略对ＵＲＬｓ进行排序，然后优先下载那些特定网页。
本文提出了基于关键词的主题网络爬虫算法，该算法是根据优先级和领域本体找出网页的ＵＲＬｓ。此外，知识路径在寻找主题相关网页中也发挥着重要的作用。
网络爬虫是搜索引擎的重要模块。在传统的网络爬虫中，将种子ＵＲＬ作为爬虫工作的初始ＵＲＬ。在分析了种子ＵＲＬ的网页内容之后，爬虫开始下载网页，然后抽取出所有的超链接，并把这些链接存储到ｕＲＬ队列中，递归执行上述过程，直到获得了相关结果。
１基于关键词的主题网络爬虫算法
１．１背景如今网络的规模越来越大，信息的更新率变快。网络拥有大量的
数据信息，所以爬虫需要根据ＵＲＬ的优先级来下载满足需求的网页。爬虫根据领域知识下载一小部分网页，这些网页的大部分内容
是主题相关的，因此没有必要从网上下载所有的网页。网页内容的主题重要度主要取决于链接和被访问量。因此，很有必要提出一个可靠的爬虫算法。１．２爬虫算法的研究设计及具体步骤
假设本体结构如图２．１所示，其中包括不同的结点以及相互之间的联系，这些联系代表了结点之间的关系。
择一个ＵＲＬ种子作为算法的输入；（２）构造本体知识树，并找出知识路径：（３）下载初始输入ＵＲＬ对应的网页；（４）从下载的网页中抽取出超链接内容，并把它们插入到ＵＲＬ队列中；（５）挖掘更多的主题相关的ＵＲＬ，下载该ＵＲＬ对应的网页，并从中抽取出超链接，最后把这些超链接插入到ＵＲＬ队列中；（６）重复上述步骤，获得更多的主题相关的结果。
基于相同的软件系统和硬件环境，实验获得的结果如表２．１所示：表２．１两种爬虫系统的比较
２＿２本体和知识路径本体是结构信息的其中一项技术，它也叫树或者图。本体将
信息系统进行分层设置，分层的结构是一个有向无环图（ｄｉｒｅｃｔｅｄａｃｙｃｌｉｃｇｒａｐｈ，ＤＡＧ）。参考本体根据不同的关联关系设置了“ｉｓａ”， “ｈａｓ ’，“ｐａｒｔｏｆ’。本体被用来构造信息和过滤信息。
爬虫算法的基本步骤是将ＵＲＬｓ种子队列作为输入，然后重复执行分布式的步骤。从地址列表中取出某个地址，确认该地址的主机名，然后将网页翻译成对应的文档信息，接着抽取出其中的超链接。对于每一个被抽取的链接，检查它们的绝对地址，并把它们添加到ｕＲＬｓ的列表中，前提是它们之前没有被访问过。该算法规则需要一个组件来存储下载的ＵＲＬｓ队列。
验。实验中，软件系统和硬件环境是不变的。分别比较网络爬虫的关键词有本体和没有本体这两种情况。
实验中用到的参数是：Ｄｅｐｔｈｆｏｒｌｏｏｋｉｎｇｏｕｔ＝２；Ｎｕｍｂｅｒｏｆ
ｔｈｒｅａｄ＝５；Ｉｎｉｔｉａｌｓｅｅｄ＝１；Ｓｅｅｄｕｎｉｖｅｒｓａｌｒｅｓｏｕｒｃｅｌｏｃａｔｏｒｉｓ＝ｈｔｔｐ：／／、）ｌ．ｇｏｏｇｌｅ．ｃｏｒｎ；Ｃｏｎｃｅｐｔｉｎｏｎｔｏｌｏｇｙ＝Ｊａｖａ。
此外，还需要将主机地址解析成以下三部分：（１）一部分用来下载文档；（２）一部分用来从超文本标记语言中抽取超链接：
（３）一部分用来判断该地址之前是否被访问过。本文设计的爬虫算法主要分六步，具体步骤如下所示：（１）选