基于遗传算法的聚焦爬虫搜索策略

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

［ｓｒｃ］ＩｒｅｒｖｈｅｒｈｅｃｅｃｆｏｕｅｒｗｌｂｓｄｏｃｅＧｅｅｉＡｌｏｉｍ（ＧＡ）ｔｉｐｐｒｐｏｏｅｌｂｌＡｂｔａｔｎｏｄｒｏｉｏｅｔｅｓａｃｆｉｎｙｏｃｓｄｃａｅａｅｎＮｉｎｔｇｒｈＮｔｍｐｉｆｈｃｔ，ｈｓａｅｒｐｓｓａｇｏａ
［ｙｗｏｄｌｆｃｓｄｃａｅ；ｅｅｉａｇｒｔｍ；ｉｅｔｐｃｅｅａｃＫｅｒｓｏｕｅｒｗｌｇｎｔｌｏｉｒｃｈｎｃ；ｏｉｒｌｖｎｙｈ
ｌ概述
聚焦爬虫是专为查询某一领域或主题信息而出现的网页抓取工具。不同于通用搜索引擎，由于聚焦爬虫抓取的内容只限于特定的主题或专门领域，因此其在搜索过程中无须对整个Ｗｅｂ进行遍历，只需选择与主题相关的页面进行访问。相对于通用网络爬虫，聚焦网络爬虫需要解决的关键问题是
文献标识码：Ａ
中图分类号：Ｐ１１Ｔ３１３．
基于遗传算法的聚焦爬虫搜索策略
曾广朴，范会联
（长江师范学院数学与计算机学院，涪陵４８０）００１
摘
要：了提高聚焦爬虫的搜索效率，出一种结合内容评价和链接结构搜索策略的优点并利用小牛境遗传算法进行全局寻优的搜索策为提
ｏｔｍｉａｉｎｆｓａｃｓｒｔｇｉｈｃｍｂｎｓｈａｖｎａｅｏｔｎｖａｕｔｎａｄｌｋｓｒｃｕ．ＵＲＩｅｒｈｄｉｅｔｎｉｕｄｄｂｐｉｚｔｏｏｅｒｈｔａｅｙｗｈｃｏｉｅｔｅｄａｔｇｓｏｆｃｎｅｔｅｌａｉｎｉｔｕｔｌｏｎｅｓａｃｒｃｉｓｇｉｅｙｏｉｐｏｎｅｇｎｔｐｒｔｒｎｍｒｖｉｇｔｅｅｉｏｅａｏｓａｄＮＧＡ．ｍｐｒｄｗｉｔｅｌｏｉｈ，ｘｅｉｎａｅｕｔｎｉａｅｔａｓｓｒｔｇａｉｈｒｐｅｉｉｎａｄｈｃＣｏａｅｔｏｈｒａｇｒｔｍｓｅｐｒｍｅｔｌｒｓｌｓｉｄｃｔｈｔｈｉｔａｅｙｈｓｈｇｅｒｃｓｏｎｈｔｒｃｌｉｅｒｈｎｇｔｅｔｐｃｐｇｓｅａｌｎｓａｃｉｈｏｉａｅ．
评价，主要利用了Ｗｅｂ网页文本内容、ＵＲＬ字符串、锚文字
等文字内容信息，典型的代表是Ｂｓｉｔ算法ＪｅｔｒＦｓ。该类算法
的优点是具有较好的理论基础且计算简单。但由于这类方法忽略了链接结构信息，因此在预测链接价值的准确性方面存
在一些不足。
ＳｅｒｈＳｒｔｇｆＦｏｕｓｄＣｒｗｌｒＢａｅｎＧｅｔｃＡｌｒｔａｃｔａｅｙｏｃｅａｅｓｄｏｎｅｉｇｏｉｈｍ
ＺＥＮＧｕａＧｎｇ— ｐｕ，ＦＮｕｉｌａＡＨ —ｉｎ
（ｃｏｌｆｔｅｔｓｎｍｐｔｒＹｎｔｅｒｌｎｖｒｉＦｌｇ４８０ＳｈｏｈｍａｉｄＣｏｕｅ，ａｇｚｍａＵｉｅｓｏＭａｃａＮｏＷ，ｕｉ０）ｎ１０
引入一种既能保证种群多样性、能保证算法高效性的机制。又近年来人们将生物学中小生境现象引入遗传算法，其最优保
以文献【—］代表的基－Ｗｅ链接结构的搜索策略通过４５为ｆｂ分析Ｗｅ面之间的相互引片关系确定网页的重要性，而ｂ页ｊ进
决定待爬行ＵＲＬ的访问次序以获得更高的查全率和查准率。
２相关研究工作现状
２１小生境遗传算法的基本思想．经典遗传算法的主要问题是容易产生最终并不能保证收
敛到全局最优解、而是过早地收敛到某个局部极值点的现象。出现这一现象的根源在于该算法在进行粗略搜索时容易丢失最优解，进行精细搜索时容易陷入局部最优解。因此，需要
第３卷第１期６１
ＶＬ３６ｏ
・计算机来自工程２１００年６月
Ｊｕｎ２０ｅ０１
Ｎｏ１．
ＣｏｍｐｕｔｒＥｎｎｅｒｎｇｅｇｉｅｉ
人工智能及识别技术・
文章编号：１０— ４８００１ ’ ６—０ｏｏ０２（１】ｏ７＿２）— １３
略。改进遗传算子和小生境遗传算法，将待搜索的网页ＵＲＬ作为遗传个体，采用概率变迁规则和小生境淘汰运算引导搜索方向。实验结果证明，与聚焦爬虫的其他实现技术相比，该策略在抓取主题相关网页时具有更高的查准率和查全率。关键词：聚焦爬虫；遗传算法；小生境；主题相关度
如何判断一个网页是否与主题相关以及如何根据主题相关度
ＵＲＬ的爬行次序。目前常用的聚焦爬行策略主要有２类Ｌ：２Ｉ
基于内容评价的搜索策略和基于Ｗｅ接结构的搜索策略。ｂ链基于内容评价的搜索策略起源于文本检索中对文本相似度的