基于遗传算法的聚焦爬虫搜索策略
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
[ src]I re rv h erhe ce c f ou e rwl bsdo c eGeei Aloi m( GA)ti pprpo o e lb l Ab ta t nod roi o etesac f inyo c sdca e ae nNi n t g rh N t mp i f h c t ,hs a e rp ssago a
[ ywo d l fc sdca e; e ei agrtm; i e tpc ee ac Ke r s o ue rwl g nt loi r c h nc ;o irlvn y h
l 概 述
聚焦 爬虫是专 为查询某一领域或主题信息而 出现 的网页 抓取工具 。不 同于通 用搜索 引擎 ,由于聚焦爬 虫抓取 的内容 只 限于特定 的主题 或专门领域 ,因此其在搜索过程 中无须对 整个 We b进行遍历 ,只需选择与主题相 关的页面进行 访问。 相对于通 用网络爬虫 ,聚焦 网络爬虫需要解决 的关键 问题是
文献标识码:A
中 图分类号: P 11 T 31 3 .
基 于遗传 算 法的聚焦爬 虫搜 索策略
曾广朴 ,范会联
( 长江 师范学院数学与计算机学 院 ,涪陵 4 8 0 ) 0 0 1
摘
要 : 了提高聚焦爬 虫的搜索效率 , 出一种结合 内容评价 和链接 结构搜索策略的优点并利 用小 牛境遗 传算法进行全局寻优 的搜索策 为 提
o tmi a i n f s a c sr t g i h c mb n s h a v n a e o t n va u t n a d l k sr c u .URI e r h die t n i u d d b p i z to o e r h ta e y wh c o i e t e d a t g s of c n e t e l a i n i t u t l o n e s a c r c i s g i e y o i p o n e g n t p r t r n m r vi g t e e i o e a o sa d NGA. m p r d wi t e l o ih , x e i n a e u t n i a e t a ss r t g a i h rp e ii n a d h c Co a e t o h ra g rt ms e p r me t lr s lsi d c t h t hi ta e y h sh g e r c so n h t r c l i e r h ngt et p c p g s e a l n s a c i h o i a e .
评价 ,主要利用 了 We b网页文本内容 、UR L字符 串、锚文字
等文字 内容信息 ,典 型的代 表是 B s i t算法 J et r Fs 。该类算法
的优点是具有较好 的理论基 础且计算简单 。但 由于 这类方法 忽略 了链接结构信息 ,因此在预 测链 接价值 的准确 性方面存
在一些不足 。
Se r h S r t g fFo us d Cr wl rBa e n Ge tcAl r t a c t a e y o c e a e s d o ne i go ihm
ZEN G ua G ng— pu,F N uila A H —i n
( c o l f t e t s n mp trY n te r l nv ri F l g4 8 0 S h o h mai dCo u e, a gz ma U ie s o Ma ca No W, u i 0 ) n 1 0
引入 一 种 既能 保 证 种 群 多样 性 、 能 保 证 算 法 高 效 性 的机 制 。 又 近 年 来 人 们 将 生物 学 中 小 生 境 现 象 引入 遗 传 算 法 , 其 最 优 保
以文 献 【—] 代 表 的基 - We 链 接 结 构 的 搜 索 策 略 通 过 45为 f b 分 析 We 面 之 间 的相 互 引片 关 系 确 定 网页 的 重 要 性 , 而 b页 j 进
决定待爬行 UR L的访问次序 以获得更高的查全率和查准率 。
2 相 关 研究 工作现 状
21 小 生境遗传 算法 的基本 思想 . 经典遗传 算法 的主 要问题是容易产生最终并不 能保 证收
敛到全 局最优解 、 而是过早地 收敛到某个局部极值点 的现象 。 出现这一现象 的根 源在 于该 算法在进行粗 略搜索 时容易 丢失 最优解 ,进行精细 搜索 时容易陷入局部最 优解 。因此 ,需要
第 3 卷 第 1 期 6 1
V L36 o
・计算机来自工程 21 0 0年 6月
Jun 2 0 e 01
No 1 .
C om put r En ne r ng e gi e i
人工 智能 及 识别 技术 ・
文章编号:10— 48 001 ’ 6—0 oo 0 2( 1 】 o 7 _ 2 )— 1 3
略。改进遗 传算子和小 生境遗传算法 ,将 待搜索的 网页 URL作为遗传 个体 ,采用概率变迁规则 和小 生境淘 汰运算引导搜索方向 。实验结 果证 明,与聚焦爬虫的其他实现技术 相比 ,该策略在抓取主题 相关 网页时具有更高 的查 准率和查全率 。 关键词 :聚焦爬虫 ;遗传算法 ;小 生境 ;主题相关度
如何 判 断一 个 网 页 是 否 与 主 题 相 关 以 及 如 何 根 据 主 题 相 关 度
UR L的爬行 次序 。 目前常 用的聚焦爬行策 略主要有 2类L: 2 I
基 于 内容 评 价 的搜 索 策 略和 基 于 We 接 结 构 的 搜 索策 略 。 b链 基 于 内容 评 价 的搜 索 策 略起 源 于 文 本 检索 中对 文 本相 似 度 的