基于Heritrix和HTMLParser的网页商品信息提取的研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二 、 扩 展 H r t i e ir x ( )扩 展 爬 取 逻 辑 一
Ps e  ̄t s
L a o d
4 9 U I / c (. v ) . R g s c 1 7 a g
2 4 ̄ / e (5 v ) 3 s e 1 1 a g
T - i
9 a t y 0 tre d c l e of 2 0 h a s l cag s i n r t o c e t 口 a i l 6 ep s uu 0dee lqe e
关键词 :Heii;HT P r r rr tx ML as ;网络爬 虫;信息提取 ;垂直搜 索 e
中图分类号 : P 9. 文献标识码 : T 31 1 A 文章 编号 :10— 5921)8 09- 2 07 99 ( 20- 10 0 0
N d F t r o e i e i p o u t r Fi t r rdcUl e i : 随着信 息多元化的发展。 向所有用户 的通用搜 索引擎 己 面 经不 能满 足特 定用户的更深入、专业 、详细的查询需求 。垂直 H st r b t F le (c a s , a e) a A t iu e i tr l s nm : N d L s oeit p 0 u t r1 i t r d cU L s 搜索 引擎 氤氲而生,它是相对通 用搜索引擎的信息 量大 、 查询 不准 确、深度 不够 等提 出来的新 的搜索引擎服务模式 。 网络 爬 D o u P r e U 1a 8r p r e p o u t r F e ) r d t a s 士 r Pr 6 . a s (r d cU l i t r : l nw e


( l g a l o u e )构成 。核心类可 以配置 ,但不 能被覆 p u gb em d l s f r it i: 0 o (n :i < sr 1n t 0 :i + { t.egh + ) 盖, 插件模块可 以由第三方模块取代 。 以我们就可 以用 实现 所 h s = (a h < 4 + s r c a A () ah hs < ) t.hrti : 了特定抓取逻辑 的第 三方模块 来取 代默认的插件 模块 , 从而满 i (x : h s & 0 F 0 0 0 L ! 0 { f( ah x 0 0 0 0 ) = ) 足 自己的抓取需要 。 h s = ( > 2 ) ah x > 4: hs & x a h = :) ) C a lo to lr ( rw C n r l e 下载控制器 )整个下载过程 的总控制 ( )爬取 网页信息 三 者 ,整个抓 取工作的起点 ,决定整个抓取任务的开始和结束。 每个 U I都有一个独立 的线程 , R 它从边界控制器 (r n ir Fote ) 运 行 Hrt i e ir x, 新 建 任 务 后 在 配 置 选 项 中 加 入 获取新 的 U I R ,然后传递给 P o e sr c a n 处理链 )经 E t a t r o P O ln , r c s o h is( x r c oF r c n i e 在主 界面运行结果如 图 1所示 , 爬取 过 一系列 P o e sr ( r c s o 处理器 )处理 。 结束后 结果如 图 2所示 。
9ae ae  ̄ t v r s d p h
以 太 平 洋 电 脑 网 站 h t :/ o i e p o l n . o . n t p / m b l. c n ie c m c / 手机商品页面为例 ,修改模块 H r t i e i r x能准确抓取商品网页 信 息 。 在 包 o g a c i e c a l r e t a t r 中 添 加 类 r . r h v . r w e .x r c o E tatroPOln x r c o F r cn i e解析网页 内容并选出候选地址 。其核
刘 文 浩 ,谢 韬 , 吴进
( 四川大 学软件学院 ,成都
60 2 ) 125
摘要 :主要介 绍 He tx网络爬 虫,分析 了ຫໍສະໝຸດ Baidu 系统结构。通 过扩展 He tx rf i rr ,使其 能抓取 太平 洋电脑 网站上 的商 ii 品信息 。在此基础上 。利 用 E F s L Ha h对效率抓 取进 行优 化。最后 ,利用 HT P r r ML a e 提取收 集到 的网页商品信 息, s 为建 立垂 直搜 索引擎提供信 息源。 ’
计 算机 光盘 软件 与应 用
多媒体技术及应用
C m u e D S f w r n p lc t o s o p t r C o t a e a d A p i a i n 2 1 第 8期 0 2年
基于 H r r 和 HT P re 的网页商品信息提取的研究 ei i tx ML asr
T ga e i tr ’ a N m F e I i g r F t r m U l i e l = nw e 虫在垂 直搜索 中对于信 息收集起 到了重要韵作 用 。Hrti eirx a N m F i e (i g ) /图片 U L列表 R 是一个 由 Jv aa开发 的一个开源 的网络爬虫 , 它拥有着高可扩 T ga e i tr m :/ ( )改进爬取 效率 二 展性和 高效率 ,是进 行 网页信息 收集 的有 利工具 ,通过 配合 对于 同一个 H s ,e ir x爬虫采用一个线程进行爬取 , o tH r t i HMPre TL asr对 网页 内容进行解析 ,可 以有效地提取商 品网页 爬取效率不高。 通过扩展扩展 qe ea sgmn—o iy uu—s inetp lc 实现 ’ 键信息 。 关 对 同一个 H s o t多线程抓取 。在这里使用 E FA H算法使得不 LHS H rt i e ir x介绍 R Hrt i e i r X采用 了模块化 的设计 ,用户可 以在运行时选择 同的 U L能大致平均分配到不同的线程中。 l n 0: o gx 要 用 的 模 块 。 它 由核 心 类 ( o e l s e ) 和 插 件 模 块 c r c a s s
相关文档
最新文档