一种基于动态网页解析的微博数据抓取方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

t h e r e s e a r c h e r s t O c a r r y o u t r e l a t e d r e s e a r c h .Mi c r o — b l o g d a t a a c q u i s i t i o n i s t h e b a s i s a n d s t a r t i n g p o i n t f o r f u r t h e r r e s e a r c h .
页面数据抽取模板 , 实现 以用户为 中心 的微博数 据获取 。抓取结果表 明, 方法能对微博用户数据进行全 面高效抓取 , 为后续
数据分析和处理提供数据 支持 。
关键词 新浪微博 ; 数据挖掘 ; 动态 网页 ;爬虫
D OI : 1 0 . 3 9 6 9 / j . i s s n . 1 6 7 2 - 9 7 3 0 . 2 0 1 5 . 1 0 . 0 2 6 中 图分 类 号
总第 2 5 6期 2 0 1 5年第 1 O 期
舰 船 电 子 工 程
S h i p El e c t r o n i c E n g i n e e r i n g
Vo 1 . 3 5 No . 1 0
9 5

种 基 于 动 态 网 页 解 析 的微 博 数 据 抓 取 方 法
s e r k e r ne l i s u s e d t O i n t e r p r e t t h e d y n a mi c d a t a o f mi c r o b l o g we b p a g e .Th r o u g h s i mu l a t e d l o g i n,t h e p a g e c r a wl i n g s t r a t e g y b a s e d o n t h e c h a r a c t e r i s t i c s o f s o c i a l n e t wo r k i n g s i t e i s d e t e r mi n e d ,a n d t h e we b p a g e p a r s i n g t e c h n o l o g y i s u s e d t O c u s t o m t e mp l a t e s o f we b p a g e t o a c h i e v e u s e r - c e n t r i c mi c r o b l o g d a t a a c q u i s i t i o n . Th e t e s t r e s u l t s s h o w t h a t t h e me t h o d c a n c a p t u r e mi c r o b l o g d a t a o f u s e r c o mp r e h e n s i v e a n d e f f i c i e n t l y,p r o v i d e d a t a s u p p o r t f o r s u b s e q u e n t d t a a n a l y s i s a n d p r o c e s s i n g . Ke y W or ds s i n a mi c r o b l o g,d a t a mi n i n g,d y n a mi c we b p a g e ,W e b c r a wl e r Cl a s s Nu mb er
Da t e Cr awl e r f o r S i na Mi c r o b l o g Ba s e d o n Dy na mi c We b p a g e Da t e I n t e r p r e t i ng
ZHONG Mi n g x i a n g TANG J i n t a o XI E S o n g x i a n WA N G Ti n g
( Co l l e g e o f Co mp u t e r ,Na t i o n a l Un i v e r s i t y o f De f e n s e Te c h n o l o g y ,Ch a n g s h a 4 1 0 0 7 3 )
Ab s t r a c t Mi c r o b l o g g i n g i s a n e w k i n d o f i n f o r ma t i o n me d i a . Th e ma s s d a t a a r e g e n e r a t e d t O a t t r a c t s t h e a t t e n t i o n o f
Th i s p a p e r p r e s e n t s a mu l t i - t h r e a d e d c r a wl e r f o r S i n a mi c r o b l o g p l a t f o r m b a s e d o n d y n a mi c we b p a g e i n t e r p r e t i n g .Th e b r o w—
钟明翔 唐晋韬 谢松县 王
长沙

4 1 0 0 7 3 )
Байду номын сангаас
( 国防科学技术大学计算机学 院


微博是一种新 型信息 传播媒介 , 产 生的海量数据吸引研究人员关 注并 开展相关研究 。微博数据获取是后续分
析研 究的基础和起点 。以新浪微博平 台为研 究对象 , 提出了基于动态 网页解析技术 的微博数 据多线程抓取方法 。方法利用 浏览器 内核解析微博 页面动态 数据 , 通过模 拟登 陆 , 依据社交 网站网页链 接特点确定页 面爬取策 略 , 使用页面解析技术定制
相关文档
最新文档