基于Java的新浪微博爬虫研究与实现
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
he t b r e a d t h c o mb i n a t i o n o f t r a v e r s e c o mb i n a t i o n t O c o l l e c t we b p a g e s o u se c o d e nd a hu t s he t p a g e s o u se c o de i s mo e r c o n c i s e nd a p u r e r , r e d u c i n g n e t wo r k t r a n s mi s s i o n p r e s s u r e a n d he t HTM L s o u r c e c o d e na a l y s i s i t me . I t ma i n l y ea r l i z e s he t We m0 s i mu l a t e d l o g g i n g. We mo we b c r a wl i n g, We i b o pa g e da t a e x t r a c io t n nd a t a s k s c h du e l i n g c o n t r o l , a nd na a l y z e s t h e c r a wl i n g d a t a . Th e he t me We i b o s e l e c i t o n i s a d d -
d o i : 1 0 . 3 9 6 9 / j . i s s n . 1 6 7 3 — 6 2 9 X. 2 0 1 7 . 0 9 . 0 4 2
Re s e a r c h a n d Re a l i z a t i o n o f We i b o Cr a wl e r wi t h J a v a
b o AP I , t r a d i t i o n a l c r a wl e r nd a We b v e r s i o n( c o n r v e r s i o n ), b y wh m h We i b o . c n we b s i t e c r a w l e r s y s t e m h a s b e e n e s a t b l i s h e d t h r o u g h
陈 珂, 蓝 鼎栋 , 柯 文德 , 黎树俊 , 邓 文 天
( 广 东石 油化 工学 院 计 算机 与 电子 信 息 学院 , 广 东 茂名 5 2 5 0 0 0 )
摘 要: 为 了高效获 取更 多的微 博数据 , 针 对调 用微博 A P I 和 网 页版 ( c o n版) r 等传 统 微博 爬 虫 在数 据 采 集 中所 存 在 的 问
P e r t o c h e m i c a l T e c h n o l o g y , Ma o m i n g 5 2 5 0 0 0, C h i n a )
Ab s t r a c t : I n o r d e r t O o b t a i n mo e r mi c r o b l o g d a t a e f f i c i e n t l y, a J a v a -b a s e d a c q u i s i t i o n s y s t e m o f S i n a i s d e s i g n e d a n d d e v e l o p e d f o r We i —
第2 7卷 第 9期 2 0 1 7年 9月
计 算 机 技 术 与 发 展
COMP U I ER T ECHNOL OGY AND DEVEL OP MENT
V0 1 . 27 N o . 9 S e p . 2 0 1 7
基于 J a v a的 新 浪 微 博 爬 虫 研 究 与 实 现
选功能。为验证该系统的有效性和可行性, 与其他传统方法进行 了分析对 比。实验验结果表明, 所提 出的系统爬取效率
更高 , 实 现代码 更简 便 。 关键 词 : 新浪微 博 ; 网络爬 虫 ; J a v a ; 数 据挖 掘
中图分 类号 : T P 3 9 文献 标识 码 : A 文章 编号 : 1 6 7 3 — 6 2 9 X ( 2 0 1 7 ) 0 9 — 0 1 9 1 — 0 6
题, 设计 开发 了一个基 于 J a v a 的采集 新浪 微博 We i b o . c n 站 点的 网络爬 虫 系统 。该 系 统通 过 广度 遍历 结 合组 拼 U R L的方 式采 集 网页 源码 , 使 网页 源码更 加简 洁 , 纯 净度更 高 , 降低 了网络 传输压 力并 减 少 了 H T M L源码 解 析 时间 。主 要 实现 了微 博模 拟 登陆 、 微 博 网页爬取 、 微博 页 面数 据 提取 和任务 调度 控 制 , 并对 爬 取 数 据进 行 了分 析 , 在 爬虫 中添 加 了 主题 微 博筛
C H E N K e , L A N Di n g - d o n g , K E We n - d e , L I S h u - j u n , D E NG We n - t i a n
( C o l l e g e o f C o mp u t e r a n d E l e c t r o n i c I n f o r ma t 来自百度文库 o n , Gu ng a d o n g Un i v e r s i t y o f
d o i : 1 0 . 3 9 6 9 / j . i s s n . 1 6 7 3 — 6 2 9 X. 2 0 1 7 . 0 9 . 0 4 2
Re s e a r c h a n d Re a l i z a t i o n o f We i b o Cr a wl e r wi t h J a v a
b o AP I , t r a d i t i o n a l c r a wl e r nd a We b v e r s i o n( c o n r v e r s i o n ), b y wh m h We i b o . c n we b s i t e c r a w l e r s y s t e m h a s b e e n e s a t b l i s h e d t h r o u g h
陈 珂, 蓝 鼎栋 , 柯 文德 , 黎树俊 , 邓 文 天
( 广 东石 油化 工学 院 计 算机 与 电子 信 息 学院 , 广 东 茂名 5 2 5 0 0 0 )
摘 要: 为 了高效获 取更 多的微 博数据 , 针 对调 用微博 A P I 和 网 页版 ( c o n版) r 等传 统 微博 爬 虫 在数 据 采 集 中所 存 在 的 问
P e r t o c h e m i c a l T e c h n o l o g y , Ma o m i n g 5 2 5 0 0 0, C h i n a )
Ab s t r a c t : I n o r d e r t O o b t a i n mo e r mi c r o b l o g d a t a e f f i c i e n t l y, a J a v a -b a s e d a c q u i s i t i o n s y s t e m o f S i n a i s d e s i g n e d a n d d e v e l o p e d f o r We i —
第2 7卷 第 9期 2 0 1 7年 9月
计 算 机 技 术 与 发 展
COMP U I ER T ECHNOL OGY AND DEVEL OP MENT
V0 1 . 27 N o . 9 S e p . 2 0 1 7
基于 J a v a的 新 浪 微 博 爬 虫 研 究 与 实 现
选功能。为验证该系统的有效性和可行性, 与其他传统方法进行 了分析对 比。实验验结果表明, 所提 出的系统爬取效率
更高 , 实 现代码 更简 便 。 关键 词 : 新浪微 博 ; 网络爬 虫 ; J a v a ; 数 据挖 掘
中图分 类号 : T P 3 9 文献 标识 码 : A 文章 编号 : 1 6 7 3 — 6 2 9 X ( 2 0 1 7 ) 0 9 — 0 1 9 1 — 0 6
题, 设计 开发 了一个基 于 J a v a 的采集 新浪 微博 We i b o . c n 站 点的 网络爬 虫 系统 。该 系 统通 过 广度 遍历 结 合组 拼 U R L的方 式采 集 网页 源码 , 使 网页 源码更 加简 洁 , 纯 净度更 高 , 降低 了网络 传输压 力并 减 少 了 H T M L源码 解 析 时间 。主 要 实现 了微 博模 拟 登陆 、 微 博 网页爬取 、 微博 页 面数 据 提取 和任务 调度 控 制 , 并对 爬 取 数 据进 行 了分 析 , 在 爬虫 中添 加 了 主题 微 博筛
C H E N K e , L A N Di n g - d o n g , K E We n - d e , L I S h u - j u n , D E NG We n - t i a n
( C o l l e g e o f C o mp u t e r a n d E l e c t r o n i c I n f o r ma t 来自百度文库 o n , Gu ng a d o n g Un i v e r s i t y o f