Python爬虫东方财富贴吧数据
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Python爬虫东方财富贴吧数据
展开全文
一、帖子列表页
看帖子列表页面,url有规律,构造一个帖子详情页的解析函数,/list,meigu.html页面上点击下一页,跳转后url变为,/list,meigu_2.html,因此按照常规变换page就可以实现这个贴吧列表页的遍历。
在这个页面上需要抓取到帖子的url,以及浏览量和评论数,为进入帖子详情页做准备。
二、帖子详情页
打开几个帖子,会发现帖子url都含有/new标识,有的url则不是这样,因此我们提取出以后判断一下href属性取出的值是否是这个标识。
进入帖子详情页,找一些评论数多的帖子,观察翻页规律,评论过30条会翻页,同时还需要对评论中没有评论的只有图片的评论进行处理。
这样整体上发现规律需要在帖子列表页根据评论数计算出每个帖子请求的总次数,进行遍历,生成所有评论的url请求,传递到帖子评论页面详情页的解析函数
三、评论页面详情页函数解析
抓取帖子标题帖子内容回复人回复内容回复时间同时接受前面传递过来的数据一起存入数据库
四、代码
学习过程中遇到什么问题或者想获取学习资源的话,欢迎加入学习交流群
626062078,我们一起学Python!。