python爬取的页面没有想要的数据,数据被隐藏
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Python爬虫进阶(一)
Requests请求成功,获取的页面没有想要的数据
1、准备用python分析一下某网站漏洞及其补丁的对应关系,无奈遇到数据隐藏的情况。
在浏览器中能够看到CVE编号,如图所示:
但是右键查看页面源代码时,无法搜索到页面信息。
显然,数据不在当前页面,利用requests.get(url,headers= headers)是无法获取到数据的。
2、遇到这种情况,首先怀疑数据被隐藏到其他地方,很有可能数据通过json格式进行传输。
首先按F12,到开发者界面,按图中序号进行逐次操作,如图所示:
(1)点击网络选项,(2)选中XHR,(3)刷新网页,(4)依次点击弹出的链接,(5)查看响应数据,找到页面分析的内容。
3、通过第2步,找到数据被隐藏到一个json文件中,点击消息头,明显看到请求的方法为
GET()方法以及请求的URL和headers,再利用requests.get(url,headers= headers)就可以获取到数据了。
4、其实利用json数据,少去了网页解析步骤,对数据的整理相对简单了。
随便说下,利用
json.loads(respon.text)可以将json数据格式进行转换。