Python+selenium+PhantomJS获取百度搜索结果真实链接地址

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Python+selenium+PhantomJS获取百度搜索结果真实链接
地址
祝愿所有参加高考的孩子们都能超水平发挥,考出好成绩,考上理想的学校!也希望你们考上大学之后仍然保持高考前的学习劲头!
===========正文=============
问题描述:在爬取百度搜索结果时,往往会得到一个中转链接,而不是真实地址,在浏览器打开这个中转链接之后才会变成真实地址。

可以通过破解算法、抓包跟踪等不同手段来还原这样的地址,也可以模拟浏览器打开百度跳转链接之后获取真实地址,虽然速度稍慢一点,但是方便实现。

本文使用selenium+PhantomJS来模拟这个过程并获取真实地址。

1、打开网址/download.html,下载PhantomJS,本文以Windows平台为例。

下载压缩文件,把解压缩得到的phantomjs.exe 复制到Python 3.6的安装目录下,也就是解释器主程序python.exe 所在的文件夹。

2、使用pip命令安装Python扩展库selenium。

3、使用PhantomJS打开中转链接,然后获取真实地址。

以上一篇文章Python 3.6模拟输入并爬取百度前10页密切相关链接为例,在代码中增加下面几行代码。

运行结果:
----------喜大普奔----------。

相关文档
最新文档