【IT专家】[python爬虫] Selenium定向爬取海量精美图片及搜索引擎杂谈
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
本文由我司收集整编,推荐下载,如有疑问,请与我司联系[python爬虫] Selenium定向爬取海量精美图片及搜索引擎杂谈2015/10/02 0 我自认为这是自己写过博客中一篇比较优秀的文章,同时也是在深夜凌晨2点满怀着激情和愉悦之心完成的。首先通过这篇文章,你能学到以下几点: 1.可以了解Python简单爬取图片的一些思路和方法 2.学习Selenium自动、测试分析动态网页和正则表达式的区别和共同点 3.了解作者最近学习得比较多的搜索引擎和知识图谱的整体框架 4.同时作者最近找工作,里面的一些杂谈和建议也许对即将成为应届生的你有所帮助 5.当然,最重要的是你也可以尝试使用这个爬虫去爬取自己比较喜欢的图片总之,希望文章对你有所帮助。如果作者又不足之处或错误的地方,还请海涵~一. Python定向爬取海量图片运行效果如下图所示:这是从游讯图库中爬取图片(非常不错的网站,推荐大家去浏览),其它网站方法类去修改。运行py文件后,输入“极品飞车”可以爬取主题相关的图集。
程序源代码如下图所示:
# -*- coding: utf-8 -*- Crawling pictures by selenium and urlliburl: pic.yxdown/list/0_0_1.htmlCreated on 2015-10-02 @author: Eastmount CSDN import time import re import os import sysimport urllibimport shutilimport datetimefrom selenium import webdriver from selenium.webdrivermon.keys import Keys import selenium.webdriver.support.ui as ui from selenium.webdrivermon.action_chains import ActionChains #Open PhantomJS driver = webdriver.PhantomJS(executable_path= G:\phantomjs-1.9.1-windows\phantomjs.exe ) #driver = webdriver.Firefox()wait = ui.WebDriverWait(driver,10) #Download one Picturedef loadPicture(pic_url, pic_path): pic_name = os.path.basename(pic_url) #delete path, get the filename urllib.urlretrieve(pic_url, pic_path + pic_name)#Visit the picture page and get script (.*?) /script originaldef getScript(elem_url,path): print elem_url print path #Error: Message: Error Message = Element does not exist in cache driver.get(elem_url) pic_url = driver.find_element_by_xpath( //div[@id= wrap ]/div/div[2]/a ) print pic_url.text #By