基于python的网络爬虫简单实现
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于python的网络爬虫简单实现
摘要:随着互联网的飞速发展,网络上的信息呈爆炸式的增长趋势,为了采集网站上的有用的信息如文本、图片、视频等,可以使用网络爬虫技术从网站上进行爬取。首先主要介绍网络爬虫的基本概念,选择python语言的原因以及如何使用python3中的urllib库实现一个简单的网络爬虫,获取所需的信息。最后对网络爬虫技术的未来前景进行展望。
关键字:python 网络爬虫 urllib库
一、网络爬虫
1.1网络爬虫的基本概念
网络爬虫(Web crawler)又叫做网络蜘蛛,是一个自动访问万维网获取所需要信息的程序。网络爬虫技术指的是用爬虫软件对web页面进行请求,并且获取Web服务器的响应的过程。通过网络爬虫技术可以自动采集到所需的信息,并将其保存下来,有利于进行下一步的数据分析。这种技术被广泛应用于搜索引擎或者一些新闻网站等,将爬取到的数据进行一定的处理,使得用户可以很方便、快捷地获取所需要的信息。
1.2网络爬虫的原理
网络爬虫技术的实现离不开URL(Uniformed Resource Location,通用资源适配符)。URL是用来唯一标识万维网上的文档,通过它来指示资源的位置,从而能够找到并获取资源。
URL的格式是<协议>://<域名>:<端口号>/路径。协议字段中常用的是HTTP。HTTP规定了客户进程与服务器进程进行通信的方式和规则。在网络爬虫技术中,客户端进程指的是爬虫程序,爬虫程序发送HTTP请求报文给WEB服务器,服务器对收到的报文进行响应,给客户端回送HTTP响应报文。域名是指存放资源的主机名或者服务器的名称,通过DNS(Domain Name System,域名系统)可以获得域名到IP地址的映射,从而获得WEB服务器的IP地址,通过底层的网络就能够到达目的服务器,实现通信过程。端口号是用来区分不同的应用进程(HTTP默认端口号是80),而路径是指目的资源在服务器中的具体路径,可以准确地对目的资源进行定位。通过以上对URL的解读,可以了解到网络上的资源都是被URL 地址所定位的。
网络爬虫技术的实现是离不开URL的,它的基本工作原理是将一些感兴趣的URL设为初始URL进行爬取(发起HTTP请求报文),下载获得网页,对得到的内容进行分析匹配,获得有用的信息,如数据、文本、图片等。同时可以从获得的网页中提取新的URL,对这些新的URL进行分析过滤,将感兴趣的URL放入初始URL中,再执行上面的操作,这是一个循环往复的过程,直至遇到结束条件停止。最后将爬取到的数据进行处理、分析、挖掘,可以从中提取到所需要的有用的信息,并且可以进行数据可视化处理,将数据更直观的展现在人们眼前。利用网络爬虫技术可以自动获取所需要的万维网文档,能够自动收集所需的数据,在信息大爆炸的今天,网络爬虫起着举足轻重的作用。
二、python语言
2.1python语言基本概述
Python是一种面向对象的、解释型程序设计语言,它拥有强大和丰富的库支撑,有很多现成的模块、函数、类可以直接进行调用。正是因为它有丰富的库支撑,使它具有语言简洁、简单易学的优点。除此之外,Python还是一门严谨的、
极具可读性和通用性的程序设计语言,它可以让用户编写出更易读、易维护的代码。Python的设计哲学是“简单”、“明确”,“优雅”。它的宗旨是面对一个特定的
问题,选择一种行之有效的方法进行解决。而不像perl语言推崇的“解决问题的
方法有多个”,这种过于强调灵活性会导致大型项目维护起来很困难,会耗费大量时间。
2.2Python的版本及优点
Python有两个不同版本,分别为Python2和Python3。这两个版本有些地方
是很类似的,但它们之间并不是完全兼容的,因为有些部分发生了彻底性地变化。Python2发布于2000年年底,是较早的版本。Python2.7是Python2.x系列的最后
一个版本,它将在2020年以后失去支持。而Python3则是Python的未来,正在
开发中的语言版本。因此在本文中介绍的是使用Python3版本简单实现网络爬虫。
下面来谈一下在网络爬虫中使用Python来实现的优点:1)抓取网页实现简单、代码简洁,写出的代码具有易读性;2)可以使用功能强大的正则表达式,
对获得到的网页进行匹配分析,找出所需要的信息,如文本、图片、数据等;3)功能强大的爬虫框架scrapy。scrapy是一个快速、高层次的WEB抓取框架用于抓
取WEB站点并从页面中提取结构化数据,可以供人们按照需求修改框架,具有简单轻巧、十分方便的优点。
三、基于Python的网络爬虫的简单实现
3.1urllib库的简介
本文中主要使用的是Python3中的urllib库来简单实现网络爬虫功能。在此之前,需要先对urllib进行简要介绍:urllib是由几个模块组成的一个包,它的工作
过程离不开前面提到过的URL。urllib中包含四个模块分别是:
a)urllib.request模块。用来发送请求和获取响应。
b)urllib.error模块。它包含了urllib.request产生的异常。
c)urllib.parse模块。用来解析和处理URL。
d)urllib.robotparser模块。用来解析robots.txt文件。
在这四个模块中,urllib.request模块提供了最基本的构造HTTP请求的方法,
利用它可以模拟浏览器的一个请求发起过程,同时它还带有处理授权验证、重定向、cookies以及其他内容。正是由于python自身带有的强大而丰富的库,使得python语言具有简单易学的特性。urllib.error模块是用来处理urllib.request产生
的异常,例如当试图打开一个不存在的网页时,就会产生URLError这个异常。这
时就可以使用urllib.error这个模块处理异常。
在介绍urllib.robotparse模块之前我们需要了解robots协议的基本概念。Robots
协议又被叫做爬虫协议、机器人协议,它的全名叫做网络爬虫排除标准,它通常
是一个放在网站的根目录下的叫做robots.txt的文本文件,用来告诉爬虫和搜索
引擎哪些页面可以抓取,哪些不可抓。当一个爬虫访问一个站点时,它首先会检
查这个站点根目录下存放的robots.txt文件,如果存在,就对文件进行分析,按
照文件中给定的爬取范围进行爬取。否则,爬虫会访问所有可以直接访问的页面。而urllib.robotparse模块就是用来解析robots.txt文件的。
3.2网络爬虫的简单实现
下面使用urllib.request模块构造http请求,以python官网为例,将网页抓取下来,要抓取网页的URL为 https://。代码如下所示:
import urllib.request
response=urllib.request.urlopen('https://')
print(response.read().decode('utf-8'))