Python网络爬虫实习报告总结归纳
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Python网络爬虫实习报告
目录
一、选题背景
二、爬虫原理
三、爬虫历史和分类
四、常用爬虫框架比较
Scrapy框架:Scrapy框架是一套比较成熟的Python爬虫框架,是使用Python开发的快速、高层次的信息爬取框架,可以高效的爬取web页面并提取出结构化数据。Scrapy应用范围很广,爬虫开发、数据挖掘、数据监测、自动化测试等。
Crawley框架:Crawley也是Python开发出的爬虫框架,该框架致力于改变人们从互联网中提取数据的方式。
Portia框架:Portia框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框架。
newspaper框架:newspaper框架是一个用来提取新闻、文章以及内容分析的Python爬虫框架。
Python-goose框架:Python-goose框架可提取的信息包括:<1>文章主体内容;<2>文章主要图片;<3>文章中嵌入的任heYoutube/Vimeo视频;<4>元描述;<5>元标签
五、数据爬取实战(豆瓣网爬取电影数据)1分析网页
# 获取html源代码
def __getHtml():
data = []
pageNum = 1
pageSize = 0
try:
while (pageSize <= 125):
# 'Referer':None #注意如果依然不能抓取的话,这里可以设置抓取网站的host
# }
# = [headers]
pageNum)
pageSize += 25
pageNum += 1
print(pageSize, pageNum)
except Exception as e:
raise e
return data
2爬取数据
def __getData(html):
title = [] # 电影标题
#rating_num = [] # 评分
range_num = [] # 排名
#rating_people_num = [] # 评价人数
movie_author = [] # 导演
data = {}
# bs4解析html
soup = BeautifulSoup(html, "")
for li in ("ol", attrs={'class':
'grid_view'}).find_all("li"):
("span", class_="title").text)
#("div", class_='star').find("span",
class_='rating_num').text)
("div", class_='pic').find("em").text)
#spans = ("div", class_='star').find_all("span") #for x in range(len(spans)):
# if x <= 2:
# pass
# else:
# (spans[x].string[-len(spans[x].string):-3]) str = ("div", class_='bd').find("p", class_='').() index = ("主")
if (index == -1):
index = ("...")
print("div", class_='pic').find("em").text)
if ("div", class_='pic').find("em").text == 210): index = 60
# print("aaa")
# print(str[4:index])
(str[4:index])
data['title'] = title
#data['rating_num'] = rating_num
data['range_num'] = range_num
#data['rating_people_num'] = rating_people_num
data['movie_author'] = movie_author
return data
3数据整理、转换
def __getMovies(data):
("")
("
here
("
")("
爬取豆瓣电影
")("
作者:刘文斌
")("
时间:" + nowtime + "
")("
")
("
电影 | ") #("评分 | ")排名 | ")评价人数 | ")导演 | ")
---|