Python编程精品教程 第17章 大数据应用入门

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2、高速,要求能支持同时能支持每秒上千上万次的并发访问数据的能力; 或在PB级别的数据量的情况下,(时间上)能在秒级快速响应和处理。
3、多变,指需要处理各种各样格式的数据,如网页数据、图片数据、视频 数据、音频数据、财务表格数据等。
17.1 什么是大数据
“海量数据的获取+大数据管理+大数据分析应用”其实对 应着大数据的三个方面的技术要求
17.2 一个完整的网络爬虫
>>> import requests
#导入requests模块(获取网页)
ቤተ መጻሕፍቲ ባይዱ
>>> r=requests.get('https://www.amazon.cn/') #获取指定URL的网页信息
>>> print(r.text)
#以文本形式显示获取网页信息
17.3 Python+Spark
利用MongoDB 等分布式数据库系统,可以实现数据的分布式 存储及读写操作。另外,对于繁重的数据计算任务,也可以 实现分布式计算。这里简单介绍一下Spark集群计算框架 (Cluster Computing Framework),让读者初步明白分布式计算 的特点,及深入学习方向。
第十七章介绍完成 谢谢听讲!
1、海量数据的获取,需要相应的数据获取技术。 2、大数据管理对应分布式处理技术的数据库系统的选择。 3、大数据分析应用对应大数据分析技术。
17.2 一个完整的网络爬虫
把计算机连接到互联网上,使之可以访问需要爬取数据的 网站。
1、安装Python 这里假定已经安装了Python3.X。 2、requests库 3、安装MongoDB 用于存放爬取网页数据,详见下一节内容。 4、安装pymongo 用于实现python访问MongoDB的数据库驱动程序。
Python从入门到实战
第十七章 大数据应用入门
第十七章 讲解主要内容
17.1 什么是大数据 17.2 一个完整的网络爬虫 17.3 Python+Spark
17.1 什么是大数据
定义26 大数据(Big Data) 美国的Gartner公司把大数据定义为高速、巨量 且(或)多变的数据。所谓高速指数据的生成或者变化速度很快。所谓 巨量是指数据的规模很大。所谓多变是指数据类型的范围或数据中所含 信息的范围非常广泛。 1、巨量,意味着一台普通的服务器无法满足数据存储及处理的需求,必 须采用多服务器的分布式处理,分布式处理技术也是大数据技术的标配 内容之一。如基于大数据处理的分布式数据库系统。目前,巨量数据入 门量级在PB级别,因为随着硬件技术的发展,当前一般服务器都具备了 存储几十个TB、几百个TB数据的能力。
相关文档
最新文档