Python编程精品教程第17章大数据应用入门

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2、高速，要求能支持同时能支持每秒上千上万次的并发访问数据的能力；或在PB级别的数据量的情况下，（时间上）能在秒级快速响应和处理。
3、多变，指需要处理各种各样格式的数据，如网页数据、图片数据、视频数据、音频数据、财务表格数据等。
17.1 什么是大数据
“海量数据的获取+大数据管理+大数据分析应用”其实对应着大数据的三个方面的技术要求
17.2 一个完整的网络爬虫
>>> import requests
#导入requests模块（获取网页）
ቤተ መጻሕፍቲ ባይዱ
>>> r=requests.get('https://www.amazon.cn/') #获取指定URL的网页信息
>>> print(r.text)
#以文本形式显示获取网页信息
17.3 Python+Spark
利用MongoDB 等分布式数据库系统，可以实现数据的分布式存储及读写操作。另外，对于繁重的数据计算任务，也可以实现分布式计算。这里简单介绍一下Spark集群计算框架 (Cluster Computing Framework)，让读者初步明白分布式计算的特点，及深入学习方向。
第十七章介绍完成谢谢听讲！
1、海量数据的获取，需要相应的数据获取技术。 2、大数据管理对应分布式处理技术的数据库系统的选择。 3、大数据分析应用对应大数据分析技术。
17.2 一个完整的网络爬虫
把计算机连接到互联网上，使之可以访问需要爬取数据的网站。
1、安装Python 这里假定已经安装了Python3.X。 2、requests库 3、安装MongoDB 用于存放爬取网页数据，详见下一节内容。 4、安装pymongo 用于实现python访问MongoDB的数据库驱动程序。
Python从入门到实战
第十七章大数据应用入门
第十七章讲解主要内容
17.1 什么是大数据 17.2 一个完整的网络爬虫 17.3 Python+Spark
17.1 什么是大数据
定义26 大数据（Big Data）美国的Gartner公司把大数据定义为高速、巨量且（或）多变的数据。所谓高速指数据的生成或者变化速度很快。所谓巨量是指数据的规模很大。所谓多变是指数据类型的范围或数据中所含信息的范围非常广泛。 1、巨量，意味着一台普通的服务器无法满足数据存储及处理的需求，必须采用多服务器的分布式处理，分布式处理技术也是大数据技术的标配内容之一。如基于大数据处理的分布式数据库系统。目前，巨量数据入门量级在PB级别，因为随着硬件技术的发展，当前一般服务器都具备了存储几十个TB、几百个TB数据的能力。

Python编程精品教程 第17章 大数据应用入门

Python编程精品教程第17章大数据应用入门