10数据可视化基础 (5)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。 Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工 具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
基于Python的散点图实现
1. import ggplot as gp 2. import pandas as pd 3. crime = pd.read_csv("crimeRatesByState2005.csv") 4. plot = gp.ggplot(gp.aes(x='murder', y='burglary'), data=crime) 5. points = gp.geom_point(color='red’) 6. print(plot + points)
02
数据的关联性
数据的关联性
数据的关联性,其核心就是指量化的数两据个的数据相间的数理关系。关联性强,是指当一 个数值增长时,另一个数值也会随之发生变关化关。系相反地,关联性弱,就是指一个数值增 长时,另一个数值几乎没有发生变化。
数据的关联性主要有正相关、负相关和不相关关系。下面我们用散点图来研究数据 的关联性。
时间轴 根据月份显示数据,先后顺序排列
散点图中显示关联性
ggplot和pandas简介
python的常用可视化包是matplotlib数,据g的gp相lot基于该包的二次开发的包,也是 python用来做数据可视化的第三方包。gg关pl关ot系读取的数据格式为pandas的DataFrame, ggplot主要主要绘图思想为图层叠加思维。
分析数据时,也可以从整体进行观察,或者关注数据的分布。数据间是否存在重叠 或者是否毫不相干?还可以更宽泛的角度观察各个分布数据的相关关系。其实最重要的 一点,就是数据在进行可视化处理后,呈现在读者眼前的图表所表达的意义是什么。
关系数据具有关联性和分布性,下面我们将通过具体实例来了解关系数据的可视化 分析,以及如何观察数据间的相关关系。
大数据可视化技术 第五章
关系数据可视化
01
02
CONTENT
03
01
关系数据在大 数据中的应用
关系数据在大数据中的应用
对于关系数据,我们要做的是尝试着数探据索的事物相的相关关系,而不再关注难以捉摸的 因果关系。这种相关性往往不能告诉读者事关物关为系何产生,但是会给读者一个事物正在发 生的提醒。关系数据很容易通过数据进行验证的,也可以通过图表呈现,然后引导读者 进行更加深入的研究和探讨。
散点图
在第三章中我们已经了解到散点图是数由据一的些散相乱的点组成的图表,它的基本框架如
下图所示:
关关系
如果将图表区域比做 一个盘子,那么这些 散图的点就是“大珠
数值轴 从0开始 4
的数值标
出图表的
刻度
3
每个点都有对应的横 轴和纵轴的坐标
小珠落玉盘”,有如
2
一颗颗繁星,分布在
1
广袤的天空。
0 1月 2月 3月 4月 5月
运行截图
基本呈现的是正相关关系,这里加入了一条拟合曲线让这个图表更加有用, 可以更加明确的看出谋杀案和入室抢劫案之间的关系。
谢谢观看
运行截图
可以看出,谋杀案和入室盗窃案的两组数据似乎呈现一个正相关的关系。但是可以 一个离群点,使得横轴延伸的很长,整体数数据据的布相局不是很清楚,我们可以将其过滤掉。
关关系
基于Python的散点图实现
1. import ggplot as gp 2. import pandas as pd 3. crime = pd.read_csv("crimeRatesByState2005.csv") 4. crime = Leabharlann Baidurime[crime.state != "United States"] 5. crime = crime[crime.state != "District of Columbia"] 6. plot = gp.ggplot(gp.aes(x='murder', y='burglary'), data=crime) 7. points = gp.geom_point(color='red’) 8. smooth = gp.stat_smooth(method='loess', color='red’) 9. print(plot + points + smooth)
基于Python的散点图实现
1. import ggplot as gp 2. import pandas as pd 3. crime = pd.read_csv("crimeRatesByState2005.csv") 4. plot = gp.ggplot(gp.aes(x='murder', y='burglary'), data=crime) 5. points = gp.geom_point(color='red’) 6. print(plot + points)
02
数据的关联性
数据的关联性
数据的关联性,其核心就是指量化的数两据个的数据相间的数理关系。关联性强,是指当一 个数值增长时,另一个数值也会随之发生变关化关。系相反地,关联性弱,就是指一个数值增 长时,另一个数值几乎没有发生变化。
数据的关联性主要有正相关、负相关和不相关关系。下面我们用散点图来研究数据 的关联性。
时间轴 根据月份显示数据,先后顺序排列
散点图中显示关联性
ggplot和pandas简介
python的常用可视化包是matplotlib数,据g的gp相lot基于该包的二次开发的包,也是 python用来做数据可视化的第三方包。gg关pl关ot系读取的数据格式为pandas的DataFrame, ggplot主要主要绘图思想为图层叠加思维。
分析数据时,也可以从整体进行观察,或者关注数据的分布。数据间是否存在重叠 或者是否毫不相干?还可以更宽泛的角度观察各个分布数据的相关关系。其实最重要的 一点,就是数据在进行可视化处理后,呈现在读者眼前的图表所表达的意义是什么。
关系数据具有关联性和分布性,下面我们将通过具体实例来了解关系数据的可视化 分析,以及如何观察数据间的相关关系。
大数据可视化技术 第五章
关系数据可视化
01
02
CONTENT
03
01
关系数据在大 数据中的应用
关系数据在大数据中的应用
对于关系数据,我们要做的是尝试着数探据索的事物相的相关关系,而不再关注难以捉摸的 因果关系。这种相关性往往不能告诉读者事关物关为系何产生,但是会给读者一个事物正在发 生的提醒。关系数据很容易通过数据进行验证的,也可以通过图表呈现,然后引导读者 进行更加深入的研究和探讨。
散点图
在第三章中我们已经了解到散点图是数由据一的些散相乱的点组成的图表,它的基本框架如
下图所示:
关关系
如果将图表区域比做 一个盘子,那么这些 散图的点就是“大珠
数值轴 从0开始 4
的数值标
出图表的
刻度
3
每个点都有对应的横 轴和纵轴的坐标
小珠落玉盘”,有如
2
一颗颗繁星,分布在
1
广袤的天空。
0 1月 2月 3月 4月 5月
运行截图
基本呈现的是正相关关系,这里加入了一条拟合曲线让这个图表更加有用, 可以更加明确的看出谋杀案和入室抢劫案之间的关系。
谢谢观看
运行截图
可以看出,谋杀案和入室盗窃案的两组数据似乎呈现一个正相关的关系。但是可以 一个离群点,使得横轴延伸的很长,整体数数据据的布相局不是很清楚,我们可以将其过滤掉。
关关系
基于Python的散点图实现
1. import ggplot as gp 2. import pandas as pd 3. crime = pd.read_csv("crimeRatesByState2005.csv") 4. crime = Leabharlann Baidurime[crime.state != "United States"] 5. crime = crime[crime.state != "District of Columbia"] 6. plot = gp.ggplot(gp.aes(x='murder', y='burglary'), data=crime) 7. points = gp.geom_point(color='red’) 8. smooth = gp.stat_smooth(method='loess', color='red’) 9. print(plot + points + smooth)