大数据探索性分析最新版课件第6章
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
缺省此函数将默认生成数值映射至圆的半径
分类和分面展示
• 通过数据点的颜色或形状来分类展示:在使用 ggplot2包作图时,可以通过将类别变量指定为图形属 性自动实现分组分类,例如:我们可以用region映射至 散点图中点的大小或者颜色这一图形属
• 分面展示:在一个包含分类变量的数据集中,要研究 的两个数值变量间的关系可能受分类变量的影响,我 们称之为组间差异。此种情况中,前面提到的分面技 术将是非常有效的工具。它通过将母数据集依据类 别切割为若干个子数据集,随后分别绘制出图形并列 展示。
• 数据类别的排序方法 • 避免数据丢失 • 帮助读者解读图形 • 避免扭曲数据 • 选择合适的统计图形 • 尽量使用2D图形 • 几种常用图形规范的使用
统计制图三大要素
• 信息
– 海量 复杂 高维 清理 统计
• 设计
– 视觉 交互 简介 适度
• 沟通
– 直观 高效 传递 信息 发现知识
一份图表产生的过程
定性变量制图
• 堆积条形图、簇状条形图 • ggplot(data,aes(x=grade,fill=term))+geom_bar()
定性变量制图
• 饼图 • gplot(data,aes(x=factor(1),fill=grade))+geom_bar()+coord
_polar(theta="y“)
定性变量制图
• Cleveland点图 • data3<-data[1:10,]#选取原数据前10个样本#绘图只需
要采用geom_point函数 ggplot(data3,aes(x=reorder(id,installment),y=installment) )+geom_point(size=5)
定量变量制图
• 频数直方图
• #首先处理缺失值,为方便不妨将installment这一列作为子集提取出来 data4<-subset(data,select=c(installment,grade,term))
• data5<-na.omit(data4)#使用na.omit函数删除缺失数据 • binsize<-diff(range(data5$installment))/40#以binsize表示求得的组距 • ggplot(data5,aes(x=installment))+geom_histogram(binwidth=binsize,fill="pink",c
olour="blue")#最后进行绘图,fill参数和colour参数分别对柱状和边框着色
定量变量制图
• 加入分类变量的直方图 • p<-ggplot(data5,aes(x=installment,fill=grade)) • p+geom_histogram(position=“identity”,alpha=0.4)
– 19世纪前半叶,在有了前人的设计和技术的铺垫后,数据开始得到人们 的重视,统计制图法和主题地图以前所未有的速度迅猛发展。
– 到20世纪上半叶,统计制图的发展虽不及统计模型,但它的理论进入了 教材、课程,并被政府、商业及科学等领域广泛使用。
– 1975年至今,统计制图以快速的步伐,在更加广泛的学科发展。桌面操 作系统、计算机图形学、人机交互等技术催生了交互式可视化。
at="identity")
定性变量制图
• 频数条形图
• 频数条形统计图是真正的单变量数据统计图,与简单条形图 的区别在于:(1)不设置y轴对应的映射;(2)去掉stat="identity",默 认设置为stat="bin",即自动计算每组频数
• ggplot(data,aes(x=grade))+geom_bar()
统计制图的发展与作用
• 统计制图的作用
– 信息记录 – 信息分析和推理 – 信息传播与协同
统计制图的基本原则
• 一张好图的基本特征
– 显示数据。 – 使读者将注意力放在统计图形表达的内容上,而不是制作
图形的程序上。 – 避免扭歪曲。 – 突出数据之间的比较。 – 服务于一个明确的目的
统计制图的注意事项
统计制图的发展与作用
• 统计制图早已有之,统计制图的发展几乎与整个人类近现代 文明一脉相承,在统计图表、地图、工程制图等方面,统计制 图技术经历了数百年的发展。
– 15世纪至17世纪,统计制图思想在人类社会初现萌芽,人们开始进行统 计制图的早期探索。
– 18世纪,由于统计理论和实验数据分析的发展,人类发明了抽象图和函 数图大量被发明。
二维变量的展示
• 当我们想要把主要精力投入在绘制的图形而不是繁 琐的参数设置上时,ggplot2包在绘图上的优势便得以 体现出来,下面我们将具体领略ggplot2包简洁的绘图 流程与丰富的绘图功能。
• qplot(log(aGNI),life_exp_f,data=keyindicators1)
核密度估计曲线
• 核密度估计曲线是对密度的估计,就是采用平滑的峰值函数 (“核”)来拟合观察到的数据点,从而对真实的概率分布曲线 进行模拟。它为数值数据的分布提供了一种平滑的描述,从 中可以看出分布的大致形状。
• 【数据适用类型】数值数据,一个连续型变量
• data<-read.csv("D:/lendingclub/LoanStats3a.csv",header=TRUE,sep=",") • library(ggplot2) • ggplot(data,aes(x=funded_amnt))+geom_density()
• ggplot2的基本概念主要涉及数据(Data)和映射(Map-ping)、标 度(Scale)、几何对象(Geometric)、统计变换(Statistics)、坐标 系统(Coor-dinate)、图层(Layer)和分面(Facet)
第2节 单变量数据百度文库展示
定性变量图
• 简单条形图 • ggplot(data1,aes(x=factor(id),y=loan_amnt))+geom_bar(st
维恩图
• 维恩图,又叫做文氏图,是集合论中用于显示几个元 素集合重叠部分的图示。维恩图用圆来表示一个集 合,用圆的重叠区域表示集合共同包含的元素。R软 件能绘制维恩图的是VennDiagram中的venn.diagram() 函数
第4节 数据分布形态的展示
直方图
• 直观展示原始数据分布形态的最简单图示就是直方 图,它可以直观展示数值型变量的集中水平、集中趋 势以及分布的对称性和陡峭度。
定量变量制图
• 分面图形 • # 网格型 • p+geom_histogram()+facet_grid(.~grade)
定量变量制图
• # 封装型 • p+geom_histogram()+facet_wrap(~grade)
第3节 多变量数据的展示
二维变量的展示
• 二维变量的展示,最常用的就是散点图。它通常用来刻画两 个连续型数值变量的关系,通过将观测点在两个变量上的取 值映射到坐标轴上由一个点来表示,若干个观测点将会在坐 标轴上呈现出一定形态的分布。
• qplot(log(aGNI),life_exp_m,data=keyindicators1)
散点图的加工与美化
• 添加趋势线 • 添加边际地毯 • 添加标签
三维变量的展示
• 三维散点图就是在由3个变量确定的三维空间中研究变量之 问的关系,由于同时考虑了3个变量
• library(scatterplot3d) • with(keyindicators1,{ • s3d<-scatterplot3d(log(GNI),log(population),life_exp_f,highlight.3d=TRUE) • #创建三维散点图 • fit<-lm(life_exp_f~log(GNI)+log(population))s3d$plane3d(fit,col="blue") • #添加趋势面})#with表示{}中的所有操作都限制在数据keyindicators1上,注
#默认等高线图 p+geom_point()+stat_density2d()
密度图
#有填充颜色的等高线 p+stat_density2d(aes(fill=..density..),geom = "tile",contour= FALSE)
#有数据点,并将核密度估计映射给alpha p+geom_point()+stat_density2d(aes(alpha=..density..),geom="til e",contour= FALSE)
• 我们使用R基础图形包graphics绘制AGNI与life_exp_m及 AGNI与life_exp_f的简单散点图,可通过plot函数来实现
• par(mfrow=c(1,2))#将绘图区域分成1行2列,并按行的顺序依次 绘图填充 plot(log(keyindicators1$aGNI),keyindicators1$life_exp_f,xlab="国 民人均收入",ylab="女性预期寿命 ",pch=2,cex=0.6)plot(log(keyindicators1$aGNI),keyindicators1$lif e_exp_m,xlab="国民人均收入",ylab="男性预期寿命 ",pch=3,cex=0.6)
二维变量的密度图
• 地理学里,地图上地势高度相同的点连成的曲线被 称之为等高线,将地势高度转化为二元随机变量联 合密度函数的取值,那么等高线图就能借以绘制一 个二维随机变量的核密度估计图。
#生成几何对象 p<ggplot(keyindicators1,aes(x=log(aGNI) ,y=life_exp_m))
• R具有突出的绘图功能,可设置参数来精确地控制图形。R绘 制的图形可满足出版印刷的要求,支持输出jpg、tiff、eps、 emf、pdf、png等各种格式的图形。
• ggplot2是HadleyWickham于2005年创建的数据可视化包。数 据分析者都在数据层面上思考问题,而不是拿着水彩笔和调 色板一笔一划作图;而计算机程序员则倾向于画点画线。
图表类型的选择
统计制图的工具
• 纯可视化图表生成软件 • 商业智能分析绘图软件 • 数据地图类软件 • 可视化大屏类软件 • 数据挖掘编程语言
R语言的ggplot包简介
• 本书选用1R作为统计制图工具。R是一种统计绘图语言,同时 也指用于实现该语言的软件。R的软件本身和程序包的源代 码均向用户公开,是一个免费的自由软件。
核密度估计曲线
• 有时候我们不仅仅对一个变量的分布进行探讨,而需要对同 一变量在不同分类下的分布状态进行比对,因此接下来介绍 分组密度曲线.
• 【数据适用类型】一个连续型变量 • ggplot(data,aes(x=funded_amnt))+geom_histogram()
茎叶图
• 茎叶图,由统计学家约翰托奇(ArthurBowley)设计,是将数组中 的数按位数进行比较,将数的大小基本不变或变化不大的位 作为一个主干(茎),将变化大的位的数作为分枝(叶),列在主干 的后面,这样就可以清楚地看到每个主干后面的几个数以及 每个数具体是多少。
第六章 大数据的展示
本章的主要内容
• 第1节 统计制图的基本概念 • 第2节 单变量数据的展示 • 第3节 多变量数据的展示 • 第4节 数据分布形态的展示 • 第5节 高维数据的展示 • 第6节 空间数据的展示 • 第7节 统计图的美化 • 第8节 大数据展示的综合应用
第1节 统计制图的基本概念
意with里面设置的变量在外部无法访问
三维变量的展示
• 气泡图
• 气泡图与散点图相似,不同之处在于,气泡图允许在图表中额外加入一个 表示大小的变量。
• gplot(keyindicators1,aes(x=log(aGNI),y=life_exp_f,size=population))+ • geom_point(shape=21,colour="black",fill="lightblue")+ • scale_size_area(max_size=25)#scale_size_area是指定数值映射至圆的面积,
分类和分面展示
• 通过数据点的颜色或形状来分类展示:在使用 ggplot2包作图时,可以通过将类别变量指定为图形属 性自动实现分组分类,例如:我们可以用region映射至 散点图中点的大小或者颜色这一图形属
• 分面展示:在一个包含分类变量的数据集中,要研究 的两个数值变量间的关系可能受分类变量的影响,我 们称之为组间差异。此种情况中,前面提到的分面技 术将是非常有效的工具。它通过将母数据集依据类 别切割为若干个子数据集,随后分别绘制出图形并列 展示。
• 数据类别的排序方法 • 避免数据丢失 • 帮助读者解读图形 • 避免扭曲数据 • 选择合适的统计图形 • 尽量使用2D图形 • 几种常用图形规范的使用
统计制图三大要素
• 信息
– 海量 复杂 高维 清理 统计
• 设计
– 视觉 交互 简介 适度
• 沟通
– 直观 高效 传递 信息 发现知识
一份图表产生的过程
定性变量制图
• 堆积条形图、簇状条形图 • ggplot(data,aes(x=grade,fill=term))+geom_bar()
定性变量制图
• 饼图 • gplot(data,aes(x=factor(1),fill=grade))+geom_bar()+coord
_polar(theta="y“)
定性变量制图
• Cleveland点图 • data3<-data[1:10,]#选取原数据前10个样本#绘图只需
要采用geom_point函数 ggplot(data3,aes(x=reorder(id,installment),y=installment) )+geom_point(size=5)
定量变量制图
• 频数直方图
• #首先处理缺失值,为方便不妨将installment这一列作为子集提取出来 data4<-subset(data,select=c(installment,grade,term))
• data5<-na.omit(data4)#使用na.omit函数删除缺失数据 • binsize<-diff(range(data5$installment))/40#以binsize表示求得的组距 • ggplot(data5,aes(x=installment))+geom_histogram(binwidth=binsize,fill="pink",c
olour="blue")#最后进行绘图,fill参数和colour参数分别对柱状和边框着色
定量变量制图
• 加入分类变量的直方图 • p<-ggplot(data5,aes(x=installment,fill=grade)) • p+geom_histogram(position=“identity”,alpha=0.4)
– 19世纪前半叶,在有了前人的设计和技术的铺垫后,数据开始得到人们 的重视,统计制图法和主题地图以前所未有的速度迅猛发展。
– 到20世纪上半叶,统计制图的发展虽不及统计模型,但它的理论进入了 教材、课程,并被政府、商业及科学等领域广泛使用。
– 1975年至今,统计制图以快速的步伐,在更加广泛的学科发展。桌面操 作系统、计算机图形学、人机交互等技术催生了交互式可视化。
at="identity")
定性变量制图
• 频数条形图
• 频数条形统计图是真正的单变量数据统计图,与简单条形图 的区别在于:(1)不设置y轴对应的映射;(2)去掉stat="identity",默 认设置为stat="bin",即自动计算每组频数
• ggplot(data,aes(x=grade))+geom_bar()
统计制图的发展与作用
• 统计制图的作用
– 信息记录 – 信息分析和推理 – 信息传播与协同
统计制图的基本原则
• 一张好图的基本特征
– 显示数据。 – 使读者将注意力放在统计图形表达的内容上,而不是制作
图形的程序上。 – 避免扭歪曲。 – 突出数据之间的比较。 – 服务于一个明确的目的
统计制图的注意事项
统计制图的发展与作用
• 统计制图早已有之,统计制图的发展几乎与整个人类近现代 文明一脉相承,在统计图表、地图、工程制图等方面,统计制 图技术经历了数百年的发展。
– 15世纪至17世纪,统计制图思想在人类社会初现萌芽,人们开始进行统 计制图的早期探索。
– 18世纪,由于统计理论和实验数据分析的发展,人类发明了抽象图和函 数图大量被发明。
二维变量的展示
• 当我们想要把主要精力投入在绘制的图形而不是繁 琐的参数设置上时,ggplot2包在绘图上的优势便得以 体现出来,下面我们将具体领略ggplot2包简洁的绘图 流程与丰富的绘图功能。
• qplot(log(aGNI),life_exp_f,data=keyindicators1)
核密度估计曲线
• 核密度估计曲线是对密度的估计,就是采用平滑的峰值函数 (“核”)来拟合观察到的数据点,从而对真实的概率分布曲线 进行模拟。它为数值数据的分布提供了一种平滑的描述,从 中可以看出分布的大致形状。
• 【数据适用类型】数值数据,一个连续型变量
• data<-read.csv("D:/lendingclub/LoanStats3a.csv",header=TRUE,sep=",") • library(ggplot2) • ggplot(data,aes(x=funded_amnt))+geom_density()
• ggplot2的基本概念主要涉及数据(Data)和映射(Map-ping)、标 度(Scale)、几何对象(Geometric)、统计变换(Statistics)、坐标 系统(Coor-dinate)、图层(Layer)和分面(Facet)
第2节 单变量数据百度文库展示
定性变量图
• 简单条形图 • ggplot(data1,aes(x=factor(id),y=loan_amnt))+geom_bar(st
维恩图
• 维恩图,又叫做文氏图,是集合论中用于显示几个元 素集合重叠部分的图示。维恩图用圆来表示一个集 合,用圆的重叠区域表示集合共同包含的元素。R软 件能绘制维恩图的是VennDiagram中的venn.diagram() 函数
第4节 数据分布形态的展示
直方图
• 直观展示原始数据分布形态的最简单图示就是直方 图,它可以直观展示数值型变量的集中水平、集中趋 势以及分布的对称性和陡峭度。
定量变量制图
• 分面图形 • # 网格型 • p+geom_histogram()+facet_grid(.~grade)
定量变量制图
• # 封装型 • p+geom_histogram()+facet_wrap(~grade)
第3节 多变量数据的展示
二维变量的展示
• 二维变量的展示,最常用的就是散点图。它通常用来刻画两 个连续型数值变量的关系,通过将观测点在两个变量上的取 值映射到坐标轴上由一个点来表示,若干个观测点将会在坐 标轴上呈现出一定形态的分布。
• qplot(log(aGNI),life_exp_m,data=keyindicators1)
散点图的加工与美化
• 添加趋势线 • 添加边际地毯 • 添加标签
三维变量的展示
• 三维散点图就是在由3个变量确定的三维空间中研究变量之 问的关系,由于同时考虑了3个变量
• library(scatterplot3d) • with(keyindicators1,{ • s3d<-scatterplot3d(log(GNI),log(population),life_exp_f,highlight.3d=TRUE) • #创建三维散点图 • fit<-lm(life_exp_f~log(GNI)+log(population))s3d$plane3d(fit,col="blue") • #添加趋势面})#with表示{}中的所有操作都限制在数据keyindicators1上,注
#默认等高线图 p+geom_point()+stat_density2d()
密度图
#有填充颜色的等高线 p+stat_density2d(aes(fill=..density..),geom = "tile",contour= FALSE)
#有数据点,并将核密度估计映射给alpha p+geom_point()+stat_density2d(aes(alpha=..density..),geom="til e",contour= FALSE)
• 我们使用R基础图形包graphics绘制AGNI与life_exp_m及 AGNI与life_exp_f的简单散点图,可通过plot函数来实现
• par(mfrow=c(1,2))#将绘图区域分成1行2列,并按行的顺序依次 绘图填充 plot(log(keyindicators1$aGNI),keyindicators1$life_exp_f,xlab="国 民人均收入",ylab="女性预期寿命 ",pch=2,cex=0.6)plot(log(keyindicators1$aGNI),keyindicators1$lif e_exp_m,xlab="国民人均收入",ylab="男性预期寿命 ",pch=3,cex=0.6)
二维变量的密度图
• 地理学里,地图上地势高度相同的点连成的曲线被 称之为等高线,将地势高度转化为二元随机变量联 合密度函数的取值,那么等高线图就能借以绘制一 个二维随机变量的核密度估计图。
#生成几何对象 p<ggplot(keyindicators1,aes(x=log(aGNI) ,y=life_exp_m))
• R具有突出的绘图功能,可设置参数来精确地控制图形。R绘 制的图形可满足出版印刷的要求,支持输出jpg、tiff、eps、 emf、pdf、png等各种格式的图形。
• ggplot2是HadleyWickham于2005年创建的数据可视化包。数 据分析者都在数据层面上思考问题,而不是拿着水彩笔和调 色板一笔一划作图;而计算机程序员则倾向于画点画线。
图表类型的选择
统计制图的工具
• 纯可视化图表生成软件 • 商业智能分析绘图软件 • 数据地图类软件 • 可视化大屏类软件 • 数据挖掘编程语言
R语言的ggplot包简介
• 本书选用1R作为统计制图工具。R是一种统计绘图语言,同时 也指用于实现该语言的软件。R的软件本身和程序包的源代 码均向用户公开,是一个免费的自由软件。
核密度估计曲线
• 有时候我们不仅仅对一个变量的分布进行探讨,而需要对同 一变量在不同分类下的分布状态进行比对,因此接下来介绍 分组密度曲线.
• 【数据适用类型】一个连续型变量 • ggplot(data,aes(x=funded_amnt))+geom_histogram()
茎叶图
• 茎叶图,由统计学家约翰托奇(ArthurBowley)设计,是将数组中 的数按位数进行比较,将数的大小基本不变或变化不大的位 作为一个主干(茎),将变化大的位的数作为分枝(叶),列在主干 的后面,这样就可以清楚地看到每个主干后面的几个数以及 每个数具体是多少。
第六章 大数据的展示
本章的主要内容
• 第1节 统计制图的基本概念 • 第2节 单变量数据的展示 • 第3节 多变量数据的展示 • 第4节 数据分布形态的展示 • 第5节 高维数据的展示 • 第6节 空间数据的展示 • 第7节 统计图的美化 • 第8节 大数据展示的综合应用
第1节 统计制图的基本概念
意with里面设置的变量在外部无法访问
三维变量的展示
• 气泡图
• 气泡图与散点图相似,不同之处在于,气泡图允许在图表中额外加入一个 表示大小的变量。
• gplot(keyindicators1,aes(x=log(aGNI),y=life_exp_f,size=population))+ • geom_point(shape=21,colour="black",fill="lightblue")+ • scale_size_area(max_size=25)#scale_size_area是指定数值映射至圆的面积,