探索性数据分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分布的概念
一个变量的分布是该变量的取值的具体表现形式,它不仅描述了该变量的不同取值,同时也描述了其每个值的可能性。
一、变量类型及其分布
1、首先我们打开life expectancy这个数据表。本例中的每个国家都有13年的年度观察数据,
并且每个国家的13年数据都是以年份为序依次排序。JMP将这种编排方式称为堆叠数据。
区分四类变量:定类变量(定名型、定序型),定量变量(定距型、定比型)
二、定类变量的分布
2、选择菜单---分析。将region作为Y,列变量。点击确定,得到如下结果。
JMP构造出了一个简单的矩形条形图,列出了六个大陆地区,并用直方条显示出相应区域在数据中出现的次数。虽然不能在图表中准确的获悉每个区域中国家的数目,却能清晰的得知south Asia国家数目最少,Europe&Central Asia国家数目最多。
图形下方的频数分布表提供了一个更加详细的变量概要。
3、菜单选择图形---图表。图表对话框如下图,可生成很多其他格式的图表。默认设置是竖
直方向的条形图。
4、选择列框中点击Region,并点击按钮统计量,选择数量。结果得到一张可以显示每个区域观察对象数量的条形图。
可以通过点击图表右侧的红色三角形按钮进行更改和自定义图形。
5.JMP自动按照字母顺序对定类数据进行结果输出。我们也可以修改输出结果。
6.在数据表格中或者在列框中右击Region,选择列信息。
7.点击列属性,选择值排序。
8.选择一个变量值名,使用按钮上移和下移,最后确定。
9.需要点击图表标题右侧的红色三角形按钮,选择脚本——重新运行分析。最后才得到我们需要的顺序的图形。
三、定量变量的分布
1、选择数据表的一部分
某些时候我们需要从数据表中选择某一些特定的行进行分析。JMP为我们提供了在分析包含和剔除行的多种方法。
菜单选择行—行选择—选择符合条件的行。
如下图所示,选择那些year等于2010的行,点击添加条件,最后点击确定。
菜单选择表---子集。在子集对话框中要确保做出的选择是选定行选项,并点击确定。
窗口中会显示出第二张打开的数据表。该表中有与第一张表相同的四个变量,但仅有195行。在每个案例中,观察年份都是2010年,并且每个国家只有一行数据。
2、连续型数据直方图的构建
●菜单选择分析——分布。将LifeExp选入Y,列框中。
●当分布窗口打开时,点击LifeExp左侧的红色三角形按钮,选择直方图选项——垂
直。该操作会清空垂直选项前的复选框,将直方图变成更加符合传统的水平方向。
、
上面的直方图是世界各国预期寿命分布的一种表示方法,它给我们提供了关于寿命预期是如何变动的视图,直方图上方是一个箱线图。
寿命预期在40~45岁的国家很少,相对的,许多国家预期寿命在70~75岁之间。
形状:涉及以下两个方面:直方图的对称性和图形中峰值的数目。显然图中可以看出,是一个非对称图形,图形左侧尾部的观察值很少,而右侧聚集了大量的观察值。我们称具有该形状的图形是左偏分布。峰值在70~75岁。
中心:分布的中心有多种定义,包括统计意义上的均值、中位数、众数。从视觉上看,我们可以将直方图的中心定义为横轴的中心值(中位数该例接近60~65岁),或有最大频数的区间(众数,该例为70~75岁),或视觉上的均衡点(均值,该例中接近65~70岁)或其他方式的定义。
离散程度:中心的概念注重于变量取值的代表性,离散程度的概念则注重于对代表性取值的偏离程度。
1、返回至原始的Life Expectancy数据表。
2、菜单选择行—数据过滤器。添加Year作为过滤器列。
3、数据过滤器能帮助我们确定所需行。
4、同时选择如上所示复选框中的包括;默认设置是选择。
5、从主菜单栏中,选择分析—分布。
6、如下图所示,选择LifeExp作为Y,列。
7、由于我们想要对各个年份分别进行分析,因此选择Year作为依据,并点击确
定。上述操作将会产生两个垂直方向的直方图。观察可知,第一个分布的数轴
变化在25岁~75岁,而第二个则是从40岁~85岁。
8、在分布的输出中,按住Ctrl键的同时点击分布左侧的红色三角形标志便选择统
一尺度。
9、再次点击红色三角形,选择堆叠。
此时显示的图形如上图所示。与2010年的分布相比,1950年的分布的形状有哪些不同?造成这两个分布形状上的差异是什么?
从两个直方图可以看出,人们现在比1950年时生存时间更长。2010年寿命的预期分布的位置远比1950年的偏右。我们可以得知1950年的预期分布比2010年更加分散。以上分析可以揭示过去60年间寿命预期发生了什么变化。