应用统计学 第三章 图表描述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
33
第二节 数值型数据的图表描述
第 三 章
四、茎叶图

表 描
叶图又称枝叶图,其基本思路是将数
述 组中的数按位数进行比较,将数的大小基
本不变或变化不大的位作为一个主干
(茎),将变化大的位作为分枝(叶),
列在主干的后面,这样就可以清楚地看到
每个主干后面有几个数,每个数具体是多
少。图3-10是根据表3-5中的数据所绘制
18
第二节 数值型数据的图表描述
第 三 章

例如,为科学考核教学效果,任课教师每学期期末都要对自己所担任课程


的学生考试成绩进行统计分析。表3-5所示为某班级60名学生统计学课程的期

末考试成绩数据。
19
第二节 数值型数据的图表描述
第 三 章

表3-5中共有60个观测值,其变量值个数多达31个。若以单个变量值来确
29
第二节 数值型数据的图表描述
第 三 章
为强调频数分布的整体特征,还可以在直方图的基础上进一步加工制作出频数分

布折线图或曲线图。折线图是将直方图中各个条形上端的中点用直线连接起来所形成
表 描
的图形,它可以通过折线与横轴所围成的面积来显示数据。图3-7所示是根据图3-6

的直方图所绘制的折线图。
以上是围绕定类数据所介绍的图表描述方法,这些方法同样适用于定序数据。例如,为

表 评价某城市的空气质量状况,研究人员在该城市中测定了300个采样点,并获得表3-3所示

述 的测定结果。
12
第一节 品质型数据的图表描述
第 三 章
表3-3中的数据是定序变量数据,根据此数据所绘制的频数分布条形图及饼形图如图3-4
上看,还是比较直观地显示了频数分布的整体特征。
23
第二节 数值型数据的图表描述


章 图 表
2 确定组距


组距 (最大观测值 最小观测值)/ 组数
Kq
q1 q0
p0 q0
p0 q0
p0 q1 p0 q0
在表3-5的原始数据中,最大观测值为99,最小观测值为51,如果组数确 定为5,则各组的组距 ,四舍五入,组距可确定为10。
24
第二节 数值型数据的图表描述


章 图 表
3 确定组限


有了组距之后,只要确定了最小组的下限,则其余各组的组限也将随之确
定。确定最小组的下限也带有一定的主观性,但必须遵循一个重要原则:最
小组的下限必须包含数据中的最小观测值。考虑到表3-5数据中的最小观测值
为51,组距为10,可将最小组的下限确定为50。于是,各组的组限依次为
10
第一节 品质型数据的图表描述
第 三 章
实际工作中,如果对各组频数高低的顺序感兴趣,还可以在条形图中重新排列各个条形

表 的位置,如图3-3所示。图3-3称为帕累托图,它是按照各组频数高低排序绘制的条形图,

述 由此图可以清楚地看到频数高低变化的整体情况。
11
第一节 品质型数据的图表Байду номын сангаас述
第 三 章

组,纵轴表示各组的频数。直方图与条形图的形状类似,但两者之间有着本
质区别。条形图的宽窄是没有含义的,直方图的宽窄则表示各组的组距;制
作条形图时,通常要使各个条形之间保持一定的间隔,在直方图中各组之间
则是没有间隔的。直方图是以面积来显示数据的,当某一组的频数为零时,
代表该组数据的条形高度为零。相应地,条形面积也为零。
的上限;下限与上限之间的距离称作该组的组距;下限与上限之间的中点距离称
作该组的组中值。
组距式频数分布表具有很强的概括性,无论数据规模多大,都可以通过组距
的延伸加以分组和汇总。但它也有一个严重的缺陷,即组距越大,原始数据中的
细节损失就越多。
22
第二节 数值型数据的图表描述
第 三 章
图 (二) 组距式频数分布表的编制步骤
30
第二节 数值型数据的图表描述
第 三 章
假定数据规模无限扩大,同时组距无限缩小,而组数又无限增多,那么折线图就

将趋近于一条平滑的曲线,从而形成频数分布曲线图。图3-8所示是根据图3-6的直
表 描
方图所绘制的曲线图。

31
第二节 数值型数据的图表描述
第 三 章
三、盒形图

表 描
盒形图也称箱线图,是利用数据中的最小观测值、下四分位数、中位数、上四分

位数和最大观测值五个统计量来描述数据的方法。将数据中的全部观测值按照从小到
大的顺序排成一列,处于第一位置上的观测值即为该数据的最小观测值;处于第1/4
位置上的观测值即为下四分位数;处于第1/2位置上的观测值即为中位数;处于第
3/4位置上的观测值即为上四分位数;处于最后位置上的观测值即为该数据的最大观
“50~60”“60~70”“70~80”“80~90”“90~100”。
实践中所遇到的数值型变量多为连续型的,对于连续型变量数据来说,任
何两个变量之间都存在着无数个可能的观测值,为避免频数汇总过程中的遗
漏,相邻两组之间,较小组的上限应当与较大组的下限重合。例如,在
“60~70”与“70~80”两组之间,较小组的上限“70”与较大组的下限



3
CONTENTS PAGE



4
CONTENTS PAGE
品质型数据 的图表描述
数值型数据 的图表描述
双变量关系 的图表描述
运用SPSS 进行图表描

第一节
第二节
第三节
第四节



5
CONTENTS PAGE
品质型数据 的图表描述
数值型数据 的图表描述
双变量关系 的图表描述
运用SPSS 进行图表描
表 描 述
1 确定组数
确定组数时应以能够充分显示频数分布的整体特征为原则。组距过长,组
数过少,会损失原始数据中的大量细节;组距过短,组数过多,又不便于对
数据的频数分布特征进行整体性观察。
在实际工作中,很难找到一个确定组数的可操作的客观标准,数据分析人
员往往根据自身的经验来确定组数。表3-6中将数据分为5组,从整理的结果
8
第一节 品质型数据的图表描述
第 三 章
二、条形图与饼形图


绘制条形图时,通常以横轴表示变量及其分组,以纵轴表示频数。每个条形的长短代表该组频
描 述
数的多少;条形的宽窄及各条形之间的间隔没有实际含义,考虑到图形美观和避免引起歧义,通
常取相等的宽窄和间隔。条形图的纵轴也可以表示频率,采用频率所绘制的条形图与采用频数所


定组别,就会有31组,组数太多,已经失去了用来进行整体性观察的意义。

实践中,规模比较大、变量值个数比较多的数值型数据采用组距式频数分
布表,能够更好地概括显示频数分布状态。表3-6是根据表3-5中的原始数据
所编制的组距式频数分布表,该表概括地描述了60名学生统计学课程期末考
试成绩的频数分布状态。一般来讲,学生期末考试成绩的频数分布呈现出
绘制的条形图的整体形状没有差别。图3-1所示给出了260名毕业生就业意向的频数分布条形图。
9
第一节 品质型数据的图表描述
第 三 章
在饼形图中,整个圆的面积代表频数的100%,各个扇形的面积代表各组的频率。饼形

表 图的扇形面积也可以表示频数,但在实际工作中,人们一般习惯于在条形图中采用频数,在

述 饼形图中采用频率。图3-2所示给出了260名毕业生就业意向的频数分布饼形图。
果某一观测值为80,则不得在“70~80”与“80~90”两组中同时统计频
数。实际工作中一般遵循“上限不计入本组内”的原则,即取值为80的观测
值要计入以80为下限的“80~90”这一组的频数之内,而不应计入以80为上
限的“70~80”这一组的频数之内。
26
第二节 数值型数据的图表描述


章 图 表

第一节
第二节
第三节
第四节



6
第一节 品质型数据的图表描述
第 三 章
一、单项式频数分布表


描 述
表3-1中的原始数据涉及一个变量,即“就业意向”,这是一个定类变
量,有5个变量值,即会计、金融、管理、营销、其他。尽管260个观测
值之间存在差异,但这种差异并不是漫无边际的,它们分别归属5个不同
变量值中的一个。如果先将260个观测值按所属变量值划分为5组,再汇
4 频数汇总


27
第二节 数值型数据的图表描述
第 三 章
二、直方图

表 描
组距式频数分布表所描述的频数分布状态可以通过直方图更为直观地显示出来。

图3-6所示即为根据表3-6绘制的60名学生统计学课程期末考试成绩频数分布直方图。
28
第二节 数值型数据的图表描述
第 三 章

表 描
直方图是直接根据组距式频数分布表绘制出来的,通常以横轴表示变量分

表 和图3-5所示。
描 述
13
第一节 品质型数据的图表描述
第 三 章
表3-3中的数据是定序变量数据,根据此数据所绘制的频数分布条形图及饼形图如图3-4

表 和图3-5所示。
描 述
14
第一节 品质型数据的图表描述
第 三 章
图 表
由于定序数据的取值是具有顺序性的,所以其频数分布表及频数分布图中的分
第三章 图表描述
CONTENTS PAGE
260名毕业生就业意向的调查
引导案例
某财经大学学生就业指导处每年都要吸引许多企业来校园参加招聘工作洽谈会。为了
吸引招聘企业工作的重点,就业指导处专门在应届毕业生中做了一项调查,询问每一位
学生的就业意向,并获得表3-1所示的原始数据。



2
CONTENTS PAGE
如表3-4所示。
15
第一节 品质型数据的图表描述
第 三 章 图 表 描 述
16
CONTENTS PAGE
品质型数据 的图表描述
数值型数据 的图表描述
双变量关系 的图表描述
运用SPSS 进行图表描

第一节
第二节
第三节
第四节



17
第二节 数值型数据的图表描述
第 三 章
一、组距式频数分布表

表 描
总得出各组观测值的个数,原本大量、零散的原始数据就会在不损失任何
原有细节的前提下得以简化,并显示出一种条理化的结构,如表3-2所示。
7
第一节 品质型数据的图表描述
第 三 章 图 表 描 述
观察表3-2中的数据,可以得出以下结论:260名应届毕业生中,就业意向倾向于会计的 人数为76,占总人数的29.2%;倾向于金融的人数为54,占总人数的20.8%;倾向于管理的 人数为33,占总人数的12.7%;倾向于营销的人数为68,占总人数的26.2%;其他为29人, 占总人数的11.1%。
描 述
组数据不可随意调换位置,分组次序的混乱意味着原始数据中的信息损失。对于定
序数据,如果需要直接从表中读出某一变量以上或以下累积频数的多少,则需要在
频数分布表的基础上进一步绘制累积频数分布表。累积频数的计算分为向上累积与
向下累积两种情况,向上累积回答某一变量值以下的累积频数是多少,向下累积回
答某一变量值以上的累积频数是多少。此外,还可以根据累积频数计算出累计频率,
测值。依此定义,可得表3-5中的五个统计量分别为51、67、72.5、79、99,据此
可绘制出60名学生统计学课程期末考试成绩频数分布盒形图,如图3-9所示。
32
第二节 数值型数据的图表描述
第 三 章 图 表 描 述
图3-9中,方盒的左侧边界对应下四分位数,右侧边界对应上四分位数。从下四 分位数到上四分位数之间的距离称为四分位差,也就是说,方盒的宽窄代表四分位差 的大小。方盒内的竖线对应中位数。
“两头小,中间大”的特征是合理的。
20
第二节 数值型数据的图表描述
第 三 章 图 表 描 述
21
第二节 数值型数据的图表描述
第 三 章

组距式频数分布表不是以单个变量值来确定组别,而是以表示一定取值范围

描 述
的两个变量值来确定组别,并以此为标准进行各组频数的汇总。在组距式频数分
布表中,每一组较小的那个变量值称作该组的下限;较大的那个变量值称作该组
(一) 组距式频数分布表概述

如果数据中的变量值个数不是很多,可以参照与品质型数据相同的方法,
以单个变量值作为分组标准来编制频数分布表。但在日常数据处理活动中所
遇到的数值型数据,其变量值与观测值的个数往往很多,如果仍以单个变量
值作为分组标准,最终得出的频数分布表就会由于组数太多而拖得很长,这
样反倒不便于对频数分布状态进行整体性观察。
“70”是重合的。对于离散型数据,则没有这种硬性规定。
25
第二节 数值型数据的图表描述


章 图 表
4 频数汇总


频数汇总过程中要遵循“不重不漏”的原则。其中,“不重”是指同一个
观测值在频数汇总过程中不能重复统计;“不漏”是指原始数据中的全部观
测值必须包含在最小组的下限与最大组的上限所界定的范围之内。例如,如
的频数分布茎叶图。
34
第二节 数值型数据的图表描述
第 三 章

表 描
茎叶图包括“茎”与“叶”两个要素。
述 图3-10中竖向排列的茎,显示各个观测值的
十位数;对应每一节茎向右横向排列的叶,
显示各个观测值的个位数。图形右侧由全部
观测值的个位数堆积形成的外部轮廓线,正
好显示了频数分布的整体特征。与此同时,
相关文档
最新文档