第二章 统计图表
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计分组前的准备 将数据进行分组前,先要对观测数据做进一步的核对和校验。
校核数据的目的是为了尽可能地消去记录误差,以便后续的统计分
析建立在一个坚实的基础上。
统计分组时应注意的问题
① 分组要以被研究对象的本质特性为基础;
② 分类标志要明确,要能包括所有的数据。
(1)性质类别
主要是根据事物的属性不同将被观测的事物加以划分,反映事物
只有一个分类标志分组的统计表。 (3)复合表 统计分组的标志有两个或两个以上的表。
(1)条形图(直条图) 条形图主要用于表示离散型数据资料,它是以条形长短表示各事物间 数量的大小与数量之间的差异情况。
(2)圆形图 圆形图主要用于描述间断性资料,目的为显示各部分在整体中所占 的比重大小,以及各部分之间的比较。圆形图显示的资料多以相对数(如 百分数)为主。
② 从分布表的大数端逐区间的次数累加,这种累加次数可回答某一分组
区间下限以上的次数是多少。
分数
50-
60-
70-
80-
90-
合计 30
组中值
频数 累积频数 累积百分比
55
1 1 3.33
65
4 5 16.67
75
5 10 33.33
85
5 15 50.00
95
15 30 100.00
分数 506070-
按照数据是否具有连续性,把数据划分为离散数据和连 续数据。 离散数据一般取整数,在两个单位之间不能再划分细小 单位。
连续数据的单位可以划得很细微,细微的程度能达到只
可想象而不能看见的程度。
根据数据反映的测量水平,可把数据区分为称名数据、顺序数据、等
距数据和比率数据四种类型。
称名数据只说明某一事物与其它事物在属性上的不同或类别上的差异, 它具有独立的分类单位,其数值一般都取整数形式,只计算个数,并不说
组中值 55 65 75
频数 1 4 5
累积频数 1 5 10
累积百分比 3.33 16.67 33.33
8090-
85
95
5
15
15
30
50.00
100.00
合计
30
一般分组次数分布表都是等距的。但实际研究中常遇到
不等距的情况,如工资级别,年龄分组等,若按等距分组不 能确切地反映实际情况,这时可采用不等距分组的方法。这
2 5
1) R=xmax- xmin=100-58=42。 2)本例定为i=10,即每10分为一个组。组数: 42/10=4.2,应该分5组。 3)决定组限和组中值
组限就是每一组的起点值和终点值。
4)登记频数
分数 组中值 频数 50- 55 1 60- 65 4 70- 75 5 80- 85 5 90- 95 15 30
(3)线形图 线形图更多地用于连续资料,凡欲表示两个变量之间的函数关系, 或描述某种现象在时间上的发展趋势,或一种现象随另一种现象变化的 情形,用线性图表示是较好的方法。
(4)散点图 散点图是用相同大小圆点的多少或疏密表示统计资料数量的大小, 以及变化趋势的图。通常以圆点的分布的形态表示两种现象间相关程度。
统计图的绘制要求 按统计图的组成部分逐项说明绘制要点。
刻度标记
◦
Y轴名称 填充图案 轮廓线
图尺
尺 度 单 位 X轴名称 图题
基线
图目
图号
直方图(等距直方图)是以矩形的面积表示连续性随机变频数分布的 图形。 直方图一般用纵轴表示数据的次数(频数),横轴表示数据的等距分 组点(即各分组区间的下限)。在制作直方图时,以组距为底边,以分组 区间的精确上下限为底边二端点,以频数为高画矩形,各直条矩形之间不 留空隙,没有间隔。
累加频数是把各组的次数由下而上,或由上而下累加在一起。最后一
组的累加次数应等于数据的总次数。用累加次数表示的频数分布表称为累 加频数分布表。
累加频数分布表中,累加频数可用实际次数,亦可用相对次数。累加
频数的计算方法有两种:① 从分布表的小数值端,逐区间的进行次数累 加,这种累加次数可回答次数分布表某一分组区间上限以下的次数是多少。
数字
表注
* 注:表中的数据来源于例[2-1]
底线
当数据量很大时,应该把所有的数据先划分为若干分组 区间,然后将数据按其数值大小划归到相应的组别内,分别
统计各个组别中包括的数据个数,再用列表形式呈现出来,
就构成了频数(或次数)分布表。
示例:小教本011(30名)教育统计学单元考试成绩 58、61、88、74、81、66、70、93、72、91、 66、99、89、98、90、98、90、64、93、89、 100、91、92、97、90、94、99、92、92、90。
Leabharlann Baidu
统计表一般由表号、名称、标目、数字、表注等项构成。
统计表的编制要求 按统计表的结构逐项说明编制的要求。
表号
表2-1 80名员工对部门主管尽职程度调查结果 80名员工对主管尽职情况评定 表线 ①非常不尽职 ②不尽职 ③不置可否 ④尽职 ⑤非常尽职 总计
标题
顶线
标目
人数
标目
9 30 10 25 6 80
76 71 66 63 88 83 77 72 68 64
70 76 81 79 73 71 66 61 55 65
74 86 78 82 74 84 67 72 76 74
明事物之间差异的大小。
顺序数据是指既无相等单位,也无绝对零点的数据,是按事物某种属 性的多少或大小,按次序将各个事物加以排列后获得的数据资料。 等距数据是具有相等单位,但无绝对零点的数据。 比率数据既表明量的大小,也有相等单位,同时还具有绝对零点的数 据。
(1)数据排序 数据排序是指按照某种标准,对收集到的杂乱无章的数据按照一定 的顺序标准进行排列。 数据排序是整理数据最简单的方法。 (2)统计分组 统计分组是指根据被研究对象的特征,将所得数据划分到各个类别 中去。 对研究中所获得的大量数据进行统计分组是对数据进行整理的重要 步骤。
(1)求全距(R): R X max X min (2) 决定组数(K)与组距( i ):决定组距的大小,需要以全距为参 考。组数的多少要根据数据的多少来定。
如果数据的总体分布为正态,可用经验公式: K 1.87 N 1 来计算 R 组数,然后由公式:i K 来确定组距。 (3) 列出分组区间:列分组区间要注意以下几点:① 最高组区间内应 包含最大值的数据,最低组区间应能含最小值的数据; ② 最高组或最低组 的下限最好是组距的整数倍; ③ 各分组区间一般在纵坐标上按顺序排列, 数值大的分组区间排在上面,数值小的分组区间排在下面。 (4) 登记次数:依次将数据登记到各个相应的组别内,一般用划线记数 或写正字的方法。 (5) 计算次数:根据登记的结果计算各组的次数,计算各组次数的总和 即总次数。 (6) 抄录新表:新表包括的栏目有:第一列为分组区间,第二列为各分 组区间的组中值,第三列为次数。
数据的类型 数据的初步整理
次数分布表
次数分布图 其他类型的统计图表
从数据的观测方法和来源划分,研究数据可区分为计数
数据和度量数据两大类。 计数数据是指计算个数的数据,一般属性的调查获得的 是此类数据,它具有独立的分类单位,一般都取整数的形式。 度量数据是借助于一定的测量工具或一定的测量标准而 获得的数据。
在组别、种类上的不同,不说明事物之间的数量差异。 性质类别可根据事物的性质及研究的需要分成不同的层次,每个层 次又可分为不同数量的细目。 (2)数量类别 这是以数据的取值大小为分类标志,把数据按数值大小以分组或 不分组的形式排出一个顺序来。
统计表的作用 统计表是用来表达统计指标与被说明的事物数量关系的表格。它 可以将大量数据的分类结果,清晰、概括、一目了然地表达出来,明显 地反映出事物的全貌及其蕴涵的特性,具有简明、清晰、准确的特点, 表中的数据易于比较分析。 统计表的结构
16 14 12 10 8 6 4 2 0 5060- 70- 80- 90-
多边图表示连续性随机变量次数分布的线性图。 绘制多边形图时,横坐标是以各分组区间组中值表示的连续变量,纵坐 标是数据的频数。以每个分组区间的组中值为横坐标,以各组的次数为纵坐 标标点,连接各点,就成为一条折线。 多边形图与直方图虽然都是以面积表示表示连续性数据的次数分布, 但多边形对次数的轮廓显示得更好,组与组之间的次数过渡是连续而直接的。 如果样本很大,能描绘出一条分布曲线,还可据此找到次数分布的经验公式。 这样就能够对于总体的理论次数分布的分析提供很多有用的信息
它的画法同次数多边形基本相同,不同点是横坐标为每分组区间的精确上 限或下限,纵坐标是各分组的累加次数,分别标出各个交点,连接各交点 即可画成累加曲线,也叫S型曲线
示例:小教本011教育统计学单元考试学生成绩频 数分布多边图
(1)简单表 只列出名称、地点时序或统计指标名称的统计表。
(2)分组表(单向表)
样的不等距分组的分组次数分布表就叫做不等距次数分布表。
统计图的作用 统计图是用来表达统计指标与被说明的事物之间数量关系的图形。 它以直观形象的形式表达出事物的全貌及其分布特征,给人简明扼要、 清晰易懂的印象,便于学习与记忆。
统计图的结构 统计图由图号、图题、图目、图尺、图形、图例、图注等项构成。
合计
意义
编制分组次数分布表,可将一堆杂乱无序的数据排列成序。从表
中可以发现各个数据的出现次数是多少,其分布的状态如何。
缺点
分组次数分布表也有缺点,仅从这张表看,原始数据不见了,只 见到各分组区间及各组的次数。根据这样的统计表提供的数据资料计算
得到的平均值,会与用原始数据计算的值有一定的出入。
在一般的频数分布表上,只标出各分组区间的数据次数。如果想知道 某个数值以下或以上的数据的数目,就要用累加频数。