第十章 单变量描述统计.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十章单变量的描述统计
调查所得的原始资料经过审核、整理与汇总后,还需要进行系统的统计分析,才能揭示出调查资料所包含的众多信息,才能得出调查的结论。
根据变量数量的差别统计分析划分为单变量分析、双变量分析和多变量分析。
在这一讲中我们先介绍单变量的统计分析。
单变量统计分析可以分为两个大的方面,即描述统计和推论统计。
描述统计是用最简单的概括形式反映出大量数据资料所容纳的基本信息。
推论统计是用样本调查中所得到的数据资料来推断总体的情况。
这一讲我们讲解单变量的描述统计方法。
一、变量的分布(Distributions)
变量的分布分为两类,一类是频数分布,一类是频率分布。
频数分布就是变量的每一取值出现的次数;频率分布是用变量每一取值的频数除以总个案数,它是一个相对指标,可以用来比较不同样本。
频数分布与频率分布一般以统计表与统计图的形式表达。
1、统计表
(1)统计表就是以表格的形式来表示变量的分布。
如下表所示:
表9-1甲校学生的父亲职业
职业 f p
工人农民干部152
288
110
0.276
0.524
0.200
27.6
52.4
20.0
总数550 1.000 100.0
数值中的小数的取舍:
通俗的做法是“四舍五入”。
“四舍”没有问题,但无原则的“五入”就会产生一定的误差。
例如数值6.25、4.45、3.75、和7.15的总合是21.60。
如果对原数的最后一位小数作简单的四舍五入,原数就变成 6.3、4.5、3.8、7.2,其总合是21.8,把原来的总合变大了。
近代统计学有一项新原则,就是“前单五入”,即“五”前面是单数就进位,若是双数就舍掉(0也算双数)。
(2)对于定序及以上层次的变量我们更多的是使用累加频数和累加频率。
如下所示:
表9-2甲校学生之父亲教育水平
教育 f cf ↑ cf ↓ % c % ↑ c %↓ 一级 二级 三级 四级 五级 68 550 68 90 482 158 106 392 264 193 286 457 93 93 550 12.4 100.0 12.4 16.3 87.6 28.7 19.3 71.3 48.0 35.1 52.0 83.1 16.9 16.9 100.0 总数 550
100.0
2、统计图
统计图是以图形表示变量的分布情况。
与统计表相比,统计图更直观、生动、醒目,但不够精确。
统计图有圆瓣图、条形图、直方图和折线图。
(1)圆瓣图:多用于描述定类变量的分布,主要目的为显示各部分在整体中所占的比重,以及各部分之间的比较。
如表9-1的资料可用下图(图1)所示:
农民部分=360°×52.4%=188.64° 工人部分=360°×27.6%=99.36° 干部部分=360°×20.2%=72° (图一)甲校学生的父亲职业分布
(2)条形图:多用于描述定类与定序变量的分布,它是以长条的高度表示变量不同取值的频数(率)分布的,其中长条的宽度没有意义,一般均画成等宽
工人28%
农民
52%干部20%
长条。
为求清楚,长条之间可以分开。
如表9-2的资料可用下图(图2)所示:
(图二)甲校学生的父亲教育水平
(3)直方图:直方图是由紧挨着的长条构成的,但与长条图不同,它的条的宽度是有意义的,实际上它不是用长条的高度而是用长条的面积表示频数(率)
的大小,长条的纵轴高度表示频数(频率)密度{密度=频数(率)/组距},长条的宽度表示组距。
直方图仅适用于定距变量。
如表9-3的资料可用下图(图3)所示:
表9-3 甲校学生的家庭每月总收入 收入 f cf ↑ cf ↓ 1500~1899 1300~1499 1100~1299 900~1099 700~899 500~699 40 550 40 141 510 181 158 369 339 136 211 475 65 75 540 10 10 550 总数
550
组限(class limits ),就是每组的范围,包括上限(upper limit )和下限(lower limit )。
例如表9-3中的“700~899”组,上限是899,下限是700。
但要注意,统计表上所标示的组限(stated limits )是让读者容易领会,但不是真实的组限(real limits)。
上表的真实组限是499.5~699.5、699.5~899.5、899.5~1099.5、1099.5~1299.5等等。
如果某家庭的收入与真实组限之值相同,一般是采用四舍五入的原则,如把699.5元归“700~899”组。
真实组限与标示组限的关系,可以下式表示:
真实下限=标示下限-0.5 真实上限=标示上限+0.5
050
100150200250
一级
二级
三级
四级
五级
水平
人数
组距(class width),就是组的真实上限与真实下限之差,如上表的“700~899”组的组距是:899.5-699.5=200。
组中点(class midpoint),就是真实上限与真实下限的平均数,如“700~899”组的中点是:(699.5+899.5)÷2=799.5。
(4)折线图:折线图是用直线连接直方图中条形顶端的中点而成的。
二、集中趋势分析
集中趋势是从一组数据中抽象出一个代表值,代表现象的共性和一般水平。
这种方法有一个特殊意义,就是可以根据这个代表值(或称典型值)来估计或预测每个研究对象(即个案)的数值。
这样的估计或预测,当然会有错误,但由于所根据的数值最有代表性,故所发生之错误的总和理应是最小的。
集中趋势测量指标有三类:众数、中位值、平均数。
1、众数
众数(M。
)就是出现频数或频率最多的变量值。
因为众数最有代表性,故此具有估计或预测的意义,长远来说,以众数作预测所犯的错误总数是最小的。
求众数的方法如下:
(1)对原始资料:如下例:1,2,3,5,5,5,6,6,7,9
其M。
=5
(2)对单值分组资料:如下表9-3某实验小组成员的年龄分布:
表9-3某实验小组成员年龄分布
年龄数量
13 3
14 4
15 6
16 8
17 4
18 3
19 3
其M。
=16
(3)组距分组资料:众数是频数最大的区间的组中值。
如对于表9-5所示的资料其M。
=350
2、中位数
中位数(Md)是最中间的数值。
它用于描述定序变量以上层次的变量。
长远来说,以中位数去估计定序变量的数值,所犯的错误总数是最小的。
求中位数的方法如下:
(1)对原始资料:原始资料计算中位值的公式是:Md位置= 21
+
n
例:9个人的日工资分别如下:47,42,50,51,92,112,71,83,108 首先,从小到大排列:42,47,50,51,71,83,92,108,112。
其次,由中位值的位置公式可知Md=21
+
n
= 21
9+
=5
最后,求Md=71
如果n为偶数,则将位于最中央的两个数值的平均值作为中位值。
(2)对单值分组资料:
如下表9-4的资料:
表9-4学生的学业成绩
等级 f cf ↓cf↑
甲乙丙丁
5 5 80
20 25 75
30 55 55
25 80 25 总数80
由公式可知Md位置= 21
+
n
=21
80+
=40.5从累加频数中可知这个位置的值在丙值内,故Md=丙。
(3)对组距分组资料:组距分组资料的中位值公式为:
Md=L+m
m f cf
n
)
1(2--×i
其中L 为中位数所在组的下限值,cf(m-1)为中位数所在组以上的累计频数,fm 为中位数所在组的频数,i 为中位数所在组的组距。
例:表9-5某企业100名职工收入的分布
收入(元) 职工数(人) 累计频数 组中值 Xf 100—199 10 10 150 1500 200—299 10 20 250 2500 300—399 40 60 350 14000 400—499 20 80 450 9000 500—599 20 100 550 11000 合 合计 100
首先求出中间位置为(100+1)=50.5,再从累计频数栏中找到中位数所在组为“300—399”这一组,最后利用公式计算
Md=300+4020
50-×100=375
平均数:仅适用于定距及定距以上变量,但有时也可用于定序变量,如求平均等级。
长远来说,以平均数估计定距变量的资料,错误最小。
(1)对原始资料:平均数的公式为X =n
X
∑
其中∑x 为各个个案数值之和,n 表示全部个案数。
(2)对单值分组资料:平均数的公式用加权平均数公式:
X =
n
xf
∑
如对下表9-6中的资料求平均数: 表9-6某年级150名学生的年龄分布
年龄 频数 累积频数 ↓ 累积频数↑
17 10 10 150
18 25 35 140
19 50 85 115
20 40 125 65
21 20 145 25
22 5 150 5
合计150
平均年龄为:X
=150
5
22
20
21
40
20
50
19
25
18
10
17⨯
+
⨯
+
⨯
+
⨯
+
⨯
+
⨯
=19.3
(3)对组距分组资料:一般用组中值来代替变量值,然后按加权平均数公式来计算平均数。
总之,如要测量集中趋势,即找出一个最有代表性之值,定类变项的资料可用众数;定序变项可用众数,但以中位数较适宜,因为后者能够应用资料中所具有的等级数学特质。
定距变项可用众数,也可用中位数,但以均值最适宜,因为均值能应用资料中所具有的分组资料中的加减数学特质。
然而,有两种情况下不宜用均值:一种是在分组资料中的极端没有组限时(如表9-的资料),不能求出均值,只能用中位值;另一种情况是变项中有个别的数值非常特殊(过高或过低),则均值的代表性就有疑问,用中位值较为合适。
1
表9- 青年人阅读小说的数目
书数 f x fx
2~4
5~7
8~10
11~13
14~16
17本以上2 3 6
4 6 24
5 9 45 3 12 3
6 2 15 30 1 18 18
总数17
1李沛良.社会研究的统计应用.社会科学文献出版社2001,51。
三、离散趋势分析
离散趋势是要求出一个值来表示个案与个案之间的差异情况。
这种测量法,与集中趋势测量法有互补的作用。
资料的离散程度表明了集中趋势的代表性如何,凡离散程度愈大,则集中趋势的代表性就愈小,离散程度愈小,则集中趋势的代表性愈大。
1、异众比率:
异众比率(Vr )就是非众数的次数与全部个案数目的比率。
可见异众比率是对众数的补充,异众比率越小,说明众数的代表性越好;反之,异众比率越大,则说明众数的代表性越差。
公式如下:
Vr=n f n mo
-
其中fmo 为众数的次数。
如对于表9-1的资料其Vr =n f n mo -=550288
550-
2、极差:
极差又称全距,它是一组数据中最大值与最小值之差。
极差是对定序?及以上尺度的变量离散程度的测量。
极差越小,表明资料越集中,集中趋势统计量的代表性越高。
但由于它的值是由端点的差决定的,因此个别远离群体的极值会极大改变极差,以至使它不能真实反映资料的分散程度。
例:某校3个系各选5名同学,参加智力竞赛,他们的成绩分别如下: 中文系:78、79、80、81、82 数学系:65、72、80、88、95 英语系:35、78、89、98、100 则三个代表队的全距分别为: 中文系:82-78=4(分) 数学系:95-65=30(分) 英语系:100-35=65(分)
3、四分位差:
四分位差是对定序及定序以上测量尺度的变量离散程度的测量指标。
四分位差的计算方法是先将一组数据按大小排列成序,然后四等分,各段分界点上的数叫做四分位数,第一个四分位置的值(Q1)与第三四分位置的值(Q3)的差异,就是四分位差(Q)。
Q2就是中位值(Md),两边各有50%的个案,也就是在中位值两旁的Q1和Q3之间,共有50%的个案。
因此,四分位差越大,表示有50%的个案越远离中位值,因而中位值的代表性就越小。
计算四分位差时,先求出Q1和Q3的位置,然后计算在这两个位置上的差
异。
Q1和Q3的位置公式是:Q1位置=41
+ n
Q3位置=4)1
(3+
n
以下是计算四分位差的方法:
(1)对原始资料:
例:调查11位同学的年龄如下:17岁、18岁、18岁、19岁、19岁、20岁、20岁、21岁、21岁、22岁、。
首先,求出Q1和Q3的位置:
Q1 的位置=41
+
n
=41
11+
=3
Q3的位置=4)1
(3+
n
=4)1
11
(
3+
⨯
=9
其次,从数序中找出Q1=18,Q3=21
则四分位差Q= Q3—Q1=21—18=3
例:甲村有8户人家,每户人数如下:
2,3,4,7,9,10,12,12
首先,求出Q1位置= 41
8+
=2.25
Q1=3+0.25(4—3)=3.25
Q3 位置=418(3)
+⨯ =6.75
Q3=10+0.75(12—10)=11.5 所以Q=11.5— 3.25=8.25 (2)对单值分组资料:
如表9-4所示的学生学业成绩,据公式可知:
Q1位置= 41
80+ =20.25
Q3位置= 4)
180(3+⨯ =60.75
从累积次数分布表中,很易看到在这两个位置上的值分别是丁级和乙级,所以
Q=乙—丁=两个等级 (3)对组距分组资料:
对组距分组资料Q1和Q3的计算公式为:
Q1=L1+[
1
1
4f cf n
-]w1
Q3=L3+[3433f cf n
-]w3 其中 L1=Q1属组之真实下限
L3= Q3属组之真实下限 f1=Q1属组之次数 f3= Q3属组之次数
cf1=低于Q1属组下限之累积次数 cf3=低于Q3属组下限之累积次数 w1=Q1属组之组距 w3=Q3属组之组距 n 为全部个案数
如表9-5所示的资料,其Q1位置= 41+n =41
100+ =25.25,所以Q1在
300—399组内;Q3位置=4)1(3+n =4)
1100(3+ =75.75,所以Q3在400—499
组内。
由公式可知:
Q1=300+
4020
4100-×100=312.5 Q3=400+20604100
3-⨯×100=475
所以Q=Q3-Q1=162.5
4、标准差:分析定距变量的离散情况,最常用的方法是标准差,即将每一观察值与其均值之差的平方和除以全部个案数目,然后取其平方根。
公式如下:
S=
如果各个实际数值与均值之相差的总和很大,就表示变量数值的离散程度很大,即均值的代表性很小。
5、离散系数:是标准差与平方数之百分比,记为CV ,公式为:
CV=X S
×100%
离散系数是一种相对的离散量数统计量,它使我们能够对同一总体中的两种不同的离散量数统计量进行比较,或者对两个不同总体中的同一离散量数统计量进行比较。
例:一项调查的结果如下,某市人均月收入为92元,标准差为17元,人均住房面积7.5平方米,标准差为1.8平方米。
试比较该市人均收入和人均住房情况哪一个差异程度比较大。
[解] 人均收入的离散系数为CV=X S ×100%=9217
×100%=18.5%
人均住房面积的离散系数为CV=X
S ×100%=5781..×100%=24% 可见人均住房面积的差异情况比人均收入的差异情况要大。
注意事项:离散趋势测量法与集中趋势测量法是有互补作用的。
二法并用,就可以一方面知道资料的代表值,有助于估计或预测的工作,另一方面可以知道资料的差异情况,反映估计或预测时会犯的错误。
但要选哪一种方法就要视乎变量的测量层次,彼此的关系可以综合如表9-7:
定类变量 定序变量 定距变量 集中趋势
离散趋势 众值 异众比率 中位值 四分位值 均值 标准差
52%。