教育统计学第04讲 差异量数

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

25~29 139 268 29.89 75~79 70 1809 95.21
20~24 147 429 22.58 70~74 98 1739 91.53
15~19 151 282 14.84 65~69 134 1641 86.37
10~14 98 131 6.89 60~64 131 1507 79.32
四分位数通常与中数联系起来共同应用,中数可 以看作是第二四分位点。
对于未分组数据求四分位差,Q1、Q3可依照未分 组数据求中数的方法求得。
20
(一)四分位差的计算
例:假设有数组:0,10,20,30,40,50,60 ,70,80,90,100,110.
第一个四分位为第三位和第四位的中位数,即: Q1=(20+30)/2=25;
f (x x)3
3
N
4
f (x x)4 N
用来表示一个分 布中偏斜度或偏 态性的指标
用来表示一个分 布中峰态性的指

26
二、平均差
⒈定义:平均差(average deviation),是所有原
始数据与平均数绝对离差的平均值。一般用AD表

2. 计算:
X X
AD N
用中位数作集中量时,常用四分位距作差异量。
22
例 分组数据求四分位差
组限
95— 90— 85— 80— 75— 70— 65— 60— 55—
次数
1 4 6 9 12 8 5 4 1
自下而上 累计次数
50 49 45 39 30 18 10 5 1
算法:
①计算累计次数N=50 ②计算四分位数与四分差:
解:由一个原始分数求低于它的分数比例,是一个 求百分等级的问题,利用公式:
PR

Fb
X Lb
i N
f
1809 82 80 51
100
5
100 96.28
1900
82分的百分等级96.28,即有96.28%的应试者 考分低于82分。
18
四、四分位差(四分位距)
第三四分位为第九位和第十位的中位数,即: Q3=(80+90)/2=85。
四分位差Q=(Q3-Q1)/2=(85-26)/2=29.5
21
分组数据中四分位差计算
Q1

LQ1

N 4
fb25 fQ1
i
Q3

LQ3

3N 4
fQ3
fb75
i
LQ:表示Q所在组的下限 N:表示总频数 fb:表示小于Q所在组下限的频数总和 i:表示组距
概述
描述数据离散程度的统计量称为差异量。差异量 越大,表明数据越分散、不集中;差异量越小, 表明数据越集中,变动范围越小。
一组数据的离散程度,常常通过数据的离中趋势 特点进行分析。
包括全距、百分位差、四分位差、平均差、标准 差、方差。
4
内容
第一节 全距与百分位差 第二节 平均差、方差与标准差 第三节 差异系数与标准差 小结
优点:简单、容易理解、计算简单的差异量数。 缺点:粗糙和不可靠,不稳定、不灵敏,明显受
到抽样的影响。是一种低效的差异量数。 应用:用于对数据作预备性检查,了解数据的大
概范围,以便如何进行统计分组。
7
二、百分位差(或称百分位距)
百分位数(percentile)又叫百分位点,指量尺上 的一个点值,小于等于这个点值的个体(数据个数)占 数据分布中全部数据个数的一定百分比。
第P百分位数:就是指小于等于P的数据占全部数据
的p%,其符号为Pp.
如:P70表示70%的位数,它代表在按照从小到大顺序排列 的一组数据中的一个可能数值,小于等于这个数值的数据
个数占70%,大于这个数值的数据占30%。如:当P70=110, 则表示在所有的数据中,有70%的数据小于等于110,而有
24
第二节 平均差、方差与标准差
一、动差体系
动差(moment)是物理学上测量力的旋转趋势 的名称,旋转趋势的大小随力点与原点距离大小 而变化,其大小是力与该距离的乘积。
统计学借用力学上的动差概念来表示次数分布的 离散情况。
把各组次数当作力学上的力,用数值或组中值与 原点之差作为距离来计算动差。

X
2 i

2X i X
2
X

X
2 i

2X
2
Xi N X

X
2 i

2(
Xi ) N
Xi N (
Xi )2 N

X
2 i

2
(
Xi )2 ( N
Xi )2 N

X
2 i

(
Xi )2 N
30
(二)方差与标准差的计算
样本方差
16
(一) 百分等级分数的计算公式
PR

Fb


X

Lb i

N
f
100
式中:Lb 为某特定原始变量所在组的下限 Fb 小于Lb的累积频数 f 为某特定原始变量所在组的频数 N 为数据总的次数 i 为组距
17
(二)百分等级分数的应用
例: 表4-1所列的考试分数分布中,已知某应试者 的考分为82分,问在这次考试中低于该应试者的人 数比例。
S 2= ( X

X )2

X2
X 2 n
n 1
n 1
样本标准差
S
S2
(X X )2

X
2

X
n
2
n 1
n 1

用两种公式计算样本数据6,5,7,4,6,8的方 差和标准差

用两种公式计算样本数据6,5,7,4,6,8的方差 和标准差
定义公式
138
24
122
34
98
21
64
16
43
11
27
9
16
7
7
(二)百分位差
百分位差:百分位差是指两个百分位数之差,也叫百 分位距。 用几个百分位差能较好地反映一组数据的差异程度。 但有一定的局限,只作为主要差异量数的辅助量数。
12
(三)百位数的应用
例:某招干考试分数如表4-1,预定取考分居前 10%的应考人员进行面试选拔,请划定面试分数线。
3.平均差的特点
优点:平均差是根据全部数值计算的,受极端值 影响较全距小。
缺点:由于采取绝对值的方法消除离差的正负号, 应用较少。
三、方差与标准差
(一)方差与标准差的意义 ⒈方差:(variance):离均差平方和的算术平均 数,符号为σ2、S 2或SD 2
⒉标准差:( standard deviation):方差的正 平方根,即离均差平方和求算术平均数后的正的 平方根,符号为σ 、S或SD。
X
f 为某一百分位数所在组的频数
Lb
n 为数据总的次数
i 为组距
Fb
10
(一)百分位数的计算
例 用表数据计 算该分布的百分 位数P90及P10。
组别
65~ 60~ 55~ 50~ 45~ 40~ 35~ 30~ 25~ 20~ 15~ 11 10~
f 向上累加次数
1
157
4
156
6
152
8
146
16
5
第一节 全距与百分位差
一、全距 R(range) 全距又称两极差,是一组数据中的最大值 (maximum)与该组数据中最小值(minimum) 之差,是说明数据离散程度的最简单的统计量。
R X max X min
作用:一般来说,全距越大,说明数据越分散, 反之数据越集中、越整齐。
6
对全距的评价
以平均数为原点的动差叫做中心动差,常见的中 心动差:
25
一级动差
二级动差 三级动差 四级动差
因其总和等于0,
常见的中心动差 故不能用来表示离 散程度
1
f (xi x) 0 N
2
f (x x)2
N
方差,最广泛的一种 差异量数指标,用来 表示一个分布中离中 趋势的指标,其平方 根是标准差
(二)方差与标准差的计算
总体方差
此法无需 计算平均数
2
(X )2

X2 (
X )2
N
N
N
总体标准差
(X )2 X 2 ( X )2
N
N
N
对原始数据公式的推算
2
SS X i X
(
X
2 i
2Xi
X

2
X)


90 100
1900
1641

5 98

73.02
面试分数线应定为73分
15
三、百分等级分数
百分等级分数:与百分位数相反,它是事先知道 分布中的一个原始分数,再求这个原始分数在分布 中所处的相对位置——百分等级。 百分等级分数指出原始数据在常模团体中的相对 位置,百分等级越小,原始数据在分布中相对位置 越低;百分等级越大,原始数据在分布中相对位置 越高。
30%的数据大于110。
8
(一)百分位数的计算
思考: 如何根据已学过的中位数的计算公式推导百分位
数的计算?
(一)百分位数的计算
Pp

Lb
p 100
n
Fb

i f
……………...………………
式中:
Lb 为某一百分位数所在组的精确下限
Fb 为百分位数所在组下限以下的累积频数 I , f
5~9
26
33
1.74 55~59 125 1376 72.42
0~4
7
7
0.37 50~54 149 1251 65.84
(三)百分位数的应用
解:本题要划定的分数线为P90,即分数线以下的 考生占90%。应求百分位分数,利用公式:
P90

Lb

90 100

N

Fb


i f

69.5
1.求平均数 2.求方差 3.求标准差
X 6
S 2
(X X )2 n 1
10 5

2
S S2 2 1.41

用两种公式计算样本数据6,5,7,4,6,8的方 差和标准差
原始数据公式
1 求原始数据的平方和:
X
2 i

226
2 求离均差的平方和: Xi 36
分组次数分布表求标准差:
N
fi (Xc X )2
i1

N
fX
2 c
N

2
f N
Xc

例 计算30位运动员成绩标准差
成绩(分) 128-130 131-133 134-136 137-139 140-142 143-145 Σ
3 代入公式得
2
X X2
226 362
S2=
n
6 2
n 1
6 1
S=1.41 34

分别计算下列两组学生成绩的方差与标准差
甲组 8,9,10,13,13,14,14,15 乙组 3,5, 5, 7, 9,13,21,33

甲(X) 乙(Y) x=X-X y=Y- Y x2
13
表4-1 招干考试分数表
分组
次数
累积次数
累积相 对次数
分组
次数
累积次 数
累积相 对次数
45~49 136 1102 58
40~44 134 966 50.84 90~94 13 1900 100
35~39 126 832 43.79 85~89 27 1887 99.32
30~34 138 706 37.16 80~84 51 1860 97.89
教育统计学 04讲 差异量数
问题
问题一: 已知两组学生在某道题上成绩如下 甲组 8,9,10,13,13,14,14,15, 乙组 3,5, 5, 7, 9,13,21,33,
试比较两组学生成绩哪一组好些?为什么?哪一 组平均数的代表性更好一些呢?

问题二:
假设你是某大型加工工厂的采购代理商,你定 期向两个不同的供应商订货。两个供应商都指出订 货后大约10天才能交货。运营了几个月后,你发现 两个供货商交货时间的平均数都是10天左右。二者 交货所需工作日的数据直方图如下所示。你更愿意 向哪一个供货商订货呢?
y2
8
3
8
-9 64 81
9
5
9
-7
81
49 甲S2=168/7=24
10
5
-2 -7
4
49 S=4.9
13
7
1
-5
1
25 乙S2=441/7=63
13
9
1
-3
1
9 S=7.94
14 13
2
1
4
1
14 21
2
9
4
81
15 33
3
21
9 441
X =12 Y =12
∑=168 ∑=736
(二)分组次数分布表中标准差的计算
四分位差,是百分位差的一种,它是第三个四 分位数(Q3, P75)与第一个四分位数(Q1,P25) 之差的一 半,即在一个次数分布中,中间50%的次数的距离 的一半。 用四分位数间距可反映数据变异程度的大 小。计算公式为:
Q Q3 Q1 2
19
(一)四分位差的计算
四分位差的计算,基于P25、P75两个百分位数, 这两个点值和中数一起把一组数据的次数等分为 四部分。
Q1

69.5

50 4
10
5 8
71.06
Q3

79.5

3 50 4

30
5 9
83.67
Q Q3 Q1 2
83.67 71.06 6.31 2
(三) 四分位差特点
优点: 1, 常与中数联系起来共同应用。 2, 对数据的离散程度的描述比全距好 缺点: 1 , 稳定性差 2 , 反映不灵敏 3 , 不能进行代数运算
相关文档
最新文档