常用统计量与计算方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
x Md= (n1) / 2
2、当观测值个数为 偶 数 时 , n/2和
(n/2+1)位置的两个观测值之和的1/2为
中位数,即: xn / 2 x(n / 21) Md 2
(3-4)
16
B. 分组资料的计算
分组资料,则可利用频数分布表来计算中位数, 其计算公式为:
in Md L ( c)
注: 小样本的自由度为n-1
x x 2
n 1
n 30
35
标准差的计算方法
上述计算方法需先求出平均数(一般为约数),容易 引起计算误差,因此采用原始数据进行计算 (书P20)
大样本: S x 2 x 2 / n
n
小样本: S x 2 x 2 / n
n -1
为简化计算过程,若试验观测数值较大(小)时,可将各观测值
f1 f2 fn
f
fi: 各观察值在平均数中的权数 x:是不同比值的观察值
例: 评判总成绩:期中30% 76 分, 期末70% 82分
x 79(分)
76 0.3 82 0.7
xr
80.2(分)
0.3 0.7
8
例: 书P18 例2.3 求平均株高
株高x
次数f
fx
79
1
79
80
2
160
(二)中位数 (median) (简写 Md)
Md
一组依大小排列的观察值中,居于中间位置的观测数 称为中位数或中数。
(一)未分组资料 中位数的计算方法 (二)已分组资料 中位数的计算方法
15
A. 不分组资料 (观测数据个数较少时)的计算: P17 1、当观测值个数n为奇数时,(n+1)/2
位置的观测值,即x(n+1)/2为中位数:
R大(小)
变异度大(小)
24
极差(全距)
优点:简单明了,应用广泛,如用于说明传染病 、 食物中毒等的最短、最长潜伏期等。
缺点: a.除MAX和MIN外,不能反映组内其它数据变异度。 b.极差抽样误差大,受两个极端值影响, 不够稳定,
例3:甲:2 4 6 8 10 乙:2 6 6 6 10
x 6 R均为8
c (小于频数最多所在组的累加频数)= 7+ 17+ 28 = 52
Md = 55 + 5/40 ×(150/2 - 52) = 57.875 cm
优点: 对于观测值较多的大量数据,不需要手动去找处于中间位置的数据
22
优点: 对于观测值较多的大量数据,不需要手动去找处于中间位置的数据
例: 表2-6中,频数最多的一组为 55~60 cm (出现
31
3、自由度 df (degree of freedom)
——当以样本的统计量来估计总体的参数时,样本 中能自由变化的数据的个数
一个样本有n个观察值,就有n个离均差(x-x),但
受到 x x 0 的限制,只有n-1个可以自由变动。
32
为什么只有n-1个可以自由变动? (书 P20)
原因:虽有n个离均差,但只有n-1个是能自由变动的。
例2:求0.56 0.24 0.76 0.48的均数 各数×100 得 56 24 76 48 均数为51 ÷100= 0.51
11
(2)算术平均数的性质
A. 各观察值的总和等于平均数的N倍
x
x
x Nx
N
B. 离均差(各观察值与平均数之差)的总和等于零
x x 0
证明: x x x1 x x2 x xn x
则样本平均数可通过下式计算:
n
xi
x x1 x2 xn i1
n
n
n
其中,Σ为总和符号;
xi
i1
表示从第一个观测
值x1累加到第n个观测值xn。当 n在意义上已明确
时,可简写为Σx,上式可改写为:
x
x
6
n
B、加权平均法 ( 又称 频数分布表法)
对于样本含量 n>30 以上且已分组的资料,可以在次 数分布表的基础上,采用加权法计算平均数,计算公式为:
27
为了解决离均差有正 、有负,离均差之 和为零的问 题 ,
可先求 离 均 差的绝 对 值 并 将 各 离 均 差 绝对 值 之 和 除以 观 测 值 个 数 n 求 得 平 均 绝 对 离差,即Σ|x x|/n, 简称平 均差
28
(二)平均差
各观察值与平均数离差的绝对值的算术平均数
xx
AD N
若为计数资料,不分组,且Σf=n,此时直接用自然值
乘以次数来计算,即 x =Σfx/n。
第i组的次数fi是 权衡第i个自然值xi在资料中所占比重 大小的数量,因此将fi 称为是xi的“权数”,加权法也由此而 得名。
7
2. 加权平均数 (weighted mean)
——不同比重数据的平均数
x f1x1 f2x2 fn xn fixi
例如:9、10、11,平均数为10。其中有2个数可以自由变动为12、
15,则第3个数只能是3,不能是其它值。(否则无法
使 x x 0 )
此样本有3个观察值,自由度是2。 大样本因为n和n-1相差甚微可不用自由度,直接用n计算 如果统计量受k个条件限制,则自由度应为(n-k)个
33
在方差的计算中离均差经平方后,原有的单位也给平方了, 如身高(cm)成为(cm)2,原来的变异度也被扩大了。
总体:SS x 2
2
样本: SS x x
30
2、方差
方差——为消除样本容量n带来的影响,用平方和除以样 本容量所得均数,又称为平均平方和(均方),记为S2.
总 体: 2 x 2
N
2
大样本:S2 x x
n
2
小样本:S2 x x n 30
n -1
(n-1为自由度)
(一)平均数 (average) ——是资料变数的中心位置比较确切的代表数
只有频数分布具有集中于中心点附近这一趋势的基本条件,才具代表性
例:4,196,1000的平均数400就没有代表性
3
平均数是统计学中最常用的统计量,用来表明 资料中各观测值相对集中较多的中心位置。平均数 主要包括有:
算术平均数(arithmetic mean) 中位数(median) 众数(mode) 几何平均数(geometric mean) 调和平均数(harmonic mean)
代入公式(3—5)得:
Md
L
i
n
15 68
( c) 57 ( 16) 70.5
(天)
f2
20 2
即间隔时间的中位数为70.5天。
L — 频数最多所在组的下限
i — 组距 (即全距/组数)
f — 频数最多所在组的频数
n — 总频数(即总次数)
c — 小于频数最多所在组的累加频数
19
(三)众数 (mode) M0 (书 P17)
fx
f1 f2 fk
k
fi
f
i 1
式中:
xi — 第i组的组中值;
fi — 第i组的次数;
k — 分组数
10
C. 简捷法 (为便于计算) (书 P17)
各观察值同时扩大或缩小(+、-、×、÷某一常数 后),求出均数后再还原。
例1:求 514 526 496 480 的均数 各数-500 得 14 26 -4 -20 均数为4+500 =504
都减去或加上一个常数,所得S不变。
36
二、变异数
对于样本,标准差的两种计算方式
S=
(x-x ) 2
n-1
S=
x 2 -( x )2
n
n-1
书P21
例2.4 表2-8 9名男子前臂长(cm)标准差计算
前臂长
x2
x’=x-45
了40次), 因此组中值 M0为57.5 cm
23
二、 变异量
(书 P19)
表示一组数据分散或离中趋势的量
例:两组数据 甲 20 40 60 x 40
乙 39 40 41 x 40
若用平 均数
看不出 变异度
R= 40 R= 2
(一)极差(全距)(Range)
R = 最大值(Max)— 最小值(Min)
4
上一张下一张主 页 退 出
1. 算术平均数(Arithmetic Mean) x
全部观察数的总和除以总频数所得的商,简称均数(mean)
(1)计算方法 (书 P16)
A. 公式法
x x1 x 2 x n x
n
n
适用于不分组的小样本资料
5
注意:准确定义
设某一资料包含n个观测值: x1、x2、…、xn,
26
为 了 准 确 地 表示样本内各个观测值的变异 程度 ,人们 首 先会考虑到以平均数为标准,求 出各个观测值与平均数的离差,(x x) ,称为 离均差。
虽然离均差能表示一个观测值偏离平均数的 性质和程度,但因为离均差有正、有负 ,离均 差之和 为零,即Σx( x ) = 0 ,因 而 不 能 用离均差之和Σ(x x )来 表 示 资料中所有观 测值的总偏离程度。
平均差是一个很直观的变异量度,但由于用了绝对 值,在数学上不便于继续处理,使它在应用上受到很 大的限制。
29
(三) 方差的概念 (variance)
(书 P19)
由于离均差 x x 0 ,不能反映样本的总体变异程度。
因此,采用离均差的平方和衡量总体的变异程度
1、平方和——各个离均差平方的总和 SS (Sum of squares)
x1 x2 xn nx
x nx
0
x
n
x
12
C. 离均差的平方和比 各观察值与任何其 它数值的差数的平 方和都小。
x x 2 x a2(a x)
证明: x a 2 x x x a 2
x x x a2
x
2
x
2x
xx
a
x
2
a
x x2 2 x xx a x a2
资料中出现频数最多的那个观测值(未分组资料) 或频数最多一组的组中值(分组资料), 称为众数,以M0表示。
复习 (第2章):
组中值(中点值):Xc(每组上下限的中点值)
上限+下限
Xc=
=下限+1/2 组距=上限-1/2 组距
2
20
课堂练习
对于 P14 表2-6 150尾鱼体长的数据 请计算 (1) 中位数 Md
f2
式中: L — 频数最多所在组的下限
i — 组距 (即全距/组数)
f — 频数最多所在组的频数 n — 总频数 c — 小于频数最多所在组的累加频数
17
【例】 某养牛场68头牛从打疫苗到获得免疫性的间隔 时间 整理成次数分布表如表 3—2 所示,求中位数。
次数分布表
18
可见:i=15,n=68,因而中位数只能在累加头数为36所对应 的“57—71”这一组,于是可确定L=57,f=20,c=16,
原来的 变异度 扩大的 变异度
如何恢复到原来状态 ?
34
(四)标准差(standard deviation) Sd
——方差的平方根
(书P20)
为了和原始数据的大小和单位相适应,采用方差 的开方-标准差,以更好地描述样本的变异程度
总 体: x u2
N
2
大样本: S x x
n
小样本: S
乙组的变异明显低于甲组, R 不能反映 组内其它数据的 变异度 25
二、变异数
缺点
c. 样本较大时, 抽到较大值与较小值的可能性也较大, 因而样本极差也较大,故样本含量相差较大时,不宜用 极差来比较分布的离散度。
当资料很多,而又要迅速对资料的变异程度作出判断 用途 时,有时可先利用极差判断。
总结:通常只用于资料的粗略分析和小样本数据。
81
3
243
82
6
492
83
3
249
84
3
252
85
1
85
86
1
86
1
x = 20 ×(79 × 1 + 80×2 +… +86 =82.3(cm)
×1)
9
注:本公式与P18 式2.5(适合未分组资料)不同
若为分组资料,则用每组组中值乘以该组次数之和再除 以总次数来计算:
k
x f1x1 f2x2 fk xk i1 fi xi
x x 2 x a2
2
x a x a 0
∴左式<右式
13
3. 几何平均数
书 P17
n个观测值的乘积开n次方所得的数据,用G表示
1
G n x1 x2 x3 xn (x1 x2 x3 xn ) n
适应于变量x为对数正态分布,可通过对数转换后 呈正态分布的资料
14
(书 P17)
(2) 众数 M0
1. 作在课堂练习本上 2. 规范格式 (参见前一页 PPT )
21
中位数 Md 计算 150 尾鱼体长是分组资料,采取 第2种方法
L(频数最多所在组的下限) = 55 i(即组距, 全距/组数)=5 f (频数最多所在组的次数) = 40
in Md L 来自百度文库( c)
f2
n (总次数)=150
第三章
常用统计量与计算方法
1
集中性
平均数
算中众 术位数 平数 均 数
几调 何和 平平 均均 数数
离散性
变异数 极方标 变 差差准 异
差系 数
2
第三章 常用统计量与计算方法
一、集中量
集中量 ——代表一组数据集中趋势的数量
作用: 1、作为一组数据的代表值,可说明数据集中趋势的情况 2、可以进行组间比较
2、当观测值个数为 偶 数 时 , n/2和
(n/2+1)位置的两个观测值之和的1/2为
中位数,即: xn / 2 x(n / 21) Md 2
(3-4)
16
B. 分组资料的计算
分组资料,则可利用频数分布表来计算中位数, 其计算公式为:
in Md L ( c)
注: 小样本的自由度为n-1
x x 2
n 1
n 30
35
标准差的计算方法
上述计算方法需先求出平均数(一般为约数),容易 引起计算误差,因此采用原始数据进行计算 (书P20)
大样本: S x 2 x 2 / n
n
小样本: S x 2 x 2 / n
n -1
为简化计算过程,若试验观测数值较大(小)时,可将各观测值
f1 f2 fn
f
fi: 各观察值在平均数中的权数 x:是不同比值的观察值
例: 评判总成绩:期中30% 76 分, 期末70% 82分
x 79(分)
76 0.3 82 0.7
xr
80.2(分)
0.3 0.7
8
例: 书P18 例2.3 求平均株高
株高x
次数f
fx
79
1
79
80
2
160
(二)中位数 (median) (简写 Md)
Md
一组依大小排列的观察值中,居于中间位置的观测数 称为中位数或中数。
(一)未分组资料 中位数的计算方法 (二)已分组资料 中位数的计算方法
15
A. 不分组资料 (观测数据个数较少时)的计算: P17 1、当观测值个数n为奇数时,(n+1)/2
位置的观测值,即x(n+1)/2为中位数:
R大(小)
变异度大(小)
24
极差(全距)
优点:简单明了,应用广泛,如用于说明传染病 、 食物中毒等的最短、最长潜伏期等。
缺点: a.除MAX和MIN外,不能反映组内其它数据变异度。 b.极差抽样误差大,受两个极端值影响, 不够稳定,
例3:甲:2 4 6 8 10 乙:2 6 6 6 10
x 6 R均为8
c (小于频数最多所在组的累加频数)= 7+ 17+ 28 = 52
Md = 55 + 5/40 ×(150/2 - 52) = 57.875 cm
优点: 对于观测值较多的大量数据,不需要手动去找处于中间位置的数据
22
优点: 对于观测值较多的大量数据,不需要手动去找处于中间位置的数据
例: 表2-6中,频数最多的一组为 55~60 cm (出现
31
3、自由度 df (degree of freedom)
——当以样本的统计量来估计总体的参数时,样本 中能自由变化的数据的个数
一个样本有n个观察值,就有n个离均差(x-x),但
受到 x x 0 的限制,只有n-1个可以自由变动。
32
为什么只有n-1个可以自由变动? (书 P20)
原因:虽有n个离均差,但只有n-1个是能自由变动的。
例2:求0.56 0.24 0.76 0.48的均数 各数×100 得 56 24 76 48 均数为51 ÷100= 0.51
11
(2)算术平均数的性质
A. 各观察值的总和等于平均数的N倍
x
x
x Nx
N
B. 离均差(各观察值与平均数之差)的总和等于零
x x 0
证明: x x x1 x x2 x xn x
则样本平均数可通过下式计算:
n
xi
x x1 x2 xn i1
n
n
n
其中,Σ为总和符号;
xi
i1
表示从第一个观测
值x1累加到第n个观测值xn。当 n在意义上已明确
时,可简写为Σx,上式可改写为:
x
x
6
n
B、加权平均法 ( 又称 频数分布表法)
对于样本含量 n>30 以上且已分组的资料,可以在次 数分布表的基础上,采用加权法计算平均数,计算公式为:
27
为了解决离均差有正 、有负,离均差之 和为零的问 题 ,
可先求 离 均 差的绝 对 值 并 将 各 离 均 差 绝对 值 之 和 除以 观 测 值 个 数 n 求 得 平 均 绝 对 离差,即Σ|x x|/n, 简称平 均差
28
(二)平均差
各观察值与平均数离差的绝对值的算术平均数
xx
AD N
若为计数资料,不分组,且Σf=n,此时直接用自然值
乘以次数来计算,即 x =Σfx/n。
第i组的次数fi是 权衡第i个自然值xi在资料中所占比重 大小的数量,因此将fi 称为是xi的“权数”,加权法也由此而 得名。
7
2. 加权平均数 (weighted mean)
——不同比重数据的平均数
x f1x1 f2x2 fn xn fixi
例如:9、10、11,平均数为10。其中有2个数可以自由变动为12、
15,则第3个数只能是3,不能是其它值。(否则无法
使 x x 0 )
此样本有3个观察值,自由度是2。 大样本因为n和n-1相差甚微可不用自由度,直接用n计算 如果统计量受k个条件限制,则自由度应为(n-k)个
33
在方差的计算中离均差经平方后,原有的单位也给平方了, 如身高(cm)成为(cm)2,原来的变异度也被扩大了。
总体:SS x 2
2
样本: SS x x
30
2、方差
方差——为消除样本容量n带来的影响,用平方和除以样 本容量所得均数,又称为平均平方和(均方),记为S2.
总 体: 2 x 2
N
2
大样本:S2 x x
n
2
小样本:S2 x x n 30
n -1
(n-1为自由度)
(一)平均数 (average) ——是资料变数的中心位置比较确切的代表数
只有频数分布具有集中于中心点附近这一趋势的基本条件,才具代表性
例:4,196,1000的平均数400就没有代表性
3
平均数是统计学中最常用的统计量,用来表明 资料中各观测值相对集中较多的中心位置。平均数 主要包括有:
算术平均数(arithmetic mean) 中位数(median) 众数(mode) 几何平均数(geometric mean) 调和平均数(harmonic mean)
代入公式(3—5)得:
Md
L
i
n
15 68
( c) 57 ( 16) 70.5
(天)
f2
20 2
即间隔时间的中位数为70.5天。
L — 频数最多所在组的下限
i — 组距 (即全距/组数)
f — 频数最多所在组的频数
n — 总频数(即总次数)
c — 小于频数最多所在组的累加频数
19
(三)众数 (mode) M0 (书 P17)
fx
f1 f2 fk
k
fi
f
i 1
式中:
xi — 第i组的组中值;
fi — 第i组的次数;
k — 分组数
10
C. 简捷法 (为便于计算) (书 P17)
各观察值同时扩大或缩小(+、-、×、÷某一常数 后),求出均数后再还原。
例1:求 514 526 496 480 的均数 各数-500 得 14 26 -4 -20 均数为4+500 =504
都减去或加上一个常数,所得S不变。
36
二、变异数
对于样本,标准差的两种计算方式
S=
(x-x ) 2
n-1
S=
x 2 -( x )2
n
n-1
书P21
例2.4 表2-8 9名男子前臂长(cm)标准差计算
前臂长
x2
x’=x-45
了40次), 因此组中值 M0为57.5 cm
23
二、 变异量
(书 P19)
表示一组数据分散或离中趋势的量
例:两组数据 甲 20 40 60 x 40
乙 39 40 41 x 40
若用平 均数
看不出 变异度
R= 40 R= 2
(一)极差(全距)(Range)
R = 最大值(Max)— 最小值(Min)
4
上一张下一张主 页 退 出
1. 算术平均数(Arithmetic Mean) x
全部观察数的总和除以总频数所得的商,简称均数(mean)
(1)计算方法 (书 P16)
A. 公式法
x x1 x 2 x n x
n
n
适用于不分组的小样本资料
5
注意:准确定义
设某一资料包含n个观测值: x1、x2、…、xn,
26
为 了 准 确 地 表示样本内各个观测值的变异 程度 ,人们 首 先会考虑到以平均数为标准,求 出各个观测值与平均数的离差,(x x) ,称为 离均差。
虽然离均差能表示一个观测值偏离平均数的 性质和程度,但因为离均差有正、有负 ,离均 差之和 为零,即Σx( x ) = 0 ,因 而 不 能 用离均差之和Σ(x x )来 表 示 资料中所有观 测值的总偏离程度。
平均差是一个很直观的变异量度,但由于用了绝对 值,在数学上不便于继续处理,使它在应用上受到很 大的限制。
29
(三) 方差的概念 (variance)
(书 P19)
由于离均差 x x 0 ,不能反映样本的总体变异程度。
因此,采用离均差的平方和衡量总体的变异程度
1、平方和——各个离均差平方的总和 SS (Sum of squares)
x1 x2 xn nx
x nx
0
x
n
x
12
C. 离均差的平方和比 各观察值与任何其 它数值的差数的平 方和都小。
x x 2 x a2(a x)
证明: x a 2 x x x a 2
x x x a2
x
2
x
2x
xx
a
x
2
a
x x2 2 x xx a x a2
资料中出现频数最多的那个观测值(未分组资料) 或频数最多一组的组中值(分组资料), 称为众数,以M0表示。
复习 (第2章):
组中值(中点值):Xc(每组上下限的中点值)
上限+下限
Xc=
=下限+1/2 组距=上限-1/2 组距
2
20
课堂练习
对于 P14 表2-6 150尾鱼体长的数据 请计算 (1) 中位数 Md
f2
式中: L — 频数最多所在组的下限
i — 组距 (即全距/组数)
f — 频数最多所在组的频数 n — 总频数 c — 小于频数最多所在组的累加频数
17
【例】 某养牛场68头牛从打疫苗到获得免疫性的间隔 时间 整理成次数分布表如表 3—2 所示,求中位数。
次数分布表
18
可见:i=15,n=68,因而中位数只能在累加头数为36所对应 的“57—71”这一组,于是可确定L=57,f=20,c=16,
原来的 变异度 扩大的 变异度
如何恢复到原来状态 ?
34
(四)标准差(standard deviation) Sd
——方差的平方根
(书P20)
为了和原始数据的大小和单位相适应,采用方差 的开方-标准差,以更好地描述样本的变异程度
总 体: x u2
N
2
大样本: S x x
n
小样本: S
乙组的变异明显低于甲组, R 不能反映 组内其它数据的 变异度 25
二、变异数
缺点
c. 样本较大时, 抽到较大值与较小值的可能性也较大, 因而样本极差也较大,故样本含量相差较大时,不宜用 极差来比较分布的离散度。
当资料很多,而又要迅速对资料的变异程度作出判断 用途 时,有时可先利用极差判断。
总结:通常只用于资料的粗略分析和小样本数据。
81
3
243
82
6
492
83
3
249
84
3
252
85
1
85
86
1
86
1
x = 20 ×(79 × 1 + 80×2 +… +86 =82.3(cm)
×1)
9
注:本公式与P18 式2.5(适合未分组资料)不同
若为分组资料,则用每组组中值乘以该组次数之和再除 以总次数来计算:
k
x f1x1 f2x2 fk xk i1 fi xi
x x 2 x a2
2
x a x a 0
∴左式<右式
13
3. 几何平均数
书 P17
n个观测值的乘积开n次方所得的数据,用G表示
1
G n x1 x2 x3 xn (x1 x2 x3 xn ) n
适应于变量x为对数正态分布,可通过对数转换后 呈正态分布的资料
14
(书 P17)
(2) 众数 M0
1. 作在课堂练习本上 2. 规范格式 (参见前一页 PPT )
21
中位数 Md 计算 150 尾鱼体长是分组资料,采取 第2种方法
L(频数最多所在组的下限) = 55 i(即组距, 全距/组数)=5 f (频数最多所在组的次数) = 40
in Md L 来自百度文库( c)
f2
n (总次数)=150
第三章
常用统计量与计算方法
1
集中性
平均数
算中众 术位数 平数 均 数
几调 何和 平平 均均 数数
离散性
变异数 极方标 变 差差准 异
差系 数
2
第三章 常用统计量与计算方法
一、集中量
集中量 ——代表一组数据集中趋势的数量
作用: 1、作为一组数据的代表值,可说明数据集中趋势的情况 2、可以进行组间比较