第三讲平均数、标准差和变异系数
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
s (y y)2 n 1
同样,样本标准差是总体标准差的估计 值。总体标准差用表示:
14
平均数 = 6
2、中位数
中位数: 将资料内所有观察值从大到小排序,居中间位置的观察 值称为中数(median),计作Md。当观测值的个数是偶数时,则以中间 两个观测值的平均数作为中位数。当所获得的数据资料呈偏态分布时, 中位数的代表性优于算术平均数。
中位数的计算方法因资料是否分组而有所不同。对于未分组资料, 先将各观测值由小到大依次排列,找到中间的1个数(n为奇数)或2个 数( n为偶数),之后求平均即可。
我们还可以采用将离均差平方的办法来解决 离均差有正、有负,且离均差之和为零的问题。
先将各 个离 均差平方,即 ( xx )2 ,再求
离均差平方和 , 即 (xx)2 ,简称平方和,记
为SS; 由 于 离差平方和 常 随 样 本 大 小 而 改 变 ,为 了 消 除 样 本大小 的 影 响 , 用平
二、算术平均数的计算方法
算术平均数可根据样本大小及分组情况而 采用直接法或加权法计算。
(一)直接法 主要用于未经分组资料平均数的计算。
设某一资料包含n个观测值: x1、x2、…、xn,
则样本平均数可通过下式计算:
n
xx1x2 xn i1 xi
n
n
(4.1)
简写:
x x
n
【例1】 某植保站测得10只某类害虫的体重分别为500、 520、535、560、585、600、480、510、505、490 (mg),求其平均数。
对于总体而言,通常用μ表示总体平均数,有限总体的平均
数为:
N
xi N i1
(4.3)
式中,N 表示总体所包含的个体数。 当一个统计量的数学期望等于所估计的总体参数时,则称此 统计量为该总体参数的无偏估计量。
统计学中常用样本平均数( x )作为总体平均数(μ)的估
计量,并已证明样本平均数是总体平均数μ的无偏估计量。
0 1 2 3 4 5 6 7 8 9 10
中位数= 5
0 1 2 3 4 5 6 7 8 9 10 12 14
中位数= 5
3、众数
众数: 资料中最常见的一数,或次数最多一组的中点值,称
为众数(mode),记为M0。如棉花纤维检验时所用的主体长度即 为众数。
众数可能不存在 可能有多个众数 多用于属性数据
缩写为MS), 又称样本方差,记为S2,即
S2= (xx)2/n (1) (4.7)
相应的总体参数叫 总体方差 ,记
为σ2。对于有限总体而言,σ2的计算
公式为:
2 (x)2/N(4.8)
标准差为方差的正平方根值,用以表示资 料的变异度,其单位与观察值的度量单位相 同。从样本资料计算标准差的公式为:
(x x)2 (x x)2 / A2
当 x x / A ,则 x x • A,
(x x)2 A2 • (x x)2
6、平均数是有单位的数值,与原资料单位相同。
x 注意:必须性状同质时, 才有代表性。
山地 丘陵 平地
甲村 面积 单产
100 100 500 400 400 500
G lg 1[1 n(lx1 g lg x2lg xn)]
5、调和平均数
调和平均数:(harmonic mean)各观测 值倒数的 算术平均数 的倒数,称为调和平均 数,记为H。即
H
1
1
( 1 1
n x1
x12
x1n)
1 n
1 x
(4.6)
对于同一资料: 算术平均数>几何平均数>调和平均数
上述五种平均数,最常用的是算术平均数。
为了解决离均差有正 、有负,离均差之和为零的 问 题,可先求 离 均 差的绝 对 值 并 将 各 离 均 差 绝 对 值 之 和 除以 观 测 值 个 数n 求 得 平 均 绝 对 离差, 即Σ|x – x |/n。虽然平均绝对离差可以表示资料中各观 测值的变异程度 ,但由于平均绝对离差包含绝对值符 号 ,使用很不方便,在统计学中未被采用。
【例2】 从A、B两小区分别抽取4个和5个小麦麦穗, 测得其样本如下,用两种方法计算其平均值,并比较计 算结果。
小区
每穗小穗数
平均数(x )f •x
A 13 14 15 17
B 16 16 17 18 18
Σ
பைடு நூலகம்
144
144/ 9=16
14.75
59
17.00
85
144
144/ 9=16
【例3】 140行水稻产量(P38),用两种方法求其 平均数,并比较计算结果。
乙村 面积 单产
900 160 600 500 500 600
山地 丘陵 平地
Σ
x
S AY S·AY
100 100 10000
500 400 200000
400 500 200000
1000
410000
410000/1000=410
S AY S·AY
900 160 144000
600 500 300000
在次数分布表的基础上采用加权法计算平均数,计算
公式为:
k
x
f1x1f2x2fkxk f1f2fk
i1 k
fixi fi
fx f
(4.2)
i1
式中: xi -第i 组的组中值; fi -第i组的次数;k -分组数
第i组的次数 fi 是权衡第i组组中值 xi 在资料中所占 比重大小的数量,因此将 fi 称为是 xi 的“权”,加权 法也由此而得名。
三、算术平均数的重要特性
1、算术平均数的计算与每一个数(值)都有 关。
2、如果 x 1 是n1个值的平均数, x 2 是n2个值
的平均数,那么全部n1+n2个值的算术平均数是
x n1x1 n2x2 (加权平均数) n1 n2
3、样本各观测值与平均数之差的和为零, 即离均差之和等于零。
n
(xi x) 0
Σ
组 中 值 (x )
次 数 (f )
75
2
90
7
105
7
120
14
135
17
150
20
165
24
180
21
195
13
210
9
225
3
240
2
255
1
140
2 2 0 6 5 / 1 4 0 = 1 5 7 .6 1
fx 150 630 735 1680 2295 3000 3960 3780 2535 1890 675 480 255 22065
试验资料
上章内容回顾
计数资料(非连续)
数量性状资料
计量资料(连续变量)
质量性状资料(数量化处理)
试验资料搜集常用的方法:调查和试验
试验资料的整理:检查和核对;制作次数分布表 和分布图(柱形图、折线图、条形图,饼图)
试验资料均具有集中性和离散性两种基本特征,平均数 是反映集中性的特征数,变异数是反映离散型的特征数
由于 Σx = 500 + 520 + 535 + 560 + 585 + 600 + 480 + 510 + 505 + 490 = 5285,
n =10
得: x∑ x528552.85(mg)
n 10
即 10只害虫的平均体重为528.5 mg。
(二)加权法
对于样本含量 n≥30 以上且已分组的资料,可以
第三章 平均数、标准 差和变异系数
平均数(mean)用于反映资料的集中性,即观 测值以某一数值为中心而分布的性质。 标准差(standard deviation)与变异系数
(variation coefficient)反映资料的离散性,即 观测值分散变异的性质。
第一节 平均数
一、平均数的意义和种类 二、算术平均数的计算方法 三、算术平均数的重要特性 四、算术平均数的作用 五、总体平均数
为 了 准 确 地 表示样本内各个观测值的变异程度 , 人们 首 先会考虑到以平均数为标准,求出各个观测 值与平均数的离差,( x),x称为离均差。
虽然离均差能表示一个观测值偏离平均数的性质 和程度,但因为离均差有正、有负 ,离均差之和 为 零,即Σ( xx) = 0 ,因 而 不 能 用离均差之和Σ ( xx)来 表 示 资料中所有观测值的总偏离程度。
(1)直接法:
x ∑x 177 215 ... 159
n
140
22047 140
157.48(g )
(2)加权法:
分组数列 6 7 .5 ~ 8 2 .5 8 2 .5 ~ 9 7 .5 9 7 .5 ~ 1 1 2 .5 1 1 2 .5 ~ 1 2 7 .5 1 2 7 .5 ~ 1 4 2 .5 1 4 2 .5 ~ 1 5 7 .5 1 5 7 .5 ~ 1 7 2 .5 1 7 2 .5 ~ 1 8 7 .5 1 8 7 .5 ~ 2 0 2 .5 2 0 2 .5 ~ 2 1 7 .5 2 1 7 .5 ~ 2 3 2 .5 2 3 2 .5 ~ 2 4 7 .5 2 4 7 .5 ~ 2 6 2 .5
一、极差
极差(range),又称全距,记作R,是资料中 最大观察值与最小观察值的差数。
极差虽可以对资料的变异有所说明,但它 只是两个极端数据决定的,没有充分利用 资料的全部信息,而且易于受到资料中不 正常的极端值的影响。所以用它来代表整 个样本的变异度是有缺陷的。
二、方差
为了正确反映资料的变异度,较合理的方 法是根据样本全部观察值来度量资料的变 异度。这时要选定一个数值作为共同比较 的标准。平均数既作为样本的代表值,则 以平均数作为比较的标准较为合理,但同 时应该考虑各样本观察值偏离平均数的情 况,为此这里给出一个各观察值偏离平均 数的度量方法。
第二节 变异数
平均数作为样本的代表,其代表性的强弱受样 本资料中各观测值变异程度的影响。每个样本有 一批观察值,除以平均数作为样本的集中性表现 外,还应该考虑样本内各个观察值的变异情况, 才能通过样本的观察数据更好地描述样本,乃至 描述样本所代表的总体,为此必须有度量变异的 统计数。常用的描述变异程度指标有: 1、极差(range) 2、方差(variance) 3、标准差(standard deviation) 4、变异系数(variation coefficient)
方和 除 以 样 本 大 小, 即 (xx)2/n,求出离
均差平方和的平均数 ;
为了使所得的统计量是相应总体参数的无 偏 估计量,统计学证明,在求离均差平方和的平均 数时,分母不用样本含量n,而用自由度 n-1,
于是,我们 采 用统计 量(xx)2/n (1) 表示资料的
变异程度。
统计量 (xx)2/n (1)称为均方(mean square,
i1
或简写成
(x x)0
4、样本各观测值与平均数之差的平方和为最小, 即离均差平方和为最小。
x n
n
(xi x)2 (xi )2 (常数
)
i1
i1
或简写为:
(x x )2 (x )2
5、若A为任意常数,
当 x x A,则 x x A ,
(x x)2 (x x)2
当 x x • A,则 x x / A,
1、算术平均数
算术平均数: 一个数量资料中各个观察值的总和 除以观察值个数所得的商数,称为算术平均数
(arithmetic mean),记作 x 。因其应用广泛,常简称
平均数或均数(mean)。均数的大小决定于样本的各观 察值。
0 1 2 3 4 5 6 7 8 9 10
平均数 = 5
1234567
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
众数 = 9
没有众数
4、几何平均数
几何平均数: 如有n个观察值,其相乘积开n次方 ,即为几何平均数(geometric mean),用G代表。 其计算公式如下:
1
Gnx1x2x3xn(x1x2x3xn)n
为了计算方便,可将各观测值取对数后相加 除以n,得lgG,再求lgG的反对数,即得G值, 即:
一、平均数的意义和种类
平均数(average)是数据的代表值,表示资料中 观察值的中心位置,并且可作为资料的代表而与 另一组资料相比较,借以明确二者之间相差的情 况。
平均数是统计学中最常用的统计量,用来表明 资料中各观测值相对集中较多的中心位置。平均 数主要包括有: 1. 算术平均数(arithmetic mean) 2. 中位数(median) 3. 众数(mode) 4. 几何平均数(geometric mean) 5. 调和平均数(harmonic mean)
500 600 300000
2000
744000
744000/2000=372
四、算术平均数的作用
算术平均数是描述观测资料的重要特征数, 它的作用主要有以下两点:
1. 指出数据资料的中心位置,标志着资料所 代表性状的数量水平和质量水平。
2. 可以作为样本或资料的代表数据与其他资 料进行比较。
五、总体平均数
同样,样本标准差是总体标准差的估计 值。总体标准差用表示:
14
平均数 = 6
2、中位数
中位数: 将资料内所有观察值从大到小排序,居中间位置的观察 值称为中数(median),计作Md。当观测值的个数是偶数时,则以中间 两个观测值的平均数作为中位数。当所获得的数据资料呈偏态分布时, 中位数的代表性优于算术平均数。
中位数的计算方法因资料是否分组而有所不同。对于未分组资料, 先将各观测值由小到大依次排列,找到中间的1个数(n为奇数)或2个 数( n为偶数),之后求平均即可。
我们还可以采用将离均差平方的办法来解决 离均差有正、有负,且离均差之和为零的问题。
先将各 个离 均差平方,即 ( xx )2 ,再求
离均差平方和 , 即 (xx)2 ,简称平方和,记
为SS; 由 于 离差平方和 常 随 样 本 大 小 而 改 变 ,为 了 消 除 样 本大小 的 影 响 , 用平
二、算术平均数的计算方法
算术平均数可根据样本大小及分组情况而 采用直接法或加权法计算。
(一)直接法 主要用于未经分组资料平均数的计算。
设某一资料包含n个观测值: x1、x2、…、xn,
则样本平均数可通过下式计算:
n
xx1x2 xn i1 xi
n
n
(4.1)
简写:
x x
n
【例1】 某植保站测得10只某类害虫的体重分别为500、 520、535、560、585、600、480、510、505、490 (mg),求其平均数。
对于总体而言,通常用μ表示总体平均数,有限总体的平均
数为:
N
xi N i1
(4.3)
式中,N 表示总体所包含的个体数。 当一个统计量的数学期望等于所估计的总体参数时,则称此 统计量为该总体参数的无偏估计量。
统计学中常用样本平均数( x )作为总体平均数(μ)的估
计量,并已证明样本平均数是总体平均数μ的无偏估计量。
0 1 2 3 4 5 6 7 8 9 10
中位数= 5
0 1 2 3 4 5 6 7 8 9 10 12 14
中位数= 5
3、众数
众数: 资料中最常见的一数,或次数最多一组的中点值,称
为众数(mode),记为M0。如棉花纤维检验时所用的主体长度即 为众数。
众数可能不存在 可能有多个众数 多用于属性数据
缩写为MS), 又称样本方差,记为S2,即
S2= (xx)2/n (1) (4.7)
相应的总体参数叫 总体方差 ,记
为σ2。对于有限总体而言,σ2的计算
公式为:
2 (x)2/N(4.8)
标准差为方差的正平方根值,用以表示资 料的变异度,其单位与观察值的度量单位相 同。从样本资料计算标准差的公式为:
(x x)2 (x x)2 / A2
当 x x / A ,则 x x • A,
(x x)2 A2 • (x x)2
6、平均数是有单位的数值,与原资料单位相同。
x 注意:必须性状同质时, 才有代表性。
山地 丘陵 平地
甲村 面积 单产
100 100 500 400 400 500
G lg 1[1 n(lx1 g lg x2lg xn)]
5、调和平均数
调和平均数:(harmonic mean)各观测 值倒数的 算术平均数 的倒数,称为调和平均 数,记为H。即
H
1
1
( 1 1
n x1
x12
x1n)
1 n
1 x
(4.6)
对于同一资料: 算术平均数>几何平均数>调和平均数
上述五种平均数,最常用的是算术平均数。
为了解决离均差有正 、有负,离均差之和为零的 问 题,可先求 离 均 差的绝 对 值 并 将 各 离 均 差 绝 对 值 之 和 除以 观 测 值 个 数n 求 得 平 均 绝 对 离差, 即Σ|x – x |/n。虽然平均绝对离差可以表示资料中各观 测值的变异程度 ,但由于平均绝对离差包含绝对值符 号 ,使用很不方便,在统计学中未被采用。
【例2】 从A、B两小区分别抽取4个和5个小麦麦穗, 测得其样本如下,用两种方法计算其平均值,并比较计 算结果。
小区
每穗小穗数
平均数(x )f •x
A 13 14 15 17
B 16 16 17 18 18
Σ
பைடு நூலகம்
144
144/ 9=16
14.75
59
17.00
85
144
144/ 9=16
【例3】 140行水稻产量(P38),用两种方法求其 平均数,并比较计算结果。
乙村 面积 单产
900 160 600 500 500 600
山地 丘陵 平地
Σ
x
S AY S·AY
100 100 10000
500 400 200000
400 500 200000
1000
410000
410000/1000=410
S AY S·AY
900 160 144000
600 500 300000
在次数分布表的基础上采用加权法计算平均数,计算
公式为:
k
x
f1x1f2x2fkxk f1f2fk
i1 k
fixi fi
fx f
(4.2)
i1
式中: xi -第i 组的组中值; fi -第i组的次数;k -分组数
第i组的次数 fi 是权衡第i组组中值 xi 在资料中所占 比重大小的数量,因此将 fi 称为是 xi 的“权”,加权 法也由此而得名。
三、算术平均数的重要特性
1、算术平均数的计算与每一个数(值)都有 关。
2、如果 x 1 是n1个值的平均数, x 2 是n2个值
的平均数,那么全部n1+n2个值的算术平均数是
x n1x1 n2x2 (加权平均数) n1 n2
3、样本各观测值与平均数之差的和为零, 即离均差之和等于零。
n
(xi x) 0
Σ
组 中 值 (x )
次 数 (f )
75
2
90
7
105
7
120
14
135
17
150
20
165
24
180
21
195
13
210
9
225
3
240
2
255
1
140
2 2 0 6 5 / 1 4 0 = 1 5 7 .6 1
fx 150 630 735 1680 2295 3000 3960 3780 2535 1890 675 480 255 22065
试验资料
上章内容回顾
计数资料(非连续)
数量性状资料
计量资料(连续变量)
质量性状资料(数量化处理)
试验资料搜集常用的方法:调查和试验
试验资料的整理:检查和核对;制作次数分布表 和分布图(柱形图、折线图、条形图,饼图)
试验资料均具有集中性和离散性两种基本特征,平均数 是反映集中性的特征数,变异数是反映离散型的特征数
由于 Σx = 500 + 520 + 535 + 560 + 585 + 600 + 480 + 510 + 505 + 490 = 5285,
n =10
得: x∑ x528552.85(mg)
n 10
即 10只害虫的平均体重为528.5 mg。
(二)加权法
对于样本含量 n≥30 以上且已分组的资料,可以
第三章 平均数、标准 差和变异系数
平均数(mean)用于反映资料的集中性,即观 测值以某一数值为中心而分布的性质。 标准差(standard deviation)与变异系数
(variation coefficient)反映资料的离散性,即 观测值分散变异的性质。
第一节 平均数
一、平均数的意义和种类 二、算术平均数的计算方法 三、算术平均数的重要特性 四、算术平均数的作用 五、总体平均数
为 了 准 确 地 表示样本内各个观测值的变异程度 , 人们 首 先会考虑到以平均数为标准,求出各个观测 值与平均数的离差,( x),x称为离均差。
虽然离均差能表示一个观测值偏离平均数的性质 和程度,但因为离均差有正、有负 ,离均差之和 为 零,即Σ( xx) = 0 ,因 而 不 能 用离均差之和Σ ( xx)来 表 示 资料中所有观测值的总偏离程度。
(1)直接法:
x ∑x 177 215 ... 159
n
140
22047 140
157.48(g )
(2)加权法:
分组数列 6 7 .5 ~ 8 2 .5 8 2 .5 ~ 9 7 .5 9 7 .5 ~ 1 1 2 .5 1 1 2 .5 ~ 1 2 7 .5 1 2 7 .5 ~ 1 4 2 .5 1 4 2 .5 ~ 1 5 7 .5 1 5 7 .5 ~ 1 7 2 .5 1 7 2 .5 ~ 1 8 7 .5 1 8 7 .5 ~ 2 0 2 .5 2 0 2 .5 ~ 2 1 7 .5 2 1 7 .5 ~ 2 3 2 .5 2 3 2 .5 ~ 2 4 7 .5 2 4 7 .5 ~ 2 6 2 .5
一、极差
极差(range),又称全距,记作R,是资料中 最大观察值与最小观察值的差数。
极差虽可以对资料的变异有所说明,但它 只是两个极端数据决定的,没有充分利用 资料的全部信息,而且易于受到资料中不 正常的极端值的影响。所以用它来代表整 个样本的变异度是有缺陷的。
二、方差
为了正确反映资料的变异度,较合理的方 法是根据样本全部观察值来度量资料的变 异度。这时要选定一个数值作为共同比较 的标准。平均数既作为样本的代表值,则 以平均数作为比较的标准较为合理,但同 时应该考虑各样本观察值偏离平均数的情 况,为此这里给出一个各观察值偏离平均 数的度量方法。
第二节 变异数
平均数作为样本的代表,其代表性的强弱受样 本资料中各观测值变异程度的影响。每个样本有 一批观察值,除以平均数作为样本的集中性表现 外,还应该考虑样本内各个观察值的变异情况, 才能通过样本的观察数据更好地描述样本,乃至 描述样本所代表的总体,为此必须有度量变异的 统计数。常用的描述变异程度指标有: 1、极差(range) 2、方差(variance) 3、标准差(standard deviation) 4、变异系数(variation coefficient)
方和 除 以 样 本 大 小, 即 (xx)2/n,求出离
均差平方和的平均数 ;
为了使所得的统计量是相应总体参数的无 偏 估计量,统计学证明,在求离均差平方和的平均 数时,分母不用样本含量n,而用自由度 n-1,
于是,我们 采 用统计 量(xx)2/n (1) 表示资料的
变异程度。
统计量 (xx)2/n (1)称为均方(mean square,
i1
或简写成
(x x)0
4、样本各观测值与平均数之差的平方和为最小, 即离均差平方和为最小。
x n
n
(xi x)2 (xi )2 (常数
)
i1
i1
或简写为:
(x x )2 (x )2
5、若A为任意常数,
当 x x A,则 x x A ,
(x x)2 (x x)2
当 x x • A,则 x x / A,
1、算术平均数
算术平均数: 一个数量资料中各个观察值的总和 除以观察值个数所得的商数,称为算术平均数
(arithmetic mean),记作 x 。因其应用广泛,常简称
平均数或均数(mean)。均数的大小决定于样本的各观 察值。
0 1 2 3 4 5 6 7 8 9 10
平均数 = 5
1234567
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
众数 = 9
没有众数
4、几何平均数
几何平均数: 如有n个观察值,其相乘积开n次方 ,即为几何平均数(geometric mean),用G代表。 其计算公式如下:
1
Gnx1x2x3xn(x1x2x3xn)n
为了计算方便,可将各观测值取对数后相加 除以n,得lgG,再求lgG的反对数,即得G值, 即:
一、平均数的意义和种类
平均数(average)是数据的代表值,表示资料中 观察值的中心位置,并且可作为资料的代表而与 另一组资料相比较,借以明确二者之间相差的情 况。
平均数是统计学中最常用的统计量,用来表明 资料中各观测值相对集中较多的中心位置。平均 数主要包括有: 1. 算术平均数(arithmetic mean) 2. 中位数(median) 3. 众数(mode) 4. 几何平均数(geometric mean) 5. 调和平均数(harmonic mean)
500 600 300000
2000
744000
744000/2000=372
四、算术平均数的作用
算术平均数是描述观测资料的重要特征数, 它的作用主要有以下两点:
1. 指出数据资料的中心位置,标志着资料所 代表性状的数量水平和质量水平。
2. 可以作为样本或资料的代表数据与其他资 料进行比较。
五、总体平均数