第3章 平均数、标准差与变异系数

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 极差(全距) 极差 = 最大值 - 最小值 只利用了资料中最大值和最小值,不能准 确表达资料中各个观察值的变异程度。 • 平均离差
xx d
n 1
它不能表示整个资 标准差S 料中所有观察值的 (x x) 0 总偏离程度 x x 使用不方便,在统 S ( x x )2 /(n 1)
x1 x2 xn x n
x
i 1
n
i
n
n i 1 i
x 表示从 • 其中,(Sigma)为总和符号,
第一个观察值x1累加到第n个观察值xn,若 在意义上已明确时,简记为x。
关于总和符号的几个性质
常数的总和等于该常数的n倍,即
C nC
i 1
n
其中C为常数
第 3 章 平均数、标准差与变异系数
• 数据有两种变化趋势:集中趋势和离散趋 势。 • 表示数据集中趋势的指标有多个,如平均 数(算术平均数、几何平均数)、中位数、 众数,使用最多的是算术平均数。 • 表示数据离散趋势的指标有多个,如极差、 平均离差、方差与标准差,使用最多的是 方差与标准差。
一、集中趋势
45.0
46.5 48.0 49.5 51.0
fm
90
93 480 594 1326
2
2 10 12 26
x =10695/200
51.75—
53.25— 54.75—
52.5
54.0 55.5
44
43 29
2310
2322 1609.5
=53.475
56.25—
57.75— 59.25— 60.75—
数,标准差的值不变;
(三)当每个观察值都乘以一个常数a时,所得的标
准差是原来标准差的a倍.
样本的方差为
总体的方差为
变异系数
Coeffcient of variation
• 资料的单位不同或平均数相差很大时,直
接利用标准差比较资料间变异程度是不妥
的,需用变异系数。
• 变异系数同标准差一样是衡量资料变异程
代数和的总和等于总和的代数和,即
(x y z ) x y z
i i i i i
i

x x
i 1 j 1 ij j 1 i 1
k
n
n
k
ij
总和符号内的常数因子可以提取到总和符号之外,即
ax
i
a xi
(a为常数)
2. 加权法 • 如果样本中有n1个x1,有n2个x2,那么, n1+n2个数的平均数是加权平均数。
N 1
• 式中x为组值,f为频数,N为总频数(∑f), k为组数。
• 在计算连续型频数资料的标准差时,
s
fm
2

( fm) 2 N
N 1
• 式中m为组中值,f、N和k同上式。
标准差的特性
(一)标准差的大小受资料中各观察值的影响,观
察值间变异大的标准差也大,反之则小;
(二)计算标准差时,各观测值加上或减去一个常
57.0
58.5 60.0 61.5
11
15 2 4
627
877.5 120 246
合计
200
10695
平均数有以下几个基本特性:
• (1)平均数的计算与样本内每个值都有关, 它的大小受每个值的影响。 • (2)若每个xi都乘以相同的数k,则平均数 亦应乘以k。 • (3)若每个xi都加上(或减去)相同的数A, 则平均数亦应加上(或减去) A。
n1 x1 n2 x 2 x n1 n2
k • 同理: f1 x1 f 2 x2 f k xk f i xi fx x i 1 k f f1 f 2 f k fi i 1 • 各组的次数 fi 是权衡各组中值 xi在资料中所 占比重大小的数量,因此f被称为是x的 “权”,加权法也由此而得名。
• 在计算离散型频数资料的平均数时,
x
( fx)
i 1
k
i
N
• 式中x为组值,f为频数,N为总频数(∑f), k为组数。
表3-1 50只小鸡出壳天数的频数分布表
出壳天数 19 20 21 22 23 24 合计 频数(f) 2 3 10 24 9 2 50 fx 38 60 210 528 207 48 1091
度的统计量。变异系数消除了不同单位和
平均数的影响,可以用来比较不同资料的
相对变异程度。
• 变异系数是标准差与平均数的比, 记为CV。
cv s 100% x
• 两个小麦品种株高变异的比较
特点和作用
(一)变异系数是一个无单位的相对数; (二)变异系数同时受到平均数和标准差的影响,因
此,在利用变异系数来表示资料的变异程度时,
fx x f
1091 50 21.82
• 在计算连续型频数资料的平均数时,
x
( fm)
i 1
k
i
N
• 式中m为组中值,f、N和k同上式。
表3-2 某纯系蛋鸡200枚蛋重的频数分布表
组 别
44.25—
45.75— 47.25— 48.75— 50.25—
组中值m 频数(f)
计算
1、应用公式计算(实际应用时常取对数)
G n x1 x2 ....xn
1 1 n lg G lg x1 lg x2 lg xn lg xi n n i 1 n 1 1 G lg lg xi n i 1
• 例 海虾养殖试验,各旬的生长速度3.0,1.5 1.3,1.2,1.2,1.1,1.1,求海虾的旬平均 生长速度。 • 解:
1 lg G lg 3 lg 1.5 2 lg 1.2 2 lg 1.1 0.14 7
G lg 0.14 1.38
1
• 即海虾平均生长速度为1.38。 • 其算术平均数为
x1 x2 xn x 1.48 n
• 当资料编成频数分布表时,
G lg
[例]某地区有164人因沙门氏菌食物中毒,其潜伏期资料经 整理如下表,试计算中位数。 潜伏期(小时) 0—— 12—— 24—— 36—— 48—— 60—— 72—— 病例数f 25 58 40 23 12 5 1 累计例数 25 83 123 146 158 163 164
此例i 12, n 164, L 12, f 58, C 25 i n 12 164 M d L ( c) 12 ( 25) 23.8(小时) f 2 58 2
• 资料中各观察值的总和除以观察值的个数 所得的商,称为算术平均数,简称为平均 数或均数。用符号 表示。 • 平均数的意义: 平均数用来描述资料的集 中性,即指出资料中数据集中较多的中心 位置,常用于同类性质资料间的相互比较。
x
计算方法 1. 直接法 适用于样本含量较小的非频数资料 • 如果一个含量为n的样本,其n个观察值分 别用x1、x2……xn表示,则它们的平均数为
(x x)
离均差
2 2 2 ( x x ) ( x x ) ( x x ) ( x x ) /( n 1)
消除离均 差的负号 离均Hale Waihona Puke Baidu的平方之 称为均方(缩写为 和(简称平方和,MS),又称为样本 记为SS) 方差,记为S2
计学中未被采用
• 首先求出离均差,即每个数与它们的平均 数之间的离差;然后将所有的离均差平方, 再相加,得出离均差平方和;最后用n-1除 离均差平方和(按照统计学理论,不要用 样本含量n去除),所得的商称为样本方差, 用符号s2表示。 • 方差s2是离均差平方的平均数。虽然方差在 实际应用中用得最广泛,但因它的单位是 原始数据单位的平方,所以它不能直接地 指出某个数x与平均数之间的偏离究竟达到 什么程度。为此,采用标准差s做标准,衡 量x与平均数之间的离散程度。
样本方差
s
2
(x
i 1
n
i
x)
2
n 1
n
样本标准差 s
(x
i 1
i
x)
2
n 1
• 为了方便计算,将离均差平方和转化为另 一种形式,同时略去下标,上式可表示为:
( x ) n
2
s
x
2

n 1
• 在计算离散型频数资料的标准差时,
s

fx 2
( fx) 2 N
众数(Mode)
• 资料中出现次数最多的那个数或频数最多
一组的组中值,记为Mo。
50只小鸡出壳天数的频数分布表
出壳天数 19 20 21 22 23 24 合计 频数(f) 2 3 10 24 9 2 50 fx 38 60 210 528 207 48 1091
fx x f
1091 50 21.82
当n为偶数时, n / 2 和 n /2 1 位置的两个观察值之和 的二分之一即为中位数,即:
Md
xn / 2 x(n / 21) 2
若资料已分组,并编制成了频数分布表,可利用频数 分布表计算中数。
其中:L—中位数所在组的下限;i—组
i n M d L ( c) f 2
距;f—中位数所在组的频数; n—总频数;c—小于中数所在组 的累积频数。
=53.475
51.75—
53.25— 54.75—
52.5
54.0 55.5
44
43 29
2310
2322 1609.5
Md=53.35 fmax=44, Mo=52.5
56.25—
57.75— 59.25— 60.75—
57.0
58.5 60.0 61.5
11
15 2 4
627
877.5 120 246
1
f lg x ) ( f
i
• •
xi fi
—各组组中值; —各组次数;
二、离散趋势
• 资料的另一方面的特征是变异程度。如: A 组资料: 3 、 4 、 5 、 6 、 7 平均数为: 5 B 组资料: 1 、 3 、 5 、 7 、 9 平均数为: 5 这里的平均数 5 对于 A 组资料的代表性好?还 是对于 B 组资料的代 表性好? 可见,只表明了数据的集中程度是远远不够的, 还需要进一步说明数据的变异程度。只有通过变 异程度的描述,才知道代表值的代表性。表示数 据变异特征的数值叫变异数。常用的变异数有: 极差、平均离差、方 差、标准差、变异系数等。
中位数(median)
• 将资料中所有观察值从小到大依次排列, 处于中间位置的数。以Md表示。 • 适用条件 资料呈偏态分布或频数分布类 型不明,以及一端或两端无确定数值,这种 资料用中位数作为代表值比用算术平均数 为好。 • 非频数资料,先将各观察值由小到大排 列,当n为奇数时,第(n+1)/2位置的观察值 即为中位数,即: Md =x (n+1)/2

自由度 (degree of freedom) :统计学借 此来反映一批变量的约束条件。 • 例如一个有 5 个观察值的样本,因为受 到统计数的约束,在5个离均差中,只有4 个数值可以在一定范围内自由变动取值, 而第五个离均差必须满足这一限制条件。 • 自由度记作 DF , 一般样本自由度等于 观察值个数 ( n ) 减去约束条件的个数 ( k ) , 即 DF = n - k 。
fmax=24, Mo=22
Md=22
表3-2 某纯系蛋鸡200枚蛋重的频数分布表
组 别
44.25—
45.75— 47.25— 48.75— 50.25—
组中值m 频数(f)
45.0
46.5 48.0 49.5 51.0
fx
90
93 480 594 1326
2
2 10 12 26
x =10695/200
最好将平均数和标准差也列出。 (三)变异系数不受单位不同或平均数不同的影响,对 于单位不同和平均数不同的资料,都可以用变 异系数来比较其
合计
200
10695
几何平均数(Geometric mean)
• 定义 指n个观察值乘积的n次方根。即
G x1 x2 ....xn ( x1 x2 ....xn )
n
1
n
• 适用条件 • 主要应用于数据呈倍数关系或不对称分布的资 料,算术平均数对这类资料的代表性差。如抗体 效价(1:10,1:100,1:1000,1:10000)、 增长率或生长率、动态发展速度等。
相关文档
最新文档