第二章 数据资料的特征值
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 2 2 ( x a ) ( x x ) n
2 2 2 2 ( x x ) ( x a ) n n 0
( x x ) ( x a )
2
2
1.4 加权平均数
对于样本容量≥30且已分组的资料,可以在次数分布表的基础上采用加权 法计算平均数
2. 几何平均数
几何平均数(geometric mean): n个观测值相乘之积的n次方根
G x x x x ( x x x x ) 1 2 3 n 1 2 3 n
n
1 n
11 G lg [ (lg x lg x lg x )] 1 2 n n
■ 适用于利率、畜禽数的增长率、药物的效价、抗体的滴度等非线性数据 例1 为研究人群中流感的抗体水平,测得12名儿童的血清对流感病毒的血凝 抑制抗体效价的倒数为:5,5,5,5,5,5,5,10,10,10,20,40, 试计算平均血凝抑制抗体效价。
( x x x ) n x 1 2 n
x x n n
x x
0
样本各观测值与平均数之差的平方和为最小,即离均差平方和最小
2 2 ( x x ) ( x a ) i i
2 2 ( x x ) ( x a )
第一节 集中性特征值
平均数(mean)是统计学中最常用的统计量,用来表明数据中各观测值相 对集中较多的中心位置,反映了一组观察值的平均水平,是一组数据资料的 代表值
平均数的作用:
◇ 可以用来说明一组数据资料的平均水平或集中趋势,具有典型性 ◇ 可以用来进行组间比较,以判断一组数据资料与另一组数据资料的差别, 具有代表性
数据越是分散(离散),则平均数的代表性就越弱
仅用平均数对一个数据资料的特征进行统计描述是不完善的,还必须要有另外 一个统计量来衡量数据变异程度的大小、说明平均数的代表性 用来衡量数据变异程度的统计量有很多,常用的有:极差、方差、标准差和变 异系数
1. 极差
极差(range):数据资料中最大观测值与最小观测值之间的差
f x f x + f x 1 1 2 2 k k x f f + f 1 2 k
k
i1 k
fixi fi
fx f
i1
xi — 第i组的组中值 fi — 第i组的次数
k — 组数
采用加权法计算得到的平均数就称为加权平均数(weighted mean) 加权平均数不具备算术平均数的两个性质
1. 算术平均数
1.1 基本概念
算术平均数(arithmetic mean):数据资料中各观测值的总和除以观测值 的个数所得的商,简称平均数或均数。记为 x ■ 算术平均数适合描述对称分布资料的集中趋势
1.2 计算公式
设有一随机变量x, 观测值为 :x1,x2,…,xn,则:
n x x x 1 n x 1 2 x i n n i 1
证 明
则有:
2 (x a)2 ( x x )
( x x ) ( x a )
2
2
( x x )
2
2 2 ( x x ) 0 ( x x ) 2 ( x x ) n
2 2 ( x x ) n
1 H 1 1 1 1 x2 ) n (x x 1 n
1 n
1
1 x
■ 调和平均数主要适用于速度类的资料,或有个别极端大观测值的数据资料
4. 中位数
中位数(median):将资料中所有观测值按从小到大依次排列,位于中间 位置的那个观测值,简称为中数
当观测值的个数是偶数时,以中间两个观测值的平均数作为中位数 ■ 数据资料呈偏态分布或分布情况不清楚时,中位数的代表性优于算术平 均数
xx
有多少个观测值就可以得到多少个离均差,还是不能说明整个数据资料的 变异程度
对于总体来说,则有:
N x x x 1 N 1 2 x i N N i 1
1.3 重要性质
样本各观测值与平均数之差的和为0,即离均差之和为0
(x x) 0
i1 i
n
( x x ) 0
证 明
(xx ) ( x x ) ( x x ) ( x x ) 1 2 n
■ 极差主要用来说明传染病和食物中毒的最短、最长潜伏期
优点:极差是衡量数据资料变异程度大小的最简便的统计量
缺点:
(1)没有充分利用数据中全部观测值的信息
(2)不能准确反映数据中各观测值的分布状况
(3)样本之间难以进行比较
(4)极差的抽样误差较大,不稳定
2. 方差
极差:仅用全部观测值中较为特殊的两个点值,比较粗糙 充分利用数据资料中的每一个观测值,将每一观测值都和某一个特定的值 相比,最理想的特定值就是平均数 可以求出每一个观测值与平均数的差值,即离均差
5. 众数
众数(mode):在数据资料中出现次数最多的一个观测值或次数最多一 组的组中值
有的资料可出现多个众数,有的资料则没有众数
第二节 离散性特征值
平均数主要是用来说明数据的集中趋势和集中程度的,是一组数据的代表值 平均数的代表性如何,还要看数据的变异情况:
数据越是集中,
则平均数的代表性就越强
第二章 数据资料的特征值
集中性特征值
离散性特征值
生物学数据资料(观测值)的分布具有两个重要的特征:
集中性
观测值向中心位置聚集的趋势
反映数据资料集中性的特征值是平均数
算术平均数 中位数 几何平均数 众数 调和平均数
离散性
观测值偏离中心位置的分散情况
反映数据资料离散性的特征值是极差、方差、标准差和变异系数等
nx x x x 解: G 1 2 3 n
12 5 5 40
7 .94
答:平均血凝抑制抗体效价约为1∶8
5 5 40 x 12 10 .42
平均血凝抑制抗体效价约为1∶10
3. 调和平均数
调和平均数(harmonic mean):资料中各观测值倒数的算术平均数的倒数