研究生统计学 集中和离散趋势的描述
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
从频数分布可见 大多数观察值集 中在小值一端, 102名患者中有 79.41%的人的 发铜值在10μg/g 以下,呈正偏态 分布。
102名男性脑卒中患者发铜分布
发铜(μg/g) 2~ 4~ 6~ 8~ 10~ 12~ 14~ 16~ 18~ 20~ 22~ 24~ 26~ 合计
频数 3 9 38 31 6 5 2 1 2 1 1 2 1
所在组的频数
Px
L
i (n
x% fL) fm
(nx%fL) i; fm位数应用
• 确定医学参考值范围 (reference range): 如95%参考值范围=P97.5-P2.5; 表示有95%正常个体的测量值在此范围。
• 中位数M与四分位数间距一起使用,描述偏 态分布资料的特征。
Glg 1
flfg Xl
g 1
flg X n
X可为单个对数值或组中值
某医院神经科用火焰原子吸收光谱法测定了102名男性脑 卒中患者头发中微量元素铜(Cu)的含量(μg/g),资 料如下,求平均含量。
2.3 5.7 6.7 7.2 7.7 8.4 9.1 9.6 12.6 25.2 3.3 6.1 6.7 7.2 7.8 8.5 9.1 9.8 12.8 25.6 3.4 6.2 6.8 7.3 7.8 8.6 9.2 9.8 13.4 26.4 4.0 6.3 6.8 7.4 7.8 8.6 9.3 9.9 13.8 4.1 6.3 6.9 7.5 7.8 8.7 9.4 10.1 15.3 4.2 6.4 7.0 7.5 7.9 8.7 9.4 10.2 15.6 4.4 6.5 7.1 7.5 8.0 8.8 9.4 10.6 17.4 5.1 6.5 7.1 7.6 8.1 8.8 9.5 10.9 18.5 5.4 6.5 7.1 7.6 8.2 8.9 9.6 11.0 18.7 5.5 6.5 7.1 7.6 8.3 9.0 9.6 11.6 20.3 5.7 6.7 7.1 7.6 8.3 9.0 9.6 12.5 23.2
附:百分位数
• 百分位数(percentile):也是一个位置指标, 常用Px表示。它是表示将一组由小到大的 观察值均分为100等份后,每一个百分分割 值。
• 例如P5表示:5%的观察值比这个值小, 95%的观察值比这个值大。
百分位数计算公式
Px 所在组段下限值 组距(n x%至该下限值的累计频) 数
1.3500~1.4500 合计
组中值lgX 0.4000 0.5000 0.6000 0.7000 0.8000 0.9000 1.0000 1.1000 1.2000 1.3000 1.4000 —
频数f 1 2 4 3 18 36 22 6 3 3 4
102
flgX 0.4000 1.0000 2.4000 2.1000 14.4000 32.4000 22.0000 6.6000 3.6000 3.9000 5.6000 94.4000
第二节 集中趋势的描述
集中趋势的描述(Central tendency)
1、一组数据向其中心值靠拢的倾向和程度
2、描述集中趋势就是寻找数据一般水平的代表值 或中心值 3、不同类型的数据用不同的集中趋势指标
平均指标(平均数)
• 平均指标(平均数):是用于描述数 值变量资料平均水平或中间位置的一 类指标。根据它们的作用和特点不同 平均数可分为算术平均数、几何平均 数、中位数、众数等。
算术均数(计算公式)
设一组数据为:X1 ,X2 ,… ,XN 直接法公式为
XX1X2 Xn x
n
n
设分组后的数据为:X1 ,X2 ,… ,XK
相应的频数为:
f1 , f2, … ,fK
加权法的计算公式为
X X 1f1f 1 X f22 f2 fk X kfk
fx n
算术均数的数学性质
102
累计频率% 2.94 11.76 49.02 79.41 85.29 90.20 92.16 93.14 95.10 96.08 97.06 99.02 100.00 —
对这些发铜原始观察值进行对数变换整理成频数表后,发现其 对数值呈单峰对称分布,故采用几何均数描述其集中趋势。
发铜对数值 0.3500~ 0.4500~ 0.5500~ 0.6500~ 0.7500~ 0.8500~ 0.9500~ 1.0500~ 1.1500~ 1.2500~
左偏分布
对称分布
右偏分布
众数(mode)指出现次数(或频数)最多的观察 值;在频数分布图中对应于高峰所在位置的观察 值。适用于大样本;较粗糙。
集中趋势指标小结
均数
几何均数
中位数
适用资料
计算特点 极端值的
影响
单峰对称 分布
对数正态分布
各种分布、 偏态、两端
无确切值
用到全部 用到全部数据 排序后用到
数据
1、自由度是数学名词,指一组数据中可以自 由取值的数据的个数
2、在统计学中,n个数据如不受任何条件的 限制,则n个数据可取任意值,称为有n个 自由度。若受到k个条件的限制,就只有 (n-k)个自由度了。
3、当样本数据的个数为 n 时,若样本均值
x 确定后,只有n-1个数据可以自由取
值,其中必有一个数据则不能自由取值。
3、该公式假定中位数组的频数在该组内是 均匀分布的。
频数表资料的中位数
M 所在组段下限值 组距(n50%至该下限值的累计频) 数
所在组的频数 M LM i (n50%fL)
fm
i; fm
下限值
中位数M
LM (n5% 0fL)
上限值U
众数、中位数和均数的关系
均值 中位数 众数 均值 = 中位数 = 众数 众数 中位数 均值
2 (X)2
N
(X)2 N
样本方差和标准差(计算公式)
方差的计算公式 注意:
未分组数据:
样本方差用自 由度n-1去除!
S2 (xx)2 n1
组距分组数据:
S2
fx2
(
fx)2
n
n1
标准差的计算公式
未分组数据:
S (xx)2 n1
组距分组数据:
S
fx2
(fx)2
n
n1
自由度(degree of freedom)
(三)方差和标准差(概念要点)
X = 8.3
1、描述离散程度最常用的指标
2、反映了数据的分布
4 6 8 10 12
3、反映了各变量值与均数的平均差异
4、根据总体数据计算的,称为总体方差或 标准差;根据样本数据计算的,称为样 本方差或标准差
总体方差和标准差(计算公式)
方差的计算公式
标准差的计算公式
n1
(四)变异系数
1、标准差与其相应的均值之比 2、消除了数据水平高低和计量单位的影响 3、描述数据的相对离散程度 4、适用范围:
①观察指标单位不同,如身高、体重 ②同单位资料,但均数相差悬殊
CV S 100% X
离散趋势指标小结
1、极差较粗,适合于任何分布; 2、标准差与均数的单位相同,最常用,适合于
4、例如,样本有3个数值,即x1=2,x2=4,
x3=9,则 x =5。当 x =5 确定后,x1,x2
和x3有两个数据可以自由取值,另一个则 不能自由取值,比如x1=6,x2=7,那么x3
则必然取2,而不能取其他值。
几何标准差
sGlg1(
lgx2
(
lgx)2
n)
n1
sGlg1(
flgx2( flgx)2 n)
R = max(Xi) - min(Xi)
(二)四分位数(概念要点)
• 排序后处于25%和75%位置上的值
25% 25% 25% 25%
QL
QM
QU
四分位数间距特点
1. 描述离散程度的指标之一 2. 也称为内距或四分位差 3. 是上四分位数与下四分位数之差
四分位数间距= QU - QL 4. 反映了中间50%数据的离散程度 5. 不受极端值的影响 6. 用于衡量中位数的代表性
1、各变量值与均数的离差之和等于零
n
(Xi X) 0
i1
2、各变量值与均数的离差平方和最小
n
n
(xi x)2 (xi a)2
i1
i1
二、几何均数(概念要点)
1、描述集中趋势的指标之一 2、N 个变量值乘积的 N 次方根 3、适用于特殊的数据(等比资料或对数分布
资料)
4、可看作是均值的一种变形
的对数值 中间的数据
敏感
敏感、出现负 值无法计算
不敏感
第三节 离散趋势的描述
离散趋势指标
• 反映数据的离散度(Dispersion)。即 个体观察值的变异程度。常用的指标 有: 1、极差与四分位数间距 2、方差 与标准差 3、变异系数
(一)极差(概念要点及计算公式)
1、 一组数据的最大值与最小值之差 2、离散程度的最简单指标 3、易受极端值影响 4、未考虑数据的分布 5、计算公式为:
近似正态分布; 3、变异系数主要用于单位不同或均数相差悬殊
资料; 4、平均指标和变异指标分别反映资料的不同特
征, 常配套使用: 如 正态分布:均数、标准差;
偏态分布:中位数、四分位数间距
• 各变量值与中位数的离差绝对值之和最小,
即
n
Xi M mi n
i1
未分组数据的中位数 (直接法)
M
X
n1 2
12
Xn
2
Xn21
当n为 奇 数 时 当n为 偶 数 时
未分组数据的中位数 (7个数据的算例)
原始数据: 87 90 91 92 95 96 108 位 置: 1 2 3 4 5 6 7
位 置 n1714 22
M 92
未分组数据的中位数 (8个数据的算例)
原始数据 87 90 91 92 95 96 108 171 位 置12 3456 7 8
M929593.5 2
分组数据的中位数 (频数表法)
1、确定中位数所在的组 2、采用下列近似公式计算:
M LMfiM(n5% 0 fL)
1、算术均数(arithmetic mean),简称 均数 (mean)
2、几何均数(geometric mean) 3、中位数 (median) 4、众数(mode)
一、算术均数(概念要点)
1、描述集中趋势的指标之一 2、适用于对称分布特别是正态分布的资料 3、一组数据的均衡点所在 4、易受极端值的影响
几何均数(geometric mean)
Gn X1X2Xn
l
gG
1 (
n
l
gX1
l
gX2
l
gXn)
l gX n
Gl g1 l gX
n
几何均数:变量 对数值的算术均 数的反对数。
l g表 示 以10为 底 的 对 数 ;
l g1表 示 以10为 底 的 反 对 数
X 0,为正值
频数表资料的几何均数计算公式
按公式2.4计算几何均数:
Glg1( lg2.3lg3.3lg26.4) 102
lg1( 94.232)68.39(μ/g) 102
三、中位数
1、是将一批数据从小至大排列后位次居中的 数值,符号为 M,反映一批观察值在位次 上的平均水平。
50%
50%
M
中位数的特点
• 不受极端值的影响
• 可用于各种分布的资料。尤其适合于①大 样本偏态分布的资料; ②资料有不确定数 值;③资料分布不明等。