计量资料的统计描述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
平均数应用的注意事项
计算几何均数时: – 变量值中不能有0
– 同一组变量值不能同时存在正、负值
– 若变量值全为负值,可先将负号除去,算出结果后 再冠以负号
样本含量较少时不宜计算靠近两端的百分位数
平均数要与变异指标结合使用
27
第三节 描述离散趋势的指标
看一个例子: 有甲、乙两组同性别同年龄儿童体重(kg):
频 数 (2) 1 2 10 22 37 26 15 4 2 1 120
累计频数 (3) 1 3 13 35 72 98 113 117 119 120
累计频率 (4) 0.83 2.50 10.83 29.17 60.00 81.67 94.17 97.50 99.17 100.00
21
附注:百分位数(percentile)
便于进一步的统计分析
10
计量资料频数分布的类型和特征
正态分布:各组段的频数以中间组段为中心,左右两侧基本对称 分布类型 偏态分布:各组段的频数不以中间组段为中心,而是一侧偏多或偏少
集中趋势:指频数表中频数分布表现为频数向某一位置集中的趋势 分布特征 离散趋势:指频数虽然向某一位置集中,但频数分布表现为各组段都 有频数分布,而不是所有频数分布在集中位置的趋势。
统计描述 计量资料 统计推断 统计描述
计数资料
统计推断
统计描述
等级资料 统计推断
1
第二章
计量资料的统计描述
统计描述(statistical description)
是指采用统计图、统计表、统计指标等形式来对资料 的数量特征和分布规律作出测定和描述的一种方法。
统计描述是统计分析的最基本内容 统计描述的三种形式:
10例正常人的发汞值:
1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 16.3
19
频数表法:适用于样本量较大的计量资料,如频数表
资料。
其中 LM:M所在组下限
i:M所在组组距 fM:M所在组频数
n:样本例数
ΣfL:M所在组段之前的累计频数
20
组 段 (1) 124~ 128~ 132~ 136~ 140~ 144~ 148~ 152~ 156~ 160~ 合 计
第一组段包括极小值,最后 一组段包括极大值,除最后 一组段可同时标出上下限, 一般 8- 15 之间 求出极差 确定组段数 确定组距 其他组段只标出下限。
列出各个组段
确定每 一组段 频数 选 根据变量值大小 把各观察单位归 入各个组段
极差即最大值 与最小值之差
组距=R/组段数, 但一般取一方便 计算的数字
第二节
描述集中趋势的指标
集中趋势常用平均数(average)来描述。
是一组数据典型或有代表性的值。
趋向于落在根据数据大小排列的数据的中心,因此可以用 于度量集中位置(位置指标) 算术均数 几何均数
中位数
12
第二节
简称均数
描述集中趋势的指标
算数均数(mean) 适用条件:对称分布,尤其是正态分布或近似正态分布 表示:总体均数用μ 表示;样本均数用 意义:描述一组同质资料的平均水平。 计算方法: 直接法 表示
测量结果的均 值都是 a
a
甲仪器测量结果
a
乙仪器测量结果
较好
若让你就上述结果评价一下两台仪器的优劣,你认为哪 台仪器好一些呢?
因为乙仪器的测量结果集中在均值附近
30
描述离散趋势的统计指标
极差 四分位间距 方差 标准差 变异系数
31
1、极差 range
异的大小。
37
实用计算公式:
2 ( X ) 2 X n S n 1
频数表资料:
2 ( fX ) 2 fX f
S
f 1
100 名受试者平均抗体滴度计算表
中位数(median)
概念:中位数是将一组观察值按大小顺序排列后, 位次居中的观察值。 适用条件: 明显的偏态资料
分布类型不明的资料
一端或两端无界的资料 表示:M 计算方法
18
直接法:适用于样本量较小的计量资料。
9例正常人的发汞值(mol/kg ): 1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5
注明:1)尽量取较整齐的数值最为组段的端点。
2)组距以相等为宜。
6
2.30~ 2.60
4.确定组段的上下限
原则:
(1)第一组包含最小的观察值,最后一组包含最大的
观察值。 (2)组和组之间不能互相包含。 (3)x表示数据,则 下限 x 上限
5.归组计数,做频数分布表。
7
编制频数表步骤流程图
16
例 100 名受试者接种某疫苗三周后,抗体测定结果如下表第(1)栏 和第(2)栏,求平均抗体滴度。
抗体滴 度 (1) 1:4 1:8 1:16 1:32 1:64 1:128 1:256 1:512 合计
表
频数 f (2) 6 10 16 34 20 8 5 1 100
滴度倒 数X (3) 4 8 16 32 64 128 256 512 ---
161.5 162.6 158.3 165.1 170.5 166.8 165.8 164.5 167.5 162.8
3
组段 (1)
154~
频数(2)
2
频率(%)(3)
2.00
累计频数(4)
2
累计频率(%)(5)
2.00
156~
158~ 160~ 162~ 164~ 166~ 168~ 170~ 172~ 合计
符号:R 计算:R=最大值-最小值
R反映的是观察值变异的范围大小。
适用条件:任何资料
缺点:易受特大、特小值影响,不稳定;除最 大、最小值,不能反映其他数据的变异度;样 本量越大极差就会越大。
优点:简单明了
32
2、四分位数间距
quantile range
符号: Q(中间一半观察值的极差)
计算 :Q=P75-P25
i i i 1 k 1 1 2 2 2 k k i 1 k i 1
k
几何均数( geometric mean )
适用条件: 等比或等积资料 对数正态分布资料 表示:G
计算方法:
直接法 加权法
15
几何均数(geometric mean)
计算方法 1.直接法:适用于样本量较小的计量资料。
2.间接法:加权法,适用于样本量较大的计量资料,如频数 表资料。
符号:
性质:一种位置指标。
意义:一个百分位数 将全部变量值分为两部分,使得全
部变量值中有 X %的变量值比它小,1- X % 变量值比它大。
22
(100 X )%
PX
百分位数示意图
23
iX PX LX ( nX % f L ) fX
Lx Px所在组段的下限
ix Px所在组段的组距
2 ( x )
N
S
2 ( x x )
n 1
意义:标准差越大,观察值的变异就越大,
数据越分散,均数的代表性越差;反之,
资料越集中,均数的代表性越好。
适用条件:对称分布、正态分布资料
36
标准差的基本内容是 “离均差”,它显示
一组变量值与其均数的间距,故标准差
直接地、总结地、平均地描述了数据变
lgX (4) 0.6021 0.9031 1.2041 1.5051 1.8062 2.1072 2.4082 2.7093 ---
f·lgX (5)=(2)·(4) 3.6126 9.0310 19.2656 51.1734 36.1240 16.8576 12.0410 2.7093 150.8145
4
10 16 20 19 15 9 4 1 100
4.00
10.00 16.00 20.00 19.00 15.00 9.00 4.00 1.00 100.00
6
16 32 52 71 86 95 99 100
6.00
16.00 32.00 52.00 71.00 86.00 95.00 99.00 100.00
统计表
统计图 统计指标
2
举例说明计量资料频数表的编制过程
例2-2、某市2005年100名18岁女孩身高(cm)资料如下:
165.1 169.6 163.0 166.5 160.9 156.6 169.3 165.9 162.0 165.3 165.1 164.0 159.9 171.2 169.1 168.0 160.6 157.1 162.5 165.8 161.5 166.3 168.5 167.1 161.0 159.0 167.3 157.2 163.7 163.1 166.1 167.5 166.0 158.5 161.2 167.5 158.2 154.7 155.6 168.2 162.8 163.6 164.2 161.8 160.7 173.6 159.8 158.0 159.4 158.2 166.2 166.1 156.8 166.6 161.5 162.0 160.6 164.3 161.9 167.2 170.2 160.4 163.0 163.5 162.9 167.4 162.2 162.7 169.7 159.9 165.2 169.0 162.3 164.6 163.4 170.6 162.8 163.1 164.0 161.2 161.0 161.3 165.0 160.4 168.9 165.0 164.2 165.2 162.6 164.5
甲组
乙组 丙组
26,28,30,32,34
24,27,30,33,36 26,29,30,31,34
=30 kg X甲
n甲=5
X 乙=30 kg n乙=5
X 丙=30 kg n乙=5
28
29
例如,某零件的真实长度为a,现用甲、乙两台仪器 各测量10次,将测量结果X用坐标上的点表示如图:
下四分位数: QL P 25
上四分位数: QU P 75
Q越大说明数据间的变异越大。
适用条件:可用于任何资料,主要用于偏态资料
特点:比极差要稳定
33
3. 方差
variance
考虑了每个观察值的离散程度
符号: σ2 ——总体方差
S2
计算 :
——样本方差
2
(x )
2
N
S2
2 ( x x )
4
编制步骤如下:
1. 求极差(R)
也称为全距,是资料中最大值和最小值之差。 本例: R=173.6-154.7=18.9(cm)
。
2.确定组数
原则:即简化资料又不影响反映资料的规律性, 一般8-15组。 本例:选择10组
5
3.确定组距
组距为每组的上限与下限之差。
实际中 组距=R/(预计的组数)
本例:组距=18.9/10=1.89 调整为2
计量资料频数分布图
100名18岁女孩身高的频数分布图 25 20
频数
15 10 5 0 155 157 159 161 163 165 167 169 171 身高(cm) 173
9Байду номын сангаас
频数分布表的用途:
揭示数值变量频数分布的类型和特征
分布的类型
分布特征
作为大样本数据的陈述形式
便于发现一些特大或特小的可疑值
n 1
方差越大,观察值的变异就越大。 适用条件:对称分布、正态分布 特点:它反映的是所有观察值的变异情况
34
几个符号
• 离均差 • 离均差平方和SS • 自由度: • 方差S2= SS/
35
4.标准差 standard deviation
符号: σ —总体标准差
S —样本标准差
计算:
25
平均数应用的注意事项
同质的资料计算平均数才有意义 根据资料分布的特征选用适当的平均数
– 均数:单峰对称分布的资料
– 几何均数:等比资料、滴度资料、正偏态资料
– 中位数:理论上可用于任何分布资料,但当资料适合
计算均数或几何均数时,不宜用中位数。 (偏态分布、分布不明资料、有 不确定值的资料)
26
间接法(频数表法)
13
1、算术均数( arithmetic mean)
(1) 直接法
n
x x X
i1 i
1
n
x2 xn n
(2)
加权法
又称频数表法,适用于频数表资料。 当观察例数较时用。
f x f x f x f x X f f f f
fx Px所在组段的频数
f
L
该组段之前的累计频数
n 总例数
24
百分位数例
利用上表,求P50,P25,P75
P50 140 4 120 50% 35 142 .94(cm ) 37
4 P25 136 120 25% 13 139 .09(cm ) 22 P75 144 4 120 70% 72 146 .78(cm ) 26