数值变量资料统计描述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
18 2019/10/26
一、算术均数
算术均数:简称均数(mean) 定义:是一组变量值之和除以变量值个数
所得的商。均数适用于资料呈正态分布
(或近似正态或对称分布)资料。
总体均数:μ 样本均数: x
19 2019/10/26
1、计算方法
(1)直接计算法
公式 : X X1 X 2 X n X
4.87 4.48 4.44 4.66 4.60 4.38 4.65 4.79 5.16 4.61 4.68 3.85
4.74 4.80 4.46 4.70 4.25 4.4 4.57 4.96 3.74 4.21 4.56 3.86
5.24 4.6 4.62 4.20 4.78 4.79 4.27 4.83 4.36 4.96 5.38 4.56
1.描述频数分布的类型(对称分布、偏态分布) 2.描述频数分布的特征(集中趋势 离散趋势) 3.便于发现一些特大或特小的可疑值 4.便于进一步做统计分析和处理(加权)
11 2019/10/26
1.描述频数分布的类型(对称分布、偏态分布) (1)对称分布 :
若各组段的频数以中心位置左右两侧大体对称, 就认为该资料是对称分布
计算几何均数的 观察值应大于零
lg
Xn
)
lg
n
X
几何均数:
变量对数值的 算术均数的反对数。
25 2019/10/26
例8.3 有7份血清的抗体效价分 别为1:2, 1:4, 1:8, 1:16, 1:32, 1:64,1:128,求平均抗体效价。
26 2019/10/26
(2)加权法(当观察例数多时采用)
例8.1 某地区2002年55~58岁健康成人的空腹血糖(mmol/L)测 定值如下,试编制频数表和观察频数分布情况。
5.17 5.30 4.64 4.85 4.61 4.78 4.35 4.41 5.05 4.56 4.45 4.83
5.56 5.22 4.27 5.07 4.98 4.26 4.18 4.38 5.59 4.39 4.49 4.27
29 2019/10/26
计算几何均数应该注意的事项
变量值中不能有0或负数,因为0和负数不 能取对数。
不能同时有正有负。若全部是负值,计算 时可先把负号去掉,得出结果后,再加上 负号。
5.51 4.02 4.87 3.95 5.00 4.76 4.99 4.45 5.36 4.34 4.34 4.56
4.46 5.16 4.34 4.09 3.60 4.92 4.21 4.51 4.64 4.45 4.46 4.55
4.96 5.36 4.90 4.64 4.11 4.60 4.89 4.27 5.09 4.86 4.16 5.16
4.96 5.36 4.90 4.64 4.11 4.60 4.89 4.27 5.09 4.86 4.16 5.16
4.82 4.34 5.25 4.33 4.61 4.78 4.71 4.50 4.57 4.50 4.98 5.15
4.90 4.24 4.77 5.21 4.08 5.03 4.72 4.31 4.46 4.90 4.29 5.16
数分布基本对称。
2019/10/26
返16 回
3.便于发现一些特大或特小的可疑值
2019/10/26
返回17
第二节 集中趋势指标
统计上使用平均数(average)这一指标体系来描 述一组变量值的集中趋势或平均水平。
常用的平均数有: 算术均数(均数)(mean) 几何均数(geometric mean) 中位数 (median) 百分位数(percentile)
第八章 数值变量资料的统计描述
1 2019/10/26
回顾:
根据是否定量划分,资料被分作不同的类型: 数值资料(measurement data):
用定量的方法对观察单位进行测量得到的资料, 亦称作计量资料。 分类变量资料(enumeration data):
用定性的方法得到的资料,亦称计数资料。 等级资料(ranked data):
x=(5.17+5.56+……+5.15+5.16)/132=4.648(mol/L) 21 2019/10/26
(2)加权法(利用频数表)
公式 : X f1X1 f2 X 2 f3 X3 fk X k fX
f1 f2 f3 fk
f
其中
本组段下限值+下组段下限值
f(lgx)
1:5
7
5 0.699 4.89279
1:10 11 10
1
11
1:20 22 20 1.301 28.62266
1:40 12 40 1.6021 19.22472
1:80 8
80 1.9031 15.22472
合计 60
78.96489
G lg 1 78.96489 20.705 60
不能精确测量,仅能根据相对大小分为几个等级。
2 2019/10/26
第一节 数值变量资料频数分布
数值变量资料进行统计描述需要根据资料的分 布类型选择合适的统计指标,因此首先要通过频 数分布表或分布图了解资料的分布特征。
一、频数分布表及其制作
3 2019/10/26
例8.1 某地区2002年55~58岁健康成人的空腹血糖(mmol/L) 测定值如下,试编制频数表和观察频数分布情况。
4.82 4.34 5.25 4.33 4.61 4.78 4.71 4.50 4.57 4.50 4.98 5.15
4.90 4.24 4.77 5.21 4.08 5.03 4.72 4.31 4.46 4.90 4.29 5.16
4
编制频数分布表的步骤
编制频数分 布表的步骤
计
确
算
定
极
组
差
数
组
对称分布
正偏态分布
负偏态分布
Fra Baidu bibliotek
15 2019/10/26
2.描述频数分布的特征
图8-1(P154)数据的频数分布特征: ①数据变异(离散)的范围在
3.60~5.60(mol/L )
②数据集中(平均)的组段在
4.20~5.00(mol/L )之间,尤以组段的人数
4.60~4.80 (mol/L )最多。且上下组段的频
2019/10/26
距
计
编
算
制
频
表
数
格
5
频数表的编制步骤:
(1)求极差(range):即最大值与最小值之差,又称 为全距。
R=5.59–3.60 =1.99(mol/L)
(2) 决定组数、组段和组距:根据研究目的和样本含量
n确定分组组数。相邻两组段下限值之差称组距,组距=极
差/组数,为方便计,组距为极差的十分之一, 再略加调 整。
8 2019/10/26
二、频数分布图
人 数
血糖(mol/L)
图8-1某地区2002年55~58岁健康成人的空腹血糖(mmol/L) 测定值的频数分布图
9 2019/10/26
同一组资料,不同的人编制的 频数表,结果不尽相同,允许几个 合理的结果并存。
10 2019/10/26
三、频数表和频数分布图用途
41.07
3.80~
3 3.90
11.70
45.63
4.00~
8 4.10
32.80
134.48
4.20~
23 4.30
98.90
425.27
4.40~
24 4.50
108.00
486.00
4.60~
25 4.70
117.50
552.25
4.80~
20 4.90
98.00
480.20
5.00~
12 5.10
7 2019/10/26
表8-1
某地区2002年55~58岁健康成人的空腹血糖 (mmol/L)测定值的频数分布表
血糖(mol/L)组段 组中值(xi)
3.60~ 3.80~ 4.00~ 4.20~ 4.40~ 4.60~ 4.80~ 5.00~ 5.20~ 5.40~5.60
合计
3.70 3.90 4.10 4.30 4.50 4.70 4.90 5.10 5.30 5.50
n
n
例8.2有9名健康成人的空腹胆固醇测定值(mol/L) 为:5.61,3.96,3.67,4.99,4.24,5.06,5.20, 4.79,5.93求算术平均数。
x=(5.61+3.96+3.67+4.99+4.24+5.06+5.20+4.79)/9
=4.83(mol/L)
20 2019/10/26
X
2
k:频数表的组段数
f :频数
xi :组中值,其中i=1,2,……k。 22 2019/10/26
表8-1 某地区2002年55~58岁健康成人的空腹血糖 (mmol/L)测定值的频数分布表
x 血糖(mol/L)组段 频数( fi ) 组中值( i)
3.60~
3 3.70
fi xi
11.10
f i xi2
5.24 4.6
4.62 4.2
4.78 4.79 4.27 4.83 4.36 4.96 5.38 4.56
5.51 4.02 4.87 3.95 5.00 4.76 4.99 4.45 5.36 4.34 4.34 4.56
4.46 5.16 4.34 4.09 3.60 4.92 4.21 4.51 4.64 4.45 4.46 4.55
4.86 5.58 4.25 4.16 5.24 4.44 4.68 4.06 5.08 5.24 4.42 3.68
4.87 4.48 4.44 4.66 4.60 4.38 4.65 4.79 5.16 4.61 4.68 3.85
4.74 4.80 4.46 4.70 4.25
4.4 4.57 4.96 3.74 4.21 4.56 3.86
公式:
27 2019/10/26
例8.4 有60人的血清抗体效价,分别为:7 人1:5,11人1:10,22人1:20,12人1:40,8 人1:80,求平均抗体效价。
50人的血清平均抗体效价为1:20.705。
28 2019/10/26
例8.4 有60人的血清抗体效价,求其平均抗体效价
抗体效价 频数(f) 效价倒数 lgX
1.99 / 10 = 0.199 ≈0.2 (mol/L)
(3) 列出组段:第一组段的下限必须包含最小值,最 后一个组段上限必须大于或等于最大值。
3.6~ 3.8 ~ …… 5.2 ~ 5.4 ~ 5.6
(4) 划记计数:用划记法将所有数据归纳到各组段, 得到各组段的频数。
6 2019/10/26
61.20
312.12
5.20~
10 5.30
53.00
280.90
5.40~5.60
4 5.50
22.00
121.00
合计
132
614.20
2878.92
x=614.2/132=4.653(mol/L) 23 2019/10/26
二、 几何均数(geometric mean)
定义:用G表示,是将n个观察值x的乘积再开n次方 的方根(或各观察值x对数值均值的反对数)。
12 2019/10/26
(2)偏态分布 :
1)右偏态分布(正偏态分布):右侧的组段 数多于左侧的组段数,频数向右侧拖尾。
2)左偏态分布(负偏态分布):左侧的组段 数多于右侧的组段数,频数向左侧拖尾。
13 2019/10/26
正偏态(右偏态)
2019/10/26
负偏态(左偏态)
返回14
频数分布的类型
5.17 5.56 5.30 5.22 4.64 4.27 4.85 5.07 4.61 4.98 4.78 4.26 4.35 4.18 4.41 4.38 5.05 5.59 4.56 4.39 4.45 4.49 4.83 4.27
2019/10/26
4.86 5.58 4.25 4.16 5.24 4.44 4.68 4.06 5.08 5.24 4.42 3.68
其适用条件是: ①当一组观察值为非对称分布且其差距较大时,用 均数表示其平均水平会受少数特大或特小值影响;
②数值按大小顺序排列后,各观察值呈倍数关系或近 似倍数关系。
24 2019/10/26
几何均数计算公式:
G n X1X2 Xn
lg
G
1 n
(lg
X1
lg
X2
G lg1 lg X n
频数(f)
3 3 8 23 24 25 20 12 10 4 132
累计频数(Σ f)
3 6 14 37 61 86 106 118 128 132
频率(%)
2.27 2.27 6.06 17.42 18.18 18.94 15.15 9.09 7.58 3.03 100.00
累计频率 (%)
2.27 4.55 10.61 28.03 46.21 65.15 80.30 89.39 96.97 100.00
一、算术均数
算术均数:简称均数(mean) 定义:是一组变量值之和除以变量值个数
所得的商。均数适用于资料呈正态分布
(或近似正态或对称分布)资料。
总体均数:μ 样本均数: x
19 2019/10/26
1、计算方法
(1)直接计算法
公式 : X X1 X 2 X n X
4.87 4.48 4.44 4.66 4.60 4.38 4.65 4.79 5.16 4.61 4.68 3.85
4.74 4.80 4.46 4.70 4.25 4.4 4.57 4.96 3.74 4.21 4.56 3.86
5.24 4.6 4.62 4.20 4.78 4.79 4.27 4.83 4.36 4.96 5.38 4.56
1.描述频数分布的类型(对称分布、偏态分布) 2.描述频数分布的特征(集中趋势 离散趋势) 3.便于发现一些特大或特小的可疑值 4.便于进一步做统计分析和处理(加权)
11 2019/10/26
1.描述频数分布的类型(对称分布、偏态分布) (1)对称分布 :
若各组段的频数以中心位置左右两侧大体对称, 就认为该资料是对称分布
计算几何均数的 观察值应大于零
lg
Xn
)
lg
n
X
几何均数:
变量对数值的 算术均数的反对数。
25 2019/10/26
例8.3 有7份血清的抗体效价分 别为1:2, 1:4, 1:8, 1:16, 1:32, 1:64,1:128,求平均抗体效价。
26 2019/10/26
(2)加权法(当观察例数多时采用)
例8.1 某地区2002年55~58岁健康成人的空腹血糖(mmol/L)测 定值如下,试编制频数表和观察频数分布情况。
5.17 5.30 4.64 4.85 4.61 4.78 4.35 4.41 5.05 4.56 4.45 4.83
5.56 5.22 4.27 5.07 4.98 4.26 4.18 4.38 5.59 4.39 4.49 4.27
29 2019/10/26
计算几何均数应该注意的事项
变量值中不能有0或负数,因为0和负数不 能取对数。
不能同时有正有负。若全部是负值,计算 时可先把负号去掉,得出结果后,再加上 负号。
5.51 4.02 4.87 3.95 5.00 4.76 4.99 4.45 5.36 4.34 4.34 4.56
4.46 5.16 4.34 4.09 3.60 4.92 4.21 4.51 4.64 4.45 4.46 4.55
4.96 5.36 4.90 4.64 4.11 4.60 4.89 4.27 5.09 4.86 4.16 5.16
4.96 5.36 4.90 4.64 4.11 4.60 4.89 4.27 5.09 4.86 4.16 5.16
4.82 4.34 5.25 4.33 4.61 4.78 4.71 4.50 4.57 4.50 4.98 5.15
4.90 4.24 4.77 5.21 4.08 5.03 4.72 4.31 4.46 4.90 4.29 5.16
数分布基本对称。
2019/10/26
返16 回
3.便于发现一些特大或特小的可疑值
2019/10/26
返回17
第二节 集中趋势指标
统计上使用平均数(average)这一指标体系来描 述一组变量值的集中趋势或平均水平。
常用的平均数有: 算术均数(均数)(mean) 几何均数(geometric mean) 中位数 (median) 百分位数(percentile)
第八章 数值变量资料的统计描述
1 2019/10/26
回顾:
根据是否定量划分,资料被分作不同的类型: 数值资料(measurement data):
用定量的方法对观察单位进行测量得到的资料, 亦称作计量资料。 分类变量资料(enumeration data):
用定性的方法得到的资料,亦称计数资料。 等级资料(ranked data):
x=(5.17+5.56+……+5.15+5.16)/132=4.648(mol/L) 21 2019/10/26
(2)加权法(利用频数表)
公式 : X f1X1 f2 X 2 f3 X3 fk X k fX
f1 f2 f3 fk
f
其中
本组段下限值+下组段下限值
f(lgx)
1:5
7
5 0.699 4.89279
1:10 11 10
1
11
1:20 22 20 1.301 28.62266
1:40 12 40 1.6021 19.22472
1:80 8
80 1.9031 15.22472
合计 60
78.96489
G lg 1 78.96489 20.705 60
不能精确测量,仅能根据相对大小分为几个等级。
2 2019/10/26
第一节 数值变量资料频数分布
数值变量资料进行统计描述需要根据资料的分 布类型选择合适的统计指标,因此首先要通过频 数分布表或分布图了解资料的分布特征。
一、频数分布表及其制作
3 2019/10/26
例8.1 某地区2002年55~58岁健康成人的空腹血糖(mmol/L) 测定值如下,试编制频数表和观察频数分布情况。
4.82 4.34 5.25 4.33 4.61 4.78 4.71 4.50 4.57 4.50 4.98 5.15
4.90 4.24 4.77 5.21 4.08 5.03 4.72 4.31 4.46 4.90 4.29 5.16
4
编制频数分布表的步骤
编制频数分 布表的步骤
计
确
算
定
极
组
差
数
组
对称分布
正偏态分布
负偏态分布
Fra Baidu bibliotek
15 2019/10/26
2.描述频数分布的特征
图8-1(P154)数据的频数分布特征: ①数据变异(离散)的范围在
3.60~5.60(mol/L )
②数据集中(平均)的组段在
4.20~5.00(mol/L )之间,尤以组段的人数
4.60~4.80 (mol/L )最多。且上下组段的频
2019/10/26
距
计
编
算
制
频
表
数
格
5
频数表的编制步骤:
(1)求极差(range):即最大值与最小值之差,又称 为全距。
R=5.59–3.60 =1.99(mol/L)
(2) 决定组数、组段和组距:根据研究目的和样本含量
n确定分组组数。相邻两组段下限值之差称组距,组距=极
差/组数,为方便计,组距为极差的十分之一, 再略加调 整。
8 2019/10/26
二、频数分布图
人 数
血糖(mol/L)
图8-1某地区2002年55~58岁健康成人的空腹血糖(mmol/L) 测定值的频数分布图
9 2019/10/26
同一组资料,不同的人编制的 频数表,结果不尽相同,允许几个 合理的结果并存。
10 2019/10/26
三、频数表和频数分布图用途
41.07
3.80~
3 3.90
11.70
45.63
4.00~
8 4.10
32.80
134.48
4.20~
23 4.30
98.90
425.27
4.40~
24 4.50
108.00
486.00
4.60~
25 4.70
117.50
552.25
4.80~
20 4.90
98.00
480.20
5.00~
12 5.10
7 2019/10/26
表8-1
某地区2002年55~58岁健康成人的空腹血糖 (mmol/L)测定值的频数分布表
血糖(mol/L)组段 组中值(xi)
3.60~ 3.80~ 4.00~ 4.20~ 4.40~ 4.60~ 4.80~ 5.00~ 5.20~ 5.40~5.60
合计
3.70 3.90 4.10 4.30 4.50 4.70 4.90 5.10 5.30 5.50
n
n
例8.2有9名健康成人的空腹胆固醇测定值(mol/L) 为:5.61,3.96,3.67,4.99,4.24,5.06,5.20, 4.79,5.93求算术平均数。
x=(5.61+3.96+3.67+4.99+4.24+5.06+5.20+4.79)/9
=4.83(mol/L)
20 2019/10/26
X
2
k:频数表的组段数
f :频数
xi :组中值,其中i=1,2,……k。 22 2019/10/26
表8-1 某地区2002年55~58岁健康成人的空腹血糖 (mmol/L)测定值的频数分布表
x 血糖(mol/L)组段 频数( fi ) 组中值( i)
3.60~
3 3.70
fi xi
11.10
f i xi2
5.24 4.6
4.62 4.2
4.78 4.79 4.27 4.83 4.36 4.96 5.38 4.56
5.51 4.02 4.87 3.95 5.00 4.76 4.99 4.45 5.36 4.34 4.34 4.56
4.46 5.16 4.34 4.09 3.60 4.92 4.21 4.51 4.64 4.45 4.46 4.55
4.86 5.58 4.25 4.16 5.24 4.44 4.68 4.06 5.08 5.24 4.42 3.68
4.87 4.48 4.44 4.66 4.60 4.38 4.65 4.79 5.16 4.61 4.68 3.85
4.74 4.80 4.46 4.70 4.25
4.4 4.57 4.96 3.74 4.21 4.56 3.86
公式:
27 2019/10/26
例8.4 有60人的血清抗体效价,分别为:7 人1:5,11人1:10,22人1:20,12人1:40,8 人1:80,求平均抗体效价。
50人的血清平均抗体效价为1:20.705。
28 2019/10/26
例8.4 有60人的血清抗体效价,求其平均抗体效价
抗体效价 频数(f) 效价倒数 lgX
1.99 / 10 = 0.199 ≈0.2 (mol/L)
(3) 列出组段:第一组段的下限必须包含最小值,最 后一个组段上限必须大于或等于最大值。
3.6~ 3.8 ~ …… 5.2 ~ 5.4 ~ 5.6
(4) 划记计数:用划记法将所有数据归纳到各组段, 得到各组段的频数。
6 2019/10/26
61.20
312.12
5.20~
10 5.30
53.00
280.90
5.40~5.60
4 5.50
22.00
121.00
合计
132
614.20
2878.92
x=614.2/132=4.653(mol/L) 23 2019/10/26
二、 几何均数(geometric mean)
定义:用G表示,是将n个观察值x的乘积再开n次方 的方根(或各观察值x对数值均值的反对数)。
12 2019/10/26
(2)偏态分布 :
1)右偏态分布(正偏态分布):右侧的组段 数多于左侧的组段数,频数向右侧拖尾。
2)左偏态分布(负偏态分布):左侧的组段 数多于右侧的组段数,频数向左侧拖尾。
13 2019/10/26
正偏态(右偏态)
2019/10/26
负偏态(左偏态)
返回14
频数分布的类型
5.17 5.56 5.30 5.22 4.64 4.27 4.85 5.07 4.61 4.98 4.78 4.26 4.35 4.18 4.41 4.38 5.05 5.59 4.56 4.39 4.45 4.49 4.83 4.27
2019/10/26
4.86 5.58 4.25 4.16 5.24 4.44 4.68 4.06 5.08 5.24 4.42 3.68
其适用条件是: ①当一组观察值为非对称分布且其差距较大时,用 均数表示其平均水平会受少数特大或特小值影响;
②数值按大小顺序排列后,各观察值呈倍数关系或近 似倍数关系。
24 2019/10/26
几何均数计算公式:
G n X1X2 Xn
lg
G
1 n
(lg
X1
lg
X2
G lg1 lg X n
频数(f)
3 3 8 23 24 25 20 12 10 4 132
累计频数(Σ f)
3 6 14 37 61 86 106 118 128 132
频率(%)
2.27 2.27 6.06 17.42 18.18 18.94 15.15 9.09 7.58 3.03 100.00
累计频率 (%)
2.27 4.55 10.61 28.03 46.21 65.15 80.30 89.39 96.97 100.00