2.计量资料的统计描述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十一章 资料的描述性分析
第十一章 资料的描述性分析
第一节 第二节 统计图表 计量资料的统计描述方法 计数资料的统计描述方法
2016/1/2
2
第一节 计量资料的统计描述方法
常用的描述定量资料分布规律的统计方法 有两类:
统计图表:频数分布表/图 选用适当的统计指标:
• 集中趋势指标:均数、中位数 • 离散趋势指标:极差、标准差
2016/1/2
21
4.频数分布的类型
正偏态分布:峰偏左,尾部向右侧延伸 如:以儿童为主的传染病发病人数的分布 右偏态
正偏态分布
(positive skewed)
负偏态分布:峰偏右,尾部向左侧延伸 如:以老年人为主的慢性病发病人数的分布 左偏态
负偏态分布
(negative skewed)
2016/1/2
计算方法:
直接法 加权法
应用:等比资料或对数正态分布资料
2016/1/2
36
2.几何均数
计算方法: 直接法:直接将n个观察值( x1,x2,x3,…,xn )的乘积
开n次
公式
G=n x1 x2 x3 ..., xn
1
写成对数形式为
lg x1 lg x2 ... lg xn G lg ( ) n 几何均数: lg xi 变量对数值 1 lg ( ) 的算术均数 n 的反对数。
22
5.频数表的用途
频数表可揭示资料的分布特征和分布类型 便于进一步计算统计指标和统计分析处理(第二节) 便于发现某些特大或特小可疑值,便于资料的校对。
2016/1/2
23
一、集中趋势指标
算术均数(arithmetic mean) 几何均数(geometric mean) 中位数和百分位数(median percentile) 以上统称为平均数(average)常用于描述一组 变量值的集中位置,代表其平均水平或是集中 位置的特征值。
离均差的平方和小于个观察值x与任何数α( α ≠
x )之差的平方和。
(x x ) ( x )
2
2016/1/2
2
32
1.算术均数
各离均差(即各观察值x与均数 x之差)的总和等于零。
(x x ) 0 论证: (x x ) (x x ) (x
观察值不能有0。因为0不能去对数,不能与任何其他数呈倍
数关系。 观察值不能同时有正值和负值。若全是负值,计算是可以把 负号去掉,得出结果后再加上负号。 同一组资料求得的几何均数小于算术均数。
2016/1/2
41
2.几何均数
若一组数值变量资料为偏态分布,变量为x,令y=lgx后, 变量y服从正态分布,请问变量x为什么样的偏态分布资料?
f1, f2,…,fk分别为各组段的频数,这里的f起到了 “权数”的作用,它权衡了各组中值由于频数不 同对均数的影响。即频数多,权数大,作用也大; 频数少,权数小,作用也小,故称为加权法。
用组中值,加 权法计算出的 均数是精确值 吗?
2016/1/2
31
1.算术均数
均数的两个重要特性
各离均差(即各观察值x与均数 x之差)的总和等 于零。 (x x) 0
2016/1/2
11
1. 频数表的编制步骤
(3)列表划记
计算出每个组段的 频率
每组的频数 样本含量
2016/1/2
12
1. 频数表的编制步骤
(3)列表划记
计算出每个组段的 累计频率 =本组段的频率+上 一组段的累计频率
2016/1/2
13
1. 频数表的编制步骤
2016/1/2
14
2.绘制频数分布直方图
2016/1/2
fx f
i
i
28
1.算术均数
2016/1/2
29
1.算术均数
组中值=(下限+上限)/ 2
如:3.60~组段的组中值=(3.60+3.80)/2=3.70
以此类推
fx x f
i i
614.2 4.653(mmol /L) 132
2016/1/2
30
1.算术均数
7 lg 5 11lg10 ... 8 lg 80 G lg ( ) 7 11 22 12 8 lg 1 (1.3161 ) 20.705
1
60人的血清平均抗体效价为1:20.705
2016/1/2
40
2.几何均数
注意事项
等比资料,如:抗体的平均滴度、药物的平均效价、卫生事 业平均发展速度、人口的几何增长 对数正态分布:是右偏态分布
每个组段的起点称为该组的下限(low limit), 终点称为上 限(upper limit), 上限=下限+组距; 第一组段必须包括最小值,因此其下限取包含最小值、较 为整齐的数值; 例8.1 第一组段下限为 3.60,上限为3.60+0.20=3.80 各组段不能重叠,每一组段均为半开半闭区间,即包括下 限,不包含上限。 例8.1 第一组段为3.60~ 即[3.60,3.80);以此类推。 最后一组段,须包括最大值,且要列出这一组段的下限和 上限,即5.40~5.60, [5.40,5.60]
2016/1/2
进入SD统计功能 清除原有数据 输入数据
显示计算的 x 显示计算的S 显示计算的n 显示计算的
X
35
2.几何均数 (geometric mean) 定义:有些医学资料,如抗体滴度、细菌计数等,其频
数分布明显偏态,各观察值之间呈倍数变化(等比关系),
此时宜用几何均数反映其平均增减倍数。
2016/1/2
37
2.几何均数
例3 有7份血清的抗体效价分别为1:2,1:4,1:8,
1:16,1:32,1:64,1:128,求平均抗体效价。
本例先求抗体效价的倒数,再求几何均数
lg 2 lg 4 ... lg128 1 G lg lg (1.204) 16 7
绘制频数分布直方图 坐标轴
横坐标:变量值即研究指标,无需从0开始,以单位尺度 划分。 纵坐标:为频数f,必须从0开始(f为每一组段内的人数)
直条
直条的宽度:组距 直条的高度:每一组段的频数
累计
2016/1/2
15
2.绘制频数分布直方图
2016/1/2
16
2.绘制频数分布直方图
2016/1/2
8
1. 频数表的编制步骤 列出各组段 第一组段
最后一组段
2016/1/2
9
1. 频数表的编制步骤
(3)列表划记
将原始数据一一对 应入每个组段,通 过划“正” 字,来 统计每个组段内的 数据
2016/1/2
10
1. 频数表的编制步骤
(3)列表划记
统计每个组段内的 频数(例数) 频数的合计数等于 样本含量
5.06,5.20,4.79,5.93,求算术均数。
x (5.61 3.96 5.93)/9 4.83(mmol/ L)
2016/1/2
27
1.算术均数
计算方法
频数表法(weighting method)
当资料中相同观察值的个数较多时,可将相同观察值的个数, 即频数f,乘以该观察值x,以代替相同观察值逐个相加。
对于频数表资料,用各组段的频数作f,以相应的组中值 (class mid-value)作x。组中值=(下限+上限)/ 2 公式
f1 x1 f 2 x2 f 3 x3 ... f n xn x f1 f 2 f 3 ... f n fi为各组段的频数 xi为各组段的组中值
抗体滴度 ⑴
1:2.5 1:10 1:40 1:160 1:640 合计
人数,f ⑵ 14 18 22 12 6 72
滴度倒数,X ⑶ 2.5 10.0 40.0 160.0 640.0
lgX ⑷ 0.3979 1.0000 1.6021 2.2041 2.8062
102.1032
变量y 服从
正态分布
1
血清抗体的平均效价为1:16
2016/1/2
38
2.几何均数
计算方法: 加权法:当资料中相同观察值得个数f(即频数)
较多时,如频数表资料
写成公式
G lg
1
f lg x ( ) f
2016/1/2
39
2.几何均数
例4 有60人的血清抗体效价,分别为7人1:5,
11人 1:10,22人1:20,12人1:40,8人1:80,求 平均抗体效价。
2016/1/2
24
1.算术均数
(arithmetic mean)
又简称为均数(mean) 定义:是反映一组观察值在数量上的平均水平。 总体均数用希腊字母 表示,样本均数用 x 表示 计算方法:
直接法: 频数表法:
应用: 正态分布或近似正态分布资料
2016/1/2
25
1.算术均数
2016/1/2
17
3、频数分布的特征 从频数表可以看到频数分布的两个重要的特征
集中趋势(central tendency)
血糖值向中央部分(中等水平)集中,以中等水平的血糖值者居 多,是为集中趋势。
离散趋势(tendency of dispersion)
从中央部分到两侧(血糖值从中等水平到较低或较高水平)的频 数分布逐渐减少,是为离散趋势。
2016/1/2
ຫໍສະໝຸດ Baidu34
CASIO fx-3600P计算器统计功能 步骤 1. 2. 3. 键 盘 3 AC DATA DATA DATA 1(数字键) 3 (数字键) 3 (数字键) 1 (数字键) 说 明
4. 5. 6. 7.
MOOD SHIFT 2.35 4.21 3.32 SHIFT SHIFT Kout Kout
计算方法
直接法:即将所有观察值x1,x2,x3,…,xn直接相加 再除以观察值的个数,写成公式
x1 x2 x3 ... xn xi x n n
x为样本均数
n为变量值个数, i为各变量值, Σ表示求和
2016/1/2
26
1.算术均数
例1 有9名健康成人的空腹胆固醇测定值 (mmol/L)为5.61,3.96,3.67,4.99,4.24,
1 2
x ) ... ( xn x )
( x1 x2 ... xn ) nx x x n
i i
n
偶知道另一个也能 证明了!嘿嘿
0
2016/1/2
33
1.算术均数
均数的特征
1、最常用,特别是正态分布资料 2、均数对极值特别敏感, 极大值或极小值通常将均数拉向自 己
2016/1/2
5
第一节 数值变量资料的频数分布
1. 频数表的编制步骤 (1)求数据的极差: 极差(range)是全部数
据中的最大值与最小值之差,它描述了数据的变 异幅度。
公式:R=XMax-XMin 例8.1: XMax =5.59
XMin =3.60
R=5.59-3.60=1.99
2016/1/2
6
1. 频数表的编制步骤
(2)划分组段 确定组数: n>100,10~15组;n<100,8~10组 确定组距:
组距可以相等也可以不相等,一般采用等距分组, 组距=极差/组数 例8.1 1.99/10≈2,故组距=2mmol/L
2016/1/2
7
1. 频数表的编制步骤
(2)划分组段 确定各组段的上下限:
集中趋势和离散趋势是频数分布的两个重要侧面,从这两 方面就可全面的分析所研究的事物。
2016/1/2
18
4.频数分布的类型
频数分布又可分为对称分布和偏态分布
对称分布:集中位置在正中,左右两侧频数分布
大体对称
偏态分布:集中位置偏向一侧,频数分布不对称
正偏态分布:集中位置偏向年龄小的一侧 负偏态分布:集中位置偏向年龄大的一侧
2016/1/2
3
第一节 数值变量资料的频数分布
频数分布表( frequency distribution table ): 将变量值化分为若干个组段,清点并记录各组段 变量值的个数,称为频数表(frequency
table ) 。
2016/1/2
4
第一节 数值变量资料的频数分布
最小 值
最 大 值
则变量x服从 42
不同类型的分布,应采用相应的统计分析方 法。
2016/1/2
19
4.频数分布的类型
正态分布 ( normal distribution )
中间高、两边低、左右对称 属于对称分布的一种 许多医学资料都属于这种分布, 例如人体正常的生理生化指标
正态分布
2016/1/2
20
4.频数分布的类型
a.尖峭峰 b.正态峰 c.平阔峰
第十一章 资料的描述性分析
第一节 第二节 统计图表 计量资料的统计描述方法 计数资料的统计描述方法
2016/1/2
2
第一节 计量资料的统计描述方法
常用的描述定量资料分布规律的统计方法 有两类:
统计图表:频数分布表/图 选用适当的统计指标:
• 集中趋势指标:均数、中位数 • 离散趋势指标:极差、标准差
2016/1/2
21
4.频数分布的类型
正偏态分布:峰偏左,尾部向右侧延伸 如:以儿童为主的传染病发病人数的分布 右偏态
正偏态分布
(positive skewed)
负偏态分布:峰偏右,尾部向左侧延伸 如:以老年人为主的慢性病发病人数的分布 左偏态
负偏态分布
(negative skewed)
2016/1/2
计算方法:
直接法 加权法
应用:等比资料或对数正态分布资料
2016/1/2
36
2.几何均数
计算方法: 直接法:直接将n个观察值( x1,x2,x3,…,xn )的乘积
开n次
公式
G=n x1 x2 x3 ..., xn
1
写成对数形式为
lg x1 lg x2 ... lg xn G lg ( ) n 几何均数: lg xi 变量对数值 1 lg ( ) 的算术均数 n 的反对数。
22
5.频数表的用途
频数表可揭示资料的分布特征和分布类型 便于进一步计算统计指标和统计分析处理(第二节) 便于发现某些特大或特小可疑值,便于资料的校对。
2016/1/2
23
一、集中趋势指标
算术均数(arithmetic mean) 几何均数(geometric mean) 中位数和百分位数(median percentile) 以上统称为平均数(average)常用于描述一组 变量值的集中位置,代表其平均水平或是集中 位置的特征值。
离均差的平方和小于个观察值x与任何数α( α ≠
x )之差的平方和。
(x x ) ( x )
2
2016/1/2
2
32
1.算术均数
各离均差(即各观察值x与均数 x之差)的总和等于零。
(x x ) 0 论证: (x x ) (x x ) (x
观察值不能有0。因为0不能去对数,不能与任何其他数呈倍
数关系。 观察值不能同时有正值和负值。若全是负值,计算是可以把 负号去掉,得出结果后再加上负号。 同一组资料求得的几何均数小于算术均数。
2016/1/2
41
2.几何均数
若一组数值变量资料为偏态分布,变量为x,令y=lgx后, 变量y服从正态分布,请问变量x为什么样的偏态分布资料?
f1, f2,…,fk分别为各组段的频数,这里的f起到了 “权数”的作用,它权衡了各组中值由于频数不 同对均数的影响。即频数多,权数大,作用也大; 频数少,权数小,作用也小,故称为加权法。
用组中值,加 权法计算出的 均数是精确值 吗?
2016/1/2
31
1.算术均数
均数的两个重要特性
各离均差(即各观察值x与均数 x之差)的总和等 于零。 (x x) 0
2016/1/2
11
1. 频数表的编制步骤
(3)列表划记
计算出每个组段的 频率
每组的频数 样本含量
2016/1/2
12
1. 频数表的编制步骤
(3)列表划记
计算出每个组段的 累计频率 =本组段的频率+上 一组段的累计频率
2016/1/2
13
1. 频数表的编制步骤
2016/1/2
14
2.绘制频数分布直方图
2016/1/2
fx f
i
i
28
1.算术均数
2016/1/2
29
1.算术均数
组中值=(下限+上限)/ 2
如:3.60~组段的组中值=(3.60+3.80)/2=3.70
以此类推
fx x f
i i
614.2 4.653(mmol /L) 132
2016/1/2
30
1.算术均数
7 lg 5 11lg10 ... 8 lg 80 G lg ( ) 7 11 22 12 8 lg 1 (1.3161 ) 20.705
1
60人的血清平均抗体效价为1:20.705
2016/1/2
40
2.几何均数
注意事项
等比资料,如:抗体的平均滴度、药物的平均效价、卫生事 业平均发展速度、人口的几何增长 对数正态分布:是右偏态分布
每个组段的起点称为该组的下限(low limit), 终点称为上 限(upper limit), 上限=下限+组距; 第一组段必须包括最小值,因此其下限取包含最小值、较 为整齐的数值; 例8.1 第一组段下限为 3.60,上限为3.60+0.20=3.80 各组段不能重叠,每一组段均为半开半闭区间,即包括下 限,不包含上限。 例8.1 第一组段为3.60~ 即[3.60,3.80);以此类推。 最后一组段,须包括最大值,且要列出这一组段的下限和 上限,即5.40~5.60, [5.40,5.60]
2016/1/2
进入SD统计功能 清除原有数据 输入数据
显示计算的 x 显示计算的S 显示计算的n 显示计算的
X
35
2.几何均数 (geometric mean) 定义:有些医学资料,如抗体滴度、细菌计数等,其频
数分布明显偏态,各观察值之间呈倍数变化(等比关系),
此时宜用几何均数反映其平均增减倍数。
2016/1/2
37
2.几何均数
例3 有7份血清的抗体效价分别为1:2,1:4,1:8,
1:16,1:32,1:64,1:128,求平均抗体效价。
本例先求抗体效价的倒数,再求几何均数
lg 2 lg 4 ... lg128 1 G lg lg (1.204) 16 7
绘制频数分布直方图 坐标轴
横坐标:变量值即研究指标,无需从0开始,以单位尺度 划分。 纵坐标:为频数f,必须从0开始(f为每一组段内的人数)
直条
直条的宽度:组距 直条的高度:每一组段的频数
累计
2016/1/2
15
2.绘制频数分布直方图
2016/1/2
16
2.绘制频数分布直方图
2016/1/2
8
1. 频数表的编制步骤 列出各组段 第一组段
最后一组段
2016/1/2
9
1. 频数表的编制步骤
(3)列表划记
将原始数据一一对 应入每个组段,通 过划“正” 字,来 统计每个组段内的 数据
2016/1/2
10
1. 频数表的编制步骤
(3)列表划记
统计每个组段内的 频数(例数) 频数的合计数等于 样本含量
5.06,5.20,4.79,5.93,求算术均数。
x (5.61 3.96 5.93)/9 4.83(mmol/ L)
2016/1/2
27
1.算术均数
计算方法
频数表法(weighting method)
当资料中相同观察值的个数较多时,可将相同观察值的个数, 即频数f,乘以该观察值x,以代替相同观察值逐个相加。
对于频数表资料,用各组段的频数作f,以相应的组中值 (class mid-value)作x。组中值=(下限+上限)/ 2 公式
f1 x1 f 2 x2 f 3 x3 ... f n xn x f1 f 2 f 3 ... f n fi为各组段的频数 xi为各组段的组中值
抗体滴度 ⑴
1:2.5 1:10 1:40 1:160 1:640 合计
人数,f ⑵ 14 18 22 12 6 72
滴度倒数,X ⑶ 2.5 10.0 40.0 160.0 640.0
lgX ⑷ 0.3979 1.0000 1.6021 2.2041 2.8062
102.1032
变量y 服从
正态分布
1
血清抗体的平均效价为1:16
2016/1/2
38
2.几何均数
计算方法: 加权法:当资料中相同观察值得个数f(即频数)
较多时,如频数表资料
写成公式
G lg
1
f lg x ( ) f
2016/1/2
39
2.几何均数
例4 有60人的血清抗体效价,分别为7人1:5,
11人 1:10,22人1:20,12人1:40,8人1:80,求 平均抗体效价。
2016/1/2
24
1.算术均数
(arithmetic mean)
又简称为均数(mean) 定义:是反映一组观察值在数量上的平均水平。 总体均数用希腊字母 表示,样本均数用 x 表示 计算方法:
直接法: 频数表法:
应用: 正态分布或近似正态分布资料
2016/1/2
25
1.算术均数
2016/1/2
17
3、频数分布的特征 从频数表可以看到频数分布的两个重要的特征
集中趋势(central tendency)
血糖值向中央部分(中等水平)集中,以中等水平的血糖值者居 多,是为集中趋势。
离散趋势(tendency of dispersion)
从中央部分到两侧(血糖值从中等水平到较低或较高水平)的频 数分布逐渐减少,是为离散趋势。
2016/1/2
ຫໍສະໝຸດ Baidu34
CASIO fx-3600P计算器统计功能 步骤 1. 2. 3. 键 盘 3 AC DATA DATA DATA 1(数字键) 3 (数字键) 3 (数字键) 1 (数字键) 说 明
4. 5. 6. 7.
MOOD SHIFT 2.35 4.21 3.32 SHIFT SHIFT Kout Kout
计算方法
直接法:即将所有观察值x1,x2,x3,…,xn直接相加 再除以观察值的个数,写成公式
x1 x2 x3 ... xn xi x n n
x为样本均数
n为变量值个数, i为各变量值, Σ表示求和
2016/1/2
26
1.算术均数
例1 有9名健康成人的空腹胆固醇测定值 (mmol/L)为5.61,3.96,3.67,4.99,4.24,
1 2
x ) ... ( xn x )
( x1 x2 ... xn ) nx x x n
i i
n
偶知道另一个也能 证明了!嘿嘿
0
2016/1/2
33
1.算术均数
均数的特征
1、最常用,特别是正态分布资料 2、均数对极值特别敏感, 极大值或极小值通常将均数拉向自 己
2016/1/2
5
第一节 数值变量资料的频数分布
1. 频数表的编制步骤 (1)求数据的极差: 极差(range)是全部数
据中的最大值与最小值之差,它描述了数据的变 异幅度。
公式:R=XMax-XMin 例8.1: XMax =5.59
XMin =3.60
R=5.59-3.60=1.99
2016/1/2
6
1. 频数表的编制步骤
(2)划分组段 确定组数: n>100,10~15组;n<100,8~10组 确定组距:
组距可以相等也可以不相等,一般采用等距分组, 组距=极差/组数 例8.1 1.99/10≈2,故组距=2mmol/L
2016/1/2
7
1. 频数表的编制步骤
(2)划分组段 确定各组段的上下限:
集中趋势和离散趋势是频数分布的两个重要侧面,从这两 方面就可全面的分析所研究的事物。
2016/1/2
18
4.频数分布的类型
频数分布又可分为对称分布和偏态分布
对称分布:集中位置在正中,左右两侧频数分布
大体对称
偏态分布:集中位置偏向一侧,频数分布不对称
正偏态分布:集中位置偏向年龄小的一侧 负偏态分布:集中位置偏向年龄大的一侧
2016/1/2
3
第一节 数值变量资料的频数分布
频数分布表( frequency distribution table ): 将变量值化分为若干个组段,清点并记录各组段 变量值的个数,称为频数表(frequency
table ) 。
2016/1/2
4
第一节 数值变量资料的频数分布
最小 值
最 大 值
则变量x服从 42
不同类型的分布,应采用相应的统计分析方 法。
2016/1/2
19
4.频数分布的类型
正态分布 ( normal distribution )
中间高、两边低、左右对称 属于对称分布的一种 许多医学资料都属于这种分布, 例如人体正常的生理生化指标
正态分布
2016/1/2
20
4.频数分布的类型
a.尖峭峰 b.正态峰 c.平阔峰