第02章 计量资料的统计描述.ppt
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章 计量资料的统计描述
1
重要概念回顾
• 1. Population • 2. Sample • 3. Error • 4. Probability
2
重要问题回顾
• 1. 常见的医学数据资料有哪些类型? 各有 些什么特点?
• 2. 医学研究中常见的误差类型有哪些?各 有什么特点?
• 3. 医学研究工作中与统计学相关的基本步 骤有哪些?
n 1
SD (X X )2 X 2 ( X )2 / n
n 1
n 1
对于样本资料,分母 取n – 1 作为自由度(degree of
freedom,df),式中MS为样本方差,方差越大说明数据
的变异越大。
33
• 请大家计算下列三组同龄男孩的身高标准 差:
• 甲组:90 95 100 105 110 • 乙组:96 98 100 102 104 • 丙组:96 99 100 101 104
的理论基础.
51
第五节 医学正常值范围的制定
定义:又称参考值范围,是指特定健康人群的解剖、 生理、生化等各种数据的波动范围。采用包括95%的 人的界值为最为常用的正常值范围。 单双侧: 根据指标的实际用途,有的指标有上下界 值(双侧)。某些指标只需确定上限(单);某些 指标只需确定下限(单)。 估计的方法: 1、正态分布法 2、百分位数法
• 表示:M 、PX
• 计算:
M
L
0.5n f
M
fL
i M
Px
n x%
L
fx
fL
i x
• 百分位数:将N个观察值从小到大依次排列,再分成
100等份,对应于X%位的数值即为第X百分位数。中位 数是百分位的特殊形式。
• 应用:偏态资料,开口资料
曲线下,横轴上对称于0的面积相 等对任。何参数的正态分布,都可以通过一个简单的
变量变换
化成 和 的标准正态分
布。通常,可以利用标准正态分布表求出与原始变量
X 有关的概率值。
49
正态分布的应用
医学参考值范围的估计. 置信区间的估计. 准确地进行误差分析和质量控制. 正态分布是以后学习各种统计推断方法
164~
11111,11111,11111,1111
19
166~
11111,11111,11111
15
168~
11111,1111
9
170~
1111
4
172~174
1
1
合计
100
• 二. 频数分布图
25 20 15 10
5 0
10
三. 频数表和频数分布图的用途
• 1. 描述频数分布的类型 • 2. 描述频数分布的特征 • 3. 便于发现一些特大或者特小值 • 4. 便于进一步做统计分析或处理
)2
2
- X
π 和 e 是圆周率和自然对数的底,其近似值分别为3.14159 和2.71828。
μ和σ是正态分布的两个参数,分别是总体的均数和标准差。
(X )2 n 用总体均数计算标准差时,自由度是 n 而不是 n - 1
45
一. 正态分布的概念和特征
• 均数处最高;
四分位数间距主要用于描述明显偏态分布资料的变异程 度。
31
• 以上指标没有考虑每一个测得值 的情况。
• 平均偏差 = X X n
32
标准差
• 相关概念:离均差、离均差平方和、方差(2 , S2 )
• 标准差的符号: S
•
计算:
SS
(X
X )2
X2
( X )2
n
MS ( X X )2
• 均数为中心对称;
• 2个参数 N(u ,)
• 标准正态分布:N(0 ,1);
• 标准正态变换(变换公式):
;
• 曲线下的面积有一定规律。
46
正态分布完全由参数μ和σ决定。
48
二. 标准正态分布 (Standard Normal Distribution)
标准正态分布曲线下的面积分布规律
横轴上、曲线下的面积为1;
甘 油 三 脂 (mg/dL)
1.算术均数(均数)
• 意义:一组性质相同的观察值在数量上的平均水 平。
• •
表示: 计算:
X( 总X 1体 X)2 X(样X n本 )
n
n
X
• 直接法、频数表法、计算机
• 特征: ∑(X- X)=0 估计误差之和为0。
• 应用:正态分布或近似正态分布, 对称分布
fx
Hale Waihona Puke fL i x L: 组段的下限; iM: 组距; fx: 频数; fL: Px所在组段之前的累积频数。 例2.5 计算例2.4的百分位数P25 、 P75 、 P90。
630 0.25 27
P 0.40
0.30 0.632(mmol/L)
25
169
P 1.30 630 0.75 457 0.30 1.357(mmol/L)
3
统计描述
统计描述是指用统计指标和适当的统计图表 来描述资料的分布规律及其数量特征。
5
主要内容
• 第一节 频数分布 • 第二节 集中趋势的描述 • 第三节 离散趋势的描述 • 第四节 正态分布 • 第五节 医学正常值范围的制定
6
第一节 频数分布
• 一. 频数分布表 • 1. 求极差 • 2. 确定组段和组距 • 3. 根据组距写出组段 • 4. 分组划记并统计频数
100cm, 但极差各不相同。 • 传染病、食物中毒的最长和最短潜伏期。
29
四分位数间距 Q = P75 – P25 2-12 QR=67.7-39.2=28.5(天)
30
50岁~60岁正常女性血清甘油三脂含量的百分位数P25和 P75 的位置分别为63.2 mg/dl和135.7 mg/dl,则四分位间距为:
21
表2-4 某地630名正常女性血清甘油三脂含量(mg/dl)
甘油三脂
0.10~ 0.40~ 0.70~ 1.00~ 1.30~ 1.60~ 1.90~ 2.20~ 2.50~ 2.80~
3.10~ 合计
频数
27 169 167
94 81 42 28 14
4 3 1 630
累积频数
27 196 363 457 538 580 608 622 626 629 630
标准差的量纲与原变量一致。 标准差可以直接用于代数运算。 标准差与均数结合能够完整地概括一个正态分布。 标准差越大意味着个体差异越大。
• 应用:描述变异程度、计算标准误、计算变异系数、描述正态分布、估计 正常值范围
37
变异系数
• 意义:标准差与均数之比用百分数表示。 • 符号: CV • 计算: CV S 100% • 无单位 X • 应用:
75
81
P 1.60 630 0.90 538 0.30 1.807(mmol/L)
90
42
三个指标的区别
1.算术均数 2.几何均数 3.中位数
25
计算方法
优点 缺点 使用场合
算数 均数
几何 均数
中位 数 百分 位数
X X 1 X 2 X n X
G lg 1 ( lg X 1 lg X 2 lg X n ) lg 1 ( lg X )
n
n
15
• 例2.2 测得10个人的血清滴度的倒数分别为 2,2,4,4,8,8,8,8,32,32,求平 均滴度。
G lg 1 lg 2 lg 2 lg 4 lg 4 lg 8 lg 8 lg 8 lg 8 lg 32 lg 32 7
7
如何对这份资料进行 整理和汇报?
1998年100名18岁健康女大学生身高的频数分布
身高组段 (1)
划记
频数 f (2)
154~
11
2
156~
1111
4
158~
11111,11111,1
11
160~
11111,11111,111
13
162~
11111,11111,11111,11111,11
22
• 注意:使用频数表法求算数均数时,需要合理分 组。
13
14
2.几何均数(Geometric Mean )
• 应用:原始数据分布不对称,经对数转换后呈对 称分布的资料。例如抗体滴度。意义:N个数值
的乘积开N次方即为这N 个数的几何均数。
• 表示:G
• 计算: G n X 1 X 2 X n
10
16
12
10
8
6
4
2
0 0-
5-
10-
15-
20-
25-
30-
35-
17
18
负偏态
正偏态
平均数=中位数=众数
平均数<中位数<众数 平均数>中位数>众数
19
3.中位数(Median) 、百分位数(Percentile)
• 中位数意义:将一组观察值从小到大排序后,居于
中间位置的那个值或两个中间值的平均值。
不同量纲的变量间变异程度的比较。 均数差别较大的变量间变异程度的比 较。
38
计算方法
极差
四分 位数 间距 方差 与标 准差 变异 系数
优点 缺点 使用场合
39
第四节 正态分布
• 1、图形 • 2、特征 • 3、面积
40
• 正态分布
例2.1中,将红细胞数的横坐标用变量X表示,第i组的组距和人数分别 为△Xi 和 fi 表示,n为总观察例数
各矩形的面积恰好等于红细胞在区间内的频率( f ( X ) △Xi = f i / n ) 面积 的总和为1。
43
假设观察的人数增多,组段不断细分,则直方 图将逐渐接近于一条均匀连续的曲线,这条曲线 所描述的分布,简称为正态分布。
44
正态分布的密度函数,曲线方程为:
f (X)
1
e
(
X 2 2
11
第二节 集中趋势
• 集中位置的描述,即大多数数值落在什么
位置。
25 20
15
描述集中趋势的几种指标:150
1.算术均数(均数)
0
2.几何均数
3.中位数
180
150
频 120 数 90
60
30
0
0.1 0.4 0.7 1.0 196
1.3
1.61 1.9
2.2 2.5 2.8
3.1
12
630×0.5 M
M
L
0.5n fM
fL
i M
L、iM、fM分别为M所在组段的下限、组距和频数, fL为M
所在组段之前各组段的累积频数。
M 0.70 630 0.5 196 0.30 0.914 167
百分位数(Percentile)
Px
n x%
L
20
将一组观察值从小到大按顺序排列,居中心 位置的数值即为中位数。
如测得5个人的VLDL中的apo_B的含量(mg/dl) 为0.84、2.85、5.46、8.58、9.60,则
M=5.46(mg/dl) 若测量结果:0.84、2.85、8.58、9.6,则
M=(2.85+8.58)/2=5.72(mg/dl)
27
第三节 离散趋势
描述一组数据参差不齐的程度 。
常用指标: • 极差(全距) • 四分位数间距 • 方差 • 标准差 • 变异系数
按间距计算:极差和四分位数间距 按平均偏差计算:离均差平方和、
方差、标准差和变异系数
28
极 差(全 距)
• 一组变量的最大值和最小值之差。 • P18 2-11 甲、乙、丙组的身高均数均为
偏态,分布两 端无确定数值
26
对甲乙2名高血压患者连续观察5天,测得的收缩压 如下,请问两组资料有什么异同?
甲患者(mmHg) 162 145 178 142 186 ( X甲 162.6 ) 乙患者(mmHg) 164 160 163 159 166 ( X乙 162 .4)
甲乙患者收缩压的均数很相似,但是甲患者的 血压波动范围较大。
-
累积频率(%)
4.3
31.1
57.6
M
72.5
85.4
92.1
96.5
98.7
99.4
99.8
100.0 -
中位数 180 150 频 120 数 90 60 30 0
0.1 0.4 0.7 1.0 196
1.3
1.61 1.9
2.2 2.5 2.8
3.1
630×0.5 M
甘 油 三 脂 (mg/dL)
34
甲组 标准差= 7.91 乙组 标准差= 3.16 丙组 标准差= 2.92
35
如果是频数表资料,可用以下的公式:
S fx2 ( fx)2 / n
n 1
36
标准差
• 意义:全面反映了一组观察值的变异程度. (越大说明围绕均数越离散, 反 之说明较集中在均数周围, 均数的代表性越好)
n
n
G n X 1X 2 X n
M
L
0.5n fM
fL
i M
Px
L
n
x% fx
fL
i x
考虑每个 观察值
考虑每个 观察值
稳定
受到极 值影响
不能有0 或负数 观察值
不利于 进一步 计算
适用于正态, 近似正态以及 对称分布的资 料
对数正态分布 或者取对数后 呈对称分布的 资料
1
重要概念回顾
• 1. Population • 2. Sample • 3. Error • 4. Probability
2
重要问题回顾
• 1. 常见的医学数据资料有哪些类型? 各有 些什么特点?
• 2. 医学研究中常见的误差类型有哪些?各 有什么特点?
• 3. 医学研究工作中与统计学相关的基本步 骤有哪些?
n 1
SD (X X )2 X 2 ( X )2 / n
n 1
n 1
对于样本资料,分母 取n – 1 作为自由度(degree of
freedom,df),式中MS为样本方差,方差越大说明数据
的变异越大。
33
• 请大家计算下列三组同龄男孩的身高标准 差:
• 甲组:90 95 100 105 110 • 乙组:96 98 100 102 104 • 丙组:96 99 100 101 104
的理论基础.
51
第五节 医学正常值范围的制定
定义:又称参考值范围,是指特定健康人群的解剖、 生理、生化等各种数据的波动范围。采用包括95%的 人的界值为最为常用的正常值范围。 单双侧: 根据指标的实际用途,有的指标有上下界 值(双侧)。某些指标只需确定上限(单);某些 指标只需确定下限(单)。 估计的方法: 1、正态分布法 2、百分位数法
• 表示:M 、PX
• 计算:
M
L
0.5n f
M
fL
i M
Px
n x%
L
fx
fL
i x
• 百分位数:将N个观察值从小到大依次排列,再分成
100等份,对应于X%位的数值即为第X百分位数。中位 数是百分位的特殊形式。
• 应用:偏态资料,开口资料
曲线下,横轴上对称于0的面积相 等对任。何参数的正态分布,都可以通过一个简单的
变量变换
化成 和 的标准正态分
布。通常,可以利用标准正态分布表求出与原始变量
X 有关的概率值。
49
正态分布的应用
医学参考值范围的估计. 置信区间的估计. 准确地进行误差分析和质量控制. 正态分布是以后学习各种统计推断方法
164~
11111,11111,11111,1111
19
166~
11111,11111,11111
15
168~
11111,1111
9
170~
1111
4
172~174
1
1
合计
100
• 二. 频数分布图
25 20 15 10
5 0
10
三. 频数表和频数分布图的用途
• 1. 描述频数分布的类型 • 2. 描述频数分布的特征 • 3. 便于发现一些特大或者特小值 • 4. 便于进一步做统计分析或处理
)2
2
- X
π 和 e 是圆周率和自然对数的底,其近似值分别为3.14159 和2.71828。
μ和σ是正态分布的两个参数,分别是总体的均数和标准差。
(X )2 n 用总体均数计算标准差时,自由度是 n 而不是 n - 1
45
一. 正态分布的概念和特征
• 均数处最高;
四分位数间距主要用于描述明显偏态分布资料的变异程 度。
31
• 以上指标没有考虑每一个测得值 的情况。
• 平均偏差 = X X n
32
标准差
• 相关概念:离均差、离均差平方和、方差(2 , S2 )
• 标准差的符号: S
•
计算:
SS
(X
X )2
X2
( X )2
n
MS ( X X )2
• 均数为中心对称;
• 2个参数 N(u ,)
• 标准正态分布:N(0 ,1);
• 标准正态变换(变换公式):
;
• 曲线下的面积有一定规律。
46
正态分布完全由参数μ和σ决定。
48
二. 标准正态分布 (Standard Normal Distribution)
标准正态分布曲线下的面积分布规律
横轴上、曲线下的面积为1;
甘 油 三 脂 (mg/dL)
1.算术均数(均数)
• 意义:一组性质相同的观察值在数量上的平均水 平。
• •
表示: 计算:
X( 总X 1体 X)2 X(样X n本 )
n
n
X
• 直接法、频数表法、计算机
• 特征: ∑(X- X)=0 估计误差之和为0。
• 应用:正态分布或近似正态分布, 对称分布
fx
Hale Waihona Puke fL i x L: 组段的下限; iM: 组距; fx: 频数; fL: Px所在组段之前的累积频数。 例2.5 计算例2.4的百分位数P25 、 P75 、 P90。
630 0.25 27
P 0.40
0.30 0.632(mmol/L)
25
169
P 1.30 630 0.75 457 0.30 1.357(mmol/L)
3
统计描述
统计描述是指用统计指标和适当的统计图表 来描述资料的分布规律及其数量特征。
5
主要内容
• 第一节 频数分布 • 第二节 集中趋势的描述 • 第三节 离散趋势的描述 • 第四节 正态分布 • 第五节 医学正常值范围的制定
6
第一节 频数分布
• 一. 频数分布表 • 1. 求极差 • 2. 确定组段和组距 • 3. 根据组距写出组段 • 4. 分组划记并统计频数
100cm, 但极差各不相同。 • 传染病、食物中毒的最长和最短潜伏期。
29
四分位数间距 Q = P75 – P25 2-12 QR=67.7-39.2=28.5(天)
30
50岁~60岁正常女性血清甘油三脂含量的百分位数P25和 P75 的位置分别为63.2 mg/dl和135.7 mg/dl,则四分位间距为:
21
表2-4 某地630名正常女性血清甘油三脂含量(mg/dl)
甘油三脂
0.10~ 0.40~ 0.70~ 1.00~ 1.30~ 1.60~ 1.90~ 2.20~ 2.50~ 2.80~
3.10~ 合计
频数
27 169 167
94 81 42 28 14
4 3 1 630
累积频数
27 196 363 457 538 580 608 622 626 629 630
标准差的量纲与原变量一致。 标准差可以直接用于代数运算。 标准差与均数结合能够完整地概括一个正态分布。 标准差越大意味着个体差异越大。
• 应用:描述变异程度、计算标准误、计算变异系数、描述正态分布、估计 正常值范围
37
变异系数
• 意义:标准差与均数之比用百分数表示。 • 符号: CV • 计算: CV S 100% • 无单位 X • 应用:
75
81
P 1.60 630 0.90 538 0.30 1.807(mmol/L)
90
42
三个指标的区别
1.算术均数 2.几何均数 3.中位数
25
计算方法
优点 缺点 使用场合
算数 均数
几何 均数
中位 数 百分 位数
X X 1 X 2 X n X
G lg 1 ( lg X 1 lg X 2 lg X n ) lg 1 ( lg X )
n
n
15
• 例2.2 测得10个人的血清滴度的倒数分别为 2,2,4,4,8,8,8,8,32,32,求平 均滴度。
G lg 1 lg 2 lg 2 lg 4 lg 4 lg 8 lg 8 lg 8 lg 8 lg 32 lg 32 7
7
如何对这份资料进行 整理和汇报?
1998年100名18岁健康女大学生身高的频数分布
身高组段 (1)
划记
频数 f (2)
154~
11
2
156~
1111
4
158~
11111,11111,1
11
160~
11111,11111,111
13
162~
11111,11111,11111,11111,11
22
• 注意:使用频数表法求算数均数时,需要合理分 组。
13
14
2.几何均数(Geometric Mean )
• 应用:原始数据分布不对称,经对数转换后呈对 称分布的资料。例如抗体滴度。意义:N个数值
的乘积开N次方即为这N 个数的几何均数。
• 表示:G
• 计算: G n X 1 X 2 X n
10
16
12
10
8
6
4
2
0 0-
5-
10-
15-
20-
25-
30-
35-
17
18
负偏态
正偏态
平均数=中位数=众数
平均数<中位数<众数 平均数>中位数>众数
19
3.中位数(Median) 、百分位数(Percentile)
• 中位数意义:将一组观察值从小到大排序后,居于
中间位置的那个值或两个中间值的平均值。
不同量纲的变量间变异程度的比较。 均数差别较大的变量间变异程度的比 较。
38
计算方法
极差
四分 位数 间距 方差 与标 准差 变异 系数
优点 缺点 使用场合
39
第四节 正态分布
• 1、图形 • 2、特征 • 3、面积
40
• 正态分布
例2.1中,将红细胞数的横坐标用变量X表示,第i组的组距和人数分别 为△Xi 和 fi 表示,n为总观察例数
各矩形的面积恰好等于红细胞在区间内的频率( f ( X ) △Xi = f i / n ) 面积 的总和为1。
43
假设观察的人数增多,组段不断细分,则直方 图将逐渐接近于一条均匀连续的曲线,这条曲线 所描述的分布,简称为正态分布。
44
正态分布的密度函数,曲线方程为:
f (X)
1
e
(
X 2 2
11
第二节 集中趋势
• 集中位置的描述,即大多数数值落在什么
位置。
25 20
15
描述集中趋势的几种指标:150
1.算术均数(均数)
0
2.几何均数
3.中位数
180
150
频 120 数 90
60
30
0
0.1 0.4 0.7 1.0 196
1.3
1.61 1.9
2.2 2.5 2.8
3.1
12
630×0.5 M
M
L
0.5n fM
fL
i M
L、iM、fM分别为M所在组段的下限、组距和频数, fL为M
所在组段之前各组段的累积频数。
M 0.70 630 0.5 196 0.30 0.914 167
百分位数(Percentile)
Px
n x%
L
20
将一组观察值从小到大按顺序排列,居中心 位置的数值即为中位数。
如测得5个人的VLDL中的apo_B的含量(mg/dl) 为0.84、2.85、5.46、8.58、9.60,则
M=5.46(mg/dl) 若测量结果:0.84、2.85、8.58、9.6,则
M=(2.85+8.58)/2=5.72(mg/dl)
27
第三节 离散趋势
描述一组数据参差不齐的程度 。
常用指标: • 极差(全距) • 四分位数间距 • 方差 • 标准差 • 变异系数
按间距计算:极差和四分位数间距 按平均偏差计算:离均差平方和、
方差、标准差和变异系数
28
极 差(全 距)
• 一组变量的最大值和最小值之差。 • P18 2-11 甲、乙、丙组的身高均数均为
偏态,分布两 端无确定数值
26
对甲乙2名高血压患者连续观察5天,测得的收缩压 如下,请问两组资料有什么异同?
甲患者(mmHg) 162 145 178 142 186 ( X甲 162.6 ) 乙患者(mmHg) 164 160 163 159 166 ( X乙 162 .4)
甲乙患者收缩压的均数很相似,但是甲患者的 血压波动范围较大。
-
累积频率(%)
4.3
31.1
57.6
M
72.5
85.4
92.1
96.5
98.7
99.4
99.8
100.0 -
中位数 180 150 频 120 数 90 60 30 0
0.1 0.4 0.7 1.0 196
1.3
1.61 1.9
2.2 2.5 2.8
3.1
630×0.5 M
甘 油 三 脂 (mg/dL)
34
甲组 标准差= 7.91 乙组 标准差= 3.16 丙组 标准差= 2.92
35
如果是频数表资料,可用以下的公式:
S fx2 ( fx)2 / n
n 1
36
标准差
• 意义:全面反映了一组观察值的变异程度. (越大说明围绕均数越离散, 反 之说明较集中在均数周围, 均数的代表性越好)
n
n
G n X 1X 2 X n
M
L
0.5n fM
fL
i M
Px
L
n
x% fx
fL
i x
考虑每个 观察值
考虑每个 观察值
稳定
受到极 值影响
不能有0 或负数 观察值
不利于 进一步 计算
适用于正态, 近似正态以及 对称分布的资 料
对数正态分布 或者取对数后 呈对称分布的 资料