数值变量资料的统计描述(精)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

可以看出:两患者收缩压的均数十分接近,但甲患 者的血压波动较大,而乙患者相对稳定。通常,描
述一组观察值,除需要表示其平均水平外,还要说
明它的离散或变异的情况。
第一节 衡量变异程度的指标
一、间距指标
(一)极差(Range)
也称作全距,即观察值中最大值和最小值之差,用
符号R 表示。如前例甲乙两患者收缩压的极差分别为
R甲 186 142 44(mmHg)
R乙 166 159 7 (mmHg)
该法简单明了、容易使用,如用于说明传染病、食
物中毒等的最短、最长潜伏期等;缺点是结果不稳
定。
(二)四分位数间距 (Quartile)
Q P75 P25
如由上一章例2.4 算出,50岁~60岁正常女性血清
样误差不可避免。
二、抽样误差的分布
理论上可以证明:若从正态总体 N( , 2 ) 中,反 复多次随机抽取样本含量固定为n 的样本,那么 这些样本均数 X 也服从正态分布,即 X 的总体均 数仍为 ,样本均数的标准差为 / n 。
抽样分布
抽样分布示意图
中心极限定理: 当样本含量很大的情况下,无论原始测量变量服 从什么分布, X 的抽样分布均近似正态。
抽样误差与假设检验
(Sampling Error and Hypothesis Test)
第一节 均数的抽样误差与标准误 一、均数的抽样误差
在医学研究中,绝大多数情况是由样本信息研 究总体。由于个体存在差异,因此通过样本推论
总体时会存在一定的误差,如样本均数 往往不 X 等于总体均数 ,这种由抽样造成的样本均数与总 体均数的差异称为抽样误差。对于抽样研究,抽
抽样分布
抽样分布示意图
三、标准误(Standard Error)
样本均数的标准差称为标准误。样本均数的
变异越小说明估计越精确,因此可以用标准误表
示抽样误差的大小:
X
n
实际中总体标准差 往往未知,故只能求 得样本均数标准误的估计值 S X :
SX S n
例4.1 在某地随机抽查成年男子140人,计算得红
选择参照样本必须要考虑可能影响所要制定参
考值范围指标的各种疾病及干扰因素,将这些人排 除在外。例如在制定血清谷-丙转氨酶活性正常值 时,选取正常人的条件为肝、肾、心、脑、肌肉等 无器质性疾患,近期无特殊用药史等。同时可能需
要考虑性别、年龄、民族、地理位置等因素。样本
含量一般要较大,如n>120。
(二)对选定的参照样本进行准确的测定
(五)来自百度文库异系数(Coefficient of Variation )
S CV 100% X
主要用于对均数相差较大或单位不同的几组观
察值的变异程度进行比较。
例3.3 测得某地成年人舒张压均数为 77.5mmHg,
标准差为 10.7mmHg ;收缩压均数为 122.9mmHg, 标准
差为 17.1mmHg 。试比较舒张压和收缩压的变异程度。
为保证原始数据可靠,要严格控制检测误差,
包括分析仪器的灵敏度、试剂的纯度、操作技术及
标准的掌握等,同时必须对测量条件做出统一的规 定和说明,如临床化验参考值范围的制定,应对收 集样本时的环境和生理条件(温度、季节、体育活 动强度、饮食、妊娠等),收集、转运和储藏样品
的方法及时间有明确的规定。
(三)决定取单侧范围还是双侧范围值
CV舒张压 10.7 100% 13.8% 77.5
CV收缩压 17.1 100% 13.9% 122.9
第二节 正态分布及应用
一、正态分布(Normal Distribution)
f ( X ) 1.2
1 0.8 0.6 0.4 0.2 0 3.8 4.2 4.6 5.0 5.4 5.8 X
甘油三脂含量的百分位数P75和P25的位置分别为63.2
mg/dl和135.7 mg/dl,则
Q 135.7 63.2 72.5(mg/dl)
四分位数间距主要用于衡量明显偏态分布资料的 变异程度。
二、平均差距指标
(一)平均偏差(Mean Difference)
X X 平均偏差 n
最多的是标准差和变异系数。 3. 标准差与均数结合能够完整地描述一个正态 分布。对任何参数的正态分布,都可以通过一个简 单的变量变换化成标准正态分布。利用正态分布可
以很容易地确定其数值出现在任意指定范围内的概
率。
4.医学参考值范围指“正常参照人群”的解剖、生理、
生化、免疫及组织代谢产物的含量等各种数据的波动范围。
主要用作划分正常人与异常人的界线。 5.医学参考值范围的制定需要按照一定步骤进行。实
际中最好结合正常人和病人的数据分布特点,权衡假阳性
和假阴性的比例,选择一个适当的百分范围,最常用的百 分界限是95%。 6.参考值范围估计的方法有多种,其中最基本的有百 分位数法和正态分布法。正态法的优点是结果较稳定,但 对资料要求严格;百分位数法适合于任何分布类型的资料, 但要求大样本。
图3-4
三种不同标准差的正态分布
二、标准正态分布 (Standard
Normal Distribution)
对任何参数的正态分布,都可以通过一个简单的

变量变换 u X 化成 0和 1 的标准正态分布。
通常,可以利用标准正态分布表求出与原始变量X 有 关的概率值。
图3-5 标准正态分布及曲线下面积
第七章 数值变量资料的统计描述 (Measures of Dispersion)
例3.1 对甲乙两名高血压患者连续观察5天,测得
的收缩压(mmHg)结果如下:
患者 甲患者 乙患者 第 1天 162 164 第 2天 145 160 第 3天 178 163 第 4天 142 159 第 5天 186 166 均数 X 162.6 162.4
如对于例3.1:
甲患者:
乙患者:
平均偏差 162 162.6 145 162.6 186 162.6 5 15.52(mmHg )
平均偏差
164 162.4 160 162.4 166 162.4 5
2.32(mmHg)
特点:直观 , 易理解;但由于用了绝对值,不便于
f ( X ) 1.2
1 0.8 0.6 0.4 0.2 0 3.8 4.2 4.6 5 5.4 5.8 X
f (X )1.2 1 0.8 0.6 0.4 0.2 0 3.6 4 4.4 4.8 5.2 5.6 6 X
图3-1 某地成年男子红细胞数的分布逐渐接近正态分布示意图
f ( X ) ( f i / n) / X i
P X 1 . 96 X 1 . 96 0.95 n n
可信区间:
( X 1.96 X , X 1.96 X )
一般情况
( X u / 2 X , X u / 2 X )
参见书中计算实例……
第三节
医学参考值范围
(Reference Value Range) 一、基本概念
通常指正常人的解剖、生理、生化、免疫及组 织代谢产物的含量等各种数据的波动范围。主要目 的:用于临床疾病诊断。最常用的是95%参考值范围。
确定95%参考值范围示意图
二、医学参考值范围的制定方法
(一)选择一定数量的参照样本
点估计:不考虑抽样误差,如 X 参数估计
区间估计:考虑抽样误差
区间估计:指按预先给定的概率,计算出一个区间,
使它能够包含未知的总体均数。事先给定的概率
1 称为可信度,通常取 1 0.95。
二、可信区间的计算
(一) 已知
X u / n
X P 1.96 1.96 0.95 / n
4 2 .58 5
3.曲线下面积分布有规律
4.两个参数决定位置和变异
1
68 .3% 95 .0% 99 .0%
图3-2 正态分布曲线下的面积
2
3
-4
-3
-2
-1
01
1
2 2
2
3
3 4
3
5
6
7
-5
-4
-3
-2
1

1
-1
0
1
2

2
3
3
4
5
图3-3
三种不同均值的正态分布
下限:
X 1.96S 4.78 1.96 0.38 4.04(1012 / L)
上限: X 1.96S 4.78 1.96 0.38 5.52(1012 / L)
例3.5 见第二章表2-4资料。为该地区50岁~60岁女 性高血脂诊断与治疗提供参考依据,试估计血清甘油三 脂含量的95%单侧参考值范围。
(四)选择适当的百分范围
参考值的百分范围应根据资料的性质和研究
目的选择,它与诊断阈值有确定的关系。百分范
围的不同将导致不同的假阳性率和假阴性率。
图3-6
正常人和病人数据分布重叠
(五)估计参考值范围的界限
参考值范围估计主要有百分位数法和正态分布法。
表3-2 百分范围(%) 95 99 参考值范围所对应的百分位数 单 下限 P5 P1 侧 上限 P95 P99 双 下限 P2.5 P0.5 侧 上限 P97.5 P99.5
方差是将离均差平方和再取平均,即
S2
(X X )
n 1
2
注意:对于样本资料,分母用的是n-1,称
为自由度(degree of freedom,df )。
方差的特点:便于数学上的处理,但由于
有平方,度量衡发生变化,不便于实际应用。
(四)标准差 (Standard Deviation)
将方差取平方根,还原成与原始观察值单位
f (X )
1 e 2

( X )2 2 2
X
正态分布有两个参数:
和 , 分别表示均数和标准差。
主要特征:
1.以
为中心的对称分布
2.钟型曲线
.58 1 .96 -5 2 -4 -3 -2 -1
0
1 .96 2 1 3
表3-3 百分范围(%) 95 99
参考值范围所对应的正态分布区间 单 侧 上限 双 下限 侧 上限
下限
X 1.65S
X 1.65S
X 1.96S
X 1.96S
X 2.33S
X 2.33S
X 2.58S
X 2.58S
例3.4 若已算得某地正常成年男子红细胞数的均数
为4.78×1012/L,标准差为0.38×1012/L,试估计该地成年 男子红细胞数的95%参考值范围。
细胞均数4.77×1012/L,标准差0.38 ×1012/L ,试计
算均数的标准误。
SX S 0.38 0.032(1012 / L) n 140
标准误是抽样分布的重要特征之一,可用于衡 量抽样误差的大小,更重要的是可以用于参数的区 间估计和对不同组之间的参数进行比较。
第二节 总体均数的估计 一、可信区间的概念(Confidence Interval)
数学处理,实际中很少使用。
(二)离均差平方和(Sum of Square,SS)
为了克服平均偏差的缺点,可以不通过取绝
对值,而是通过取平方来避免正负抵消,即使用
离均差平方和,其计算公式为
SS ( X X ) X 2
2
( X ) 2 n
SS 通常作为一个中间统计量使用。
(三)方差 (Variance)
P95 1.90 (630 0.95 580) 0.30 2.098(mmol/L) 28
即95%单侧参考值范围为小于2.098mmol/L。
小 结
1. 描述一组观察值,除需要表示其平均水平外,
还要说明它的离散或变异的情况。
2. 衡量变异程度大小的指标有多种 : 极差、四
分位数间距、方差、标准差和变异系数。其中应用
相同的变异量度即为标准差:
S
(X X )
n 1
2

X
2
( X ) 2 n n 1
例如对于例3.1经计算有 甲患者:
X 813
2 X 133713
n5
133713 8132 / 5 S 19.49(mmHg) 5 1
同理乙患者: S 2.88(mmHg)
有些指标如白细胞数过高或过低均属异常 (a) ,
故其参考值范围需要分别确定下限和上限,称作双
侧。有些指标如 24 小时尿糖含量仅在过高 (b) 、肺 活量仅在过低时为异常 (c) ,只需确定其上限或下 限,称作单侧参考值范围。
(a)白细胞数参考值范围
(b)24小时尿糖参考值范围
(c)肺活量参考值范围
相关文档
最新文档