人群健康研究的统计学方法(二)考试答案和讲义
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
人群健康研究的统计学方法(二)
A
B
C
D
A
B
C
D
A
B
C
D
A
B
C
D
A
B
C
D
A
B
C
D
全距与资料的离散程度的关系是(A
B
C
D
人群健康研究的统计学方法(二)
北京大学公共卫生学院刘爱萍
一、描述集中趋势的指标--几何平均数
几何平均数( G )是将 n 个观察值的乘积再开 n 次方的方根,或者将各个观察值都取对数以后求均数,再取对数均数的反对数。
几何平均数适用于描述非对称分布资料和等比资料(观测值呈倍数关系或近似倍数关系资料)的集中趋势。
如临床上抗体的平均滴度、药物的平均效价等比资料,均可用几何平均数描述其集中趋势。
二、描述离散趋势的指标
离散程度是指各个观测值距离均数的远近。
离散趋势是描述资料离散程度的指标,用于说明一组同值资料离散度的大小。
如 PPT17 中的三组资料,均数相同,而各观察值离均数的远近不同,因而离散程度不同。
描述离散趋势的指标常用指标有:全距、四分位数间距、方差和标准差、变异系数。
(一)全距( R )
全距即是极差,是一组资料的最大值与最小值之差。
全距越大说明资料的离散程度越大。
对于一组观测值,它只考虑了最大值和最小值,因此不能全面的反应一组资料的离散程度。
(二)四分位数间距( Q )
四分位数间距是将一组资料分为四等分,上四分位数用表示,下四分位数我们用表示。
Q 值越大,资料的离散程度越大。
它常用于描述偏态分布资料的离散程
度。
它比全距稳定,考虑了更多的变量值,但未考虑到每个观察值,仍不能全面的反应一组资料的离散程度。
描述偏态分布资料的集中程度的指标是中位数和几何平均数。
(三)方差(σ 2 )和标准差(σ、 s )
离均差平方和的均数称作方差。
离均差指一组观测值中的每一个值与均数相减得到的差值。
方差的单位是原单位的平方,为了用单位表示,将方差开平方得到标准差。
方差和标准差是描述正态分布资料离散程度的指标。
可全面描述一组资料的离散趋势。
总体方差的公式为:σ 2 = ∑( x i - μ) 2 /N ;
样本方差的公式为: S 2 = ∑( x i - ) 2 /(n-1) ;
标准差的计算公式为:
( n 是例数, n-1 是自由度)
要全面描述一组观测值,必同时描述集中趋势和离散趋势。
方差和标准差的用途有:第一,它是反应一组观测值离散程度的指标,标准差越小离散程度越小,均数的代表性越好。
第二,用于计算变异系数,描述离散程度的另一个指标。
第三,计算标准误。
第四,标准差结合均数与正态分布的规律,估计医学参考值的范围。
(四)变异系数( CV )
比较度量衡单位不同或者均数相差悬殊的两组或多组资料的变异程度时,要用变异系数进行比较。
如身高和体重的比较。
婴儿和幼儿的身高、体重增长比较,由于相差悬殊,须用
变异系数进行比较。
它等于标准差除以均数乘以百分之百( CV=S/ × 100% )。
变异系数没有单位。
三、正态分布的特征和面积分布规律
正态分布是以均数为中心,左右对称,正态分布曲线在横轴上方均数处最高,它有 2 个参数,即均数和标准差。
标准正态分布的均数和标准差分别是 0 和 1 。
正态曲线在均数±1.96s 、标准正态分布在均数± 1s 处各有 1 个拐点。
正态分布曲线下的面积有一定规律性,理论上,μ± 1 σ、μ± 1.96 σ和μ± 2.58 σ的区间各占曲线下面积的68.27% 、 95% 和 99% ,对于任何一个正态分布曲线下的面积是 100% 。
如前述频数分布图、直方图,当把例数逐渐增大,组距逐渐缩小,可形成了正态分布曲线。
可以将服从正态分布的随机变量 X 进行标准正态变换,称 Z 变换或 U 变换。
正态分布主要应用在制定医学参考值的范围。
制定的医学参考范围时,第一,要求样本含量足够大,一般是 100 例。
第二,确定单、双侧界值。
如尿铅,只制定一个上限,健康人不得超过某个值,称做单侧界值。
某个指标既不能高于某个值也不能低于某个值,则需要确定双侧界值。
第三步,根据研究目的和实用要求选定适当的百分界值。
常用 95% 。
第四是根据分布的特点选用计算方法,估计参考值范围。
方法取决于观测值的资料类型。
第五,
对于正态分布资料的 95% 的参考值范围,双侧是± 1.96s 。