第3章变异程度的统计描述

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第二步:查附表1,标准正态分布曲线下面积。 Φ(-2.05)=0.0202 Φ(-1.89)=0.0294 (1.89查不到)
1 0.0294 0.9706
5.5 4.78 4 4.78 P(4.00 X 5.5) ( ) ( ) 0.38 0.38
[1 (1.89)] (2.05)
f ( X )X i ( fi / n)
正态分布的密度函数:
1 f (X ) e 2 ( X )2 2 2
-∝ < x < ∝

(X )
n
2
在 μ 和 σ 未知的情况下,可用 σ 的估计值。
和 x S作为 μ 和
正态分布的几个特征
• 以均值μ为中心,左右对称 • 曲线下的面积集中在以均数为中心的部分,越 远离中心,曲线下面积越小。 • 正态曲线下面积分布有一定规律: 范围内的面积为68.3% 1.96 范围内的面积为95.0% 2.58 范围内的面积为99.0% • 正态分布有两个参数,μ和σ
• 若横坐标为红细胞数(变量值X),第i组的 组距和人数分别用△Xi和fi表示,则在( X, X+△Xi )区间内每单位红细胞数的频率为:
f(X)称作密度函数 将前图表示人数的纵坐标换成f(X)后可 以得到下图:
f ( X ) ( fi / n) / X i
矩形面积等于红细胞在这一区间内出现的频率
二、标准正态分布
(Standard normal distribution)是均数为 0,标准差为1的正态分布。 对任何参数μ和σ的正态分布,都可以通 过一个简单的变量变化转成标准正态分 布,即
u
x

1 e 标准正态分布的密度函数f ( X ) 2
( X )2 2 2
总体平均数
5.5 4.78 4 4.78 P(4.00 X 5.5) ( ) ( ) 0.38 0.38 总体标准差 [1 (1.89)] (2.05)
(1 0.0294 ) 0.0202
0.9504
即在4×1012/L ~5.5×1012/L范围内占总人数 的95.04%。
2

(X )
N
2
S
( X x)
n 1
2
N-1 称自由度 Degree of freedom
S
x x
n 1
2
( x) x n n 1
2
2
例3.1 对甲乙两名高血压患者连续观察5天,测得 的收缩压分别为: 甲患者(mmHg) 162 145 178 142 186 x =162.6 乙患者(mmHg) 164 160 163 159 166 x =162.4 甲患者:ΣX=162+145+178+142+186=813 Σ X2=1622+1452+... + 1862=133713
身高
s 4.09 CV 100 % 100 % 2.37% 172 .73 X s 4.10 CV 100 % 100 % 7.45% 55.04 X
体重
第二节
正态分布及其应用
正态分布曲线:
指高峰位于中央(均数所在处)、两测逐渐降 低且左右对称、不与横轴相交的光滑的曲线。 以某地140名正常男子红细胞数资料为例:
甲 S
乙 S
2 2 X ( X ) /n
n 1
133713 8132 / 5 19.49(m m Hg ) 5 1
131902 8122 / 5 2.88(m m Hg ) 5 1
2 2 X ( X ) /n
n 1
大样本频数表资料可用下列公式计算标准差:
红细胞数 组中值(x) (1) (2) 3.80~ 3.90 4.00~ 4.10 4.20~ 4.30 4.40~ 4.50 4.60~ 4.70 . . 5.80~ 5.90 合计
S
2 2 fX ( fX ) /n
n 1
3224 .2 669.82 / 140 0.38 (×1012/L) 140 1
(二)四分位数间距(quartile)Q
• 四分位数间距(quartile interval,Q)就是 上四分位数QU(即P75)与下四分位数间距 QL(即P25)之差。 • 其间包含了全部观察值的一半,单位与 原观察值相同。 • 四分位数间距越大,则数据的变异度越 大;反之,说明变异度越小。
0
25
50
75
100
四分位数间距与中位数一起可全面描述偏态分布 资料的分布特征。
630 0.25 27 P25 40 ( ) 30 6.32(mg / dl ) 169
630 0.75 457 P75 130 ( ) 30 135 .7(mg / dl ) 81
第三章
变异程度的统计描述
变异是生物医学数 据最显著的特征。
学习目的和要求
掌握:
描述数据分布离散趋势的指标;正态分布的概念和 特征、标准正态分布下面积分布规律。
熟悉:
医学参考值范围的意义和计算;
了解:
正态分布表、正态分布的应用。
描述数值变量资料的分布特征必须从集中趋势和离 散趋势两方面来进行,缺一不可。
Q=135.7-63.2=72.5(mg/dl)
例2.4 某地630名正常女性血清甘油三酯含量的频数表 甘油三酯(mg/dl) 频数 累积频数 累积频率 (1) (2) (3) (4) 10~ 27 27 4.3 40~ 169 196 31.1 70~ 167 363 57.6 100~ 94 457 72.5 130~ 81 538 85.4 160~ 42 580 92.1 190~ 28 608 96.5 220~ 14 622 98.7 250~ 4 626 99.4 280~ 3 629 99.8 310~ 1 630 100.0 合计 630 - -
(1 0.0294 ) 0.0202
0.9504
正态分布的应用
• 是各种统计推断方法的理论基础 • 可进行医学参考值范围的估计 • 可进行误差分析和检测的质量控制
表 2- 2
某地140名正常男子红细胞数的频数表
频数 (4) 2 6 11 25 32 27 17 13 4 2 1 频率 (5) 1.4 4.3 7.9 17.9 22.9 19.3 12.1 9.3 2.9 1.4 0.7
红细胞数 划记 组中值 1012 / L (1) (2) (3) 3.80~ T 3.90 4.00~ 正一 4.10 4.20~ 正正一 4.30 4.40~ 正正正正正 4.50 4.60~ 正正正正正正T 4.70 4.80~ 正正正正正 T 4.90 5.00~ 正正正T 5.10 5.20~ 正正 T 5.30 5.40~ 5.50 5.60~ T 5.70 5.80~6.00 一 5.90
等比级数或对数正态分布资料 偏态分布、分布不明或分布末端无确 定值的资料
用标准差比较两个样本的变异程度时需注意:
1. 两组数据的均数相差不大
2. 单位相同(标准差使用的度量衡单位与
原始数据相同)
(五)变异系数(coefficient of variation,CV)
例3.3 已知:舒张压均数为77.5 标准差为10.7 收缩压均数为122.9 标准差为17.1
(二)离均差平方和(sum of square, SS)
(X X )
2
(X X ) X
2
2

( X ) n
2
( 三 ) 方差与标准差 (variance, standard deviation,S 或SD)

2Байду номын сангаас
(X ) N
2
S
2
( X x) n 1
S
fX
2
fx
n
2
n 1
例3.2
根据第2章表2-2资料计算其标准差
频数(f) fx fx2 (3) (4)=(2)(3) (5)=(2)(4) 2 7.80 30.42 6 24.60 100.86 11 47.30 203.39 25 112.50 506.25 32 150.40 706.88 . . . 1 5.90 34.81 140 669.80 3224.20
1 (u) e 2
u2 2
当均数为 0,标 - <u< 准差为1时
标准正态分布的分布函数
(u)
u

1 e 2
u2 2
du
分布函数求标 准正态曲线下 的面积。
一旦完成了这种变换,就可以利用标准正态 分布表求出与原始变量X有关的概率值。 例如: 成年男子红细胞数近似服从正态分布, 均数为4.78 (×1012/L) ,标准差为0.38 (×1012/L) 。现想知道红细胞数在4× 1012/L以下所占的比例? 可以先将变换为相应的u值,即:
二、离均差平方和、方差、标准差和变异系数
(一)平均偏差(mean difference)
X-X 平均偏差 n
例:
对甲乙两名高血压患者连续观察5天,测得的 收缩圧分别为:
甲患者(mmHg) 162 145 178 142 186 乙患者(mmHg) 164 160 163 159 166
x =162.6 x =162.4
S 10.7 CV 100 % 100 % 13.8% 77.5 X
S 17.1 CV 100 % 100 % 13.9% 122 .9 X
舒张压
收缩压
可见两种指标的变异度几乎没有什么差别。
例7.10 某地调查110名20男大学生,其身高均 数为172.73cm,标准差为4.09cm;其体重均数 为55.04kg,标准差为4.10kg,试比较两者变异 程度。
例:已知均数为4.78,标准差为0.38
u
u X
X

4 4.78 2.05 0.38

查附表1(P194),标准正态曲线下左侧尾部面 积,得Φ(-2.05)=0.0202,即在4×1012/L以下 者占总人数的2.02%。
若需要求出在4×1012/L~5.5×1012/L范围 内所占的比例,可以通过下面计算获得。
例:成年男子红细胞数近似服从正态分布,均数 为4.78 (×1012/L) 标准差为0.38 (× 1012/L) , 现想知道红细胞数在4×1012/L~5.5×1012/L范围 内所占的比例。
第一步:进行U变换
u
X

X
4 4.78 2.05 0.38
u

5.5 4.78 1.89 0.38
• 在所有的变异指标中,标准差或方 差是其它变异指标所不能比拟的。 • 标准差能够直接用于代数运算,如 根据来自总体的几个样本的标准差 可以直接求得合并样本的标准差, 而不必根据合并样本重新计算。
计量资料的主要描述性指标及其适用条件
主要指标 适用条件 对称分布、正态或近似正态分布资料 x 、s
G、lg-1Slgx M、 Q
例: 三组同年龄女大学生体重 (kg)如下,试分析其分 布特征。
甲组 46 乙组 44 丙组 45
48 47 49
51 53 52 50 55 55
57 57 56
x x x
=51 =51 =51
R=11 R=13 R=11
第一节
衡量变异程度的指标
一、极差和四分位数间距 (一)极差(range)R,也称全距。 例: 甲、乙两人高血压患者测量5天的收缩压 (mmHg)得: 甲 162 145 178 142 186 x =162.6 x =162.4 乙 164 160 163 159 166 R甲=186-142=44 R乙=166-159=7
162 -162.6+145 -162.6++186 -162.6 甲患者平均偏差= 15.52(mmHg ) 5
164 -162.4+160 -162.4++166 -162.4 乙患者平均偏差= 2.32(mmHg) 5
甲患者的血压波动较乙患者大。
• 平均偏差是一个很直观的变异度量,但 由于使用了绝对值,在数学上不便于继 续处理,使它在应用上受到很大的限制, 实际中很少使用。 • 为了克服平均偏差使用绝对值不便进一 步运算的缺点,可以不通过取绝对值, 而是通过取平方来避免正负抵消,即使 用离均差平方和。
相关文档
最新文档