2.正态分布及抽样误差

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

标准误与标准差(1)
联系:
都表示变异的大小;
SX S / n
样本含量一定时,标准差越大,标准误越 大。
标准误与标准差(2)
标准差 含义: 一组变量值离散程度; 标准差越小,均数的代表性越好; 应用: 估计参考值范围; 与n的关系:样本含量越大,标准差越稳定,n 很 大时,标准差趋向于总体标准差。
M+3SD
M+2SD
M
M-2SD
M-3SD
1
2
3
4
5
6
7
8 9 测量
10 11 12 13 14 15

27
参考值范围(reference interval)
参考值范围又称正常值范围(normal range)。 什么是参考值范围: 是绝大多数正常人的某观察指标所在的范围。 绝大多数:90%,95%,99%等等。 确定参考值范围的意义: 用于判断正常与异常。 “正常人”的定义: 排除了影响所研究的指标的疾病和有关因素 的同质的人群。
1-S(- , +)=0.3174
-3 -2 - + +2 +3
-4
-3
-2
-1
0
1
2
3
4
正态曲线下的面积规律
S(-, -3)=0.0013
S(-, -2)=0.0228
S(-3, -2)=0.0215
S(-2, -1)=0.1359
3
1
2
均数相等、方差不等的正态分布图示
2 1
3
正态分布的特征
正态分布有两个参数(parameter),即位 置参数(均数)和形态参数(标准差)。 高峰在均数处; 均数两侧完全对称。 正态曲线下的面积分布有一定的规律。
正态曲线下的面积规律
X轴与正态曲线所夹面积恒等于1 。 对称区域面积相等。

+1.64
正态曲线下的面积规律
99%
0.5%
0.5%
-2.58

+2.58
思考
S(-1.96, +1.64)=?
92.5%
正态曲线下的面积规律
正态曲线下面积总和为1; 正态曲线关于均数对称;对称的区域内面积相等; 对任意正态曲线,按标准差为单位,对应的面积相等; -1.64~ +1.64内面积为90%; -1.96~ +1.96内面积为95%; -2.58~ +2.58内面积为99%。 小于-3的面积为 0.13%; 小于-2的面积为 2.28%; 小于- 的面积为15.87%。
均数标准误的计算
例:某市16岁女中学生的身高均数(μ)为 155.4cm,标准差(σ)为5.3cm n=10
X 5.3 / 10 1.68(cm)
与样本含量的关系
n 越大,均数的均数就越接近总体均数; n 越大,变异越小,分布越窄; 对称分布接近正态分布的速度,大于非 对称分布。分布越偏,接近正态分布所 需样本含量就越大。
正态分布的应用
估计频数分布 质量控制 确定临床参考值范围
估计频数分布
某项目研究婴儿的出生体重服从正态分布,其 均数为3150g,标准差为350g。若以2500g作 为低体重儿,试估计低体重儿的比例。 首先计算标准离差: 2500 3150 u 1.86 350


均数的抽样误差之特点
各样本均数未必等于总体均数; 样本均数间存在差异; 样本均数的分布很有规律,围绕总体均 数,中间多两边少,左右基本对称; 样本均数的变异范围较之原变量的变异 范围大大缩小; 随着样本含量的增加,样本均数的变异 范围逐渐缩小。
中心极限定理(central limit theorem)
模拟试验
假设一个已知总体,从该总体中多次抽样,对 每个样本计算样本统计量(均数、方差等),观 察样本统计量的分布规律--抽样分布规律。 考察: 不同的分布 不同的样本含量 对统计量的影响。
均数的模拟试验
从不同总体中进行抽样,观察均数的抽样分布规律。 偏三角分布总体 均匀分布总体 指数分布总体 U型分布总体 考察: 样本均数的均数与总体均数有何关系? 样本均数的标准差与总体标准差有何关系? 样本均数的分布形状如何? 不同的样本含量对上述性质的影响如何?
S(-,-X)
S(X,)=S(-,-X)

正态曲线下的面积规律
对称区域面积相等。
S(-x1, -x2)
S(x1,x2)=S(-x2,-x1)
-x1 -x2

x2 x1
正态曲线下的面积规律
S(-, )=0.5 S(-, +1)=0.8413 S(-, +2)=0.9772 S(-, +3)=0.9987 S(-, )=1
-1.9
-1.6 -1.0 -0.5 0
0.0287 0.0274 0.0262 0.0250 0.0239
0.0548 0.0526 0.0505 0.0485 0.0465 0.1587 0.1539 0.1492 0.1446 0.1401 0.3085 0.3015 0.2946 0.2877 0.2810 0.5000 0.4920 0.4840 0.4761 0.4681 u 0
u
X

~ N (0,1)
则u服从标准正态分布。 u称为标准正态离差(standard normal deviate)
标准正态分布曲线下面积(u)
u
-3.0 -2.5 -2.0 0.00 0.02 0.04 0.06 0.08 0.0013 0.0013 0.0012 0.0011 0.0010 0.0062 0.0059 0.0055 0.0052 0.0049 0.0228 0.0217 0.0207 0.0197 0.0188
从已知总体中抽样
μ =0 σ =1
x =0.3747
S= 1.2473
x =0.0681
S =0.7245
样本含量n =10 抽样次数m =10000
x =-0.1703
S = 0.9248
Sampling distribution for means
X Population A Population B X Population C X Population D X
f(x)
.4
.3
wk.baidu.com
.2
.1
0
x
正态分布的概率密度函数
如果随机变量X的概率密度函数
f (X )
1
2
e

( X )2 2 2
(-∞< X <+∞)
则称 X 服从正态分布 , 记作 X ~ N(,2), 其中, 为分布的均数, 为分布的标 准差。
方差相等、均数不等的正态分布图示
S(-, -1)=0.1587
S(-, -0)=0.5
S(-1,
)=0.3413
-3
-2 -

+ +2 +3
-4
-3
-2
-1
0
1
2
3
4
正态曲线下的面积规律
95%
2.5%
2.5%
-1.96

+1.96
正态曲线下的面积规律
90%
5%
5%
-1.64
样本均数的均数为 μ;
样本均数的标准差为 x

n

标准误(standard error)
样本统计量的标准差称为标准误。
样本均数的标准差称为均数的标准误。 均数的标准误表示样本均数的变异度。
x
sx

s
n
n
当总体标准差未知时,用样本方差代替,
前者称为理论标准误,后者称为样本标准误。
+ +2 +3
S(-, -1)=0.1587 S(-, -2)=0.0228
S(-, -3)=0.0013
-3 -2 -
-4
-3
-2
-1
0
1
2
3
4
正态曲线下的面积规律
1-S(-3 , +3)=0.0026
1-S(-2 , +2)=0.0456
Case 1: 从正态分布总体N(μ,σ) 中随机抽样(每个样 本的含量为 n) ,可得无限多个样本,每个样 本计算样本均数,则样本均数也服从正态分 布。
样本均数的均数为 μ; 样本均数的标准差为 x

n

中心极限定理(central limit theorem)
Case 2: 从非正态(nonnormal)分布总体(均数为μ,方差 为σ)中随机抽样(每个样本的含量为n),可得无 限多个样本,每个样本计算样本均数,则只要 样本含量足够大(n>50),样本均数也近似服从正 态分布。
参考值范围的估计方法
方法 正态分布法 双侧 单侧下限 单侧上限
X u / 2 s
X u s
X u s

20 ~ 29岁正常成年男子尿酸浓度
x 350.24( mol / L), s 32.97
求双侧95%的参考值范围: 下限
x 1.96 s 350.24 32.97 285.62( mol / L) x 1.96s 350.24 32.97 414.86( mol / L)
查标准正态分布表: (-1.86)=0.0314 结果:估计低体重儿的比例为3.14%.
质量控制
质量控制的意义
监控日常工作、科研过程、生产过程中 误差的变化,分析变化的趋势是否出 现异常,从而引起警觉和注意,以便 分析原因,并及时采取措施。
质量控制图(quality control chart)
正态分布及其应用
Normal distribution
and its applications
统计学中最重要的理论分布之一
正态分布(Normal distribution)

法国概率论学者狄莫弗 德国数学家Gauss 最早用于物理学、天文学 Gaussian distribution
2
正态分布的背景-一个街头赌博游戏
标准正态分布
标准正态分布(standard normal distribution)是均数为0, 标准差为1的正态分布。 记为N(0,1)。 标准正态分布是一条曲线。 概率密度函数:
(X )
1 2
e
u2 2
(-∞< u <+∞)
正态分布转换为标准正态分布
若 X~N(,2),作变换:
上限
总结
正态分布是描述个体变异的重要分布之一,也 是统计学理论中的重要分布之一; 正态分布是一簇分布,由两个参数决定:均数 和标准差; 正态分布曲线下的面积是有规律的,且与标准 正态分布曲线下的面积对应(以标准正态离差为 单位)。
需要掌握的内容
正态分布的性质 正态曲线下面积的分布规律 参考值范围确定的原则和方法
为什么如此摆放奖品? 高尔顿钉板试验
3
正态分布的背景-高尔顿钉板试验
-8 -7 -6 -5 -4 -3 -2 -1 O 1 2 3 4 5 6 7 8
x
4
频 率
0.40
0.30 0.20
0.10
0
124 132 140 148 156 164

某市120名12岁男童身高(cm)的频率分布
5
正态分布图示
X
n=2
X
n=4
X
n=10
X
n=25
Sampling Distribution of sample means Sampling Distribution of sample means Sampling Distribution of sample means Sampling Distribution of sample means
抽样误差及其规律性
Sampling variability and its attributes
了解抽样误差规律的重要性
总体
同质个体、个体变异
随机 抽样
样本
代表性、抽样误差
总体参数
未知
统计 推断
样本统计量已

风 险
抽样误差(sampling error)



由抽样引起的样本统计量与总体参数间 的差别。 原因:个体变异+抽样 表现: 样本统计量与总体参数间的差别 不同样本统计量间的差别 抽样误差是有规律的!
参考值范围确定的原则
选定同质的正常人作为研究对象 控制检测误差 判断是否分组(性别,年龄组) 选择百分界值(90%,95%) 确定可疑范围 单、双侧问题
单侧与双侧参考值范围
根据医学专业知识确定! 双侧:白细胞计数,血清总胆固醇, 单侧:上限: 转氨酶,尿铅,发汞 …… 下限: 肺活量,IQ,
相关文档
最新文档