正态分布及抽样误差

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
首先计算标准离差:
u 2500 3150 1.86 350
查标准正态分布表: (-1.86)=0.0314
结果:估计低体重儿的比例为3.14%.
质量控制
质量控制的意义
监控日常工作、科研过程、生产过程中 误 差的变化,分析变化的趋势是否出现异常, 从而引起警觉和注意,以便分析原因,并 及时采取措施。
方法
双侧 单侧下限 单侧上限
正态分布法 X u / 2 s X u s X u s

20 ~ 29岁正常成年男子尿酸浓度
x 350.24(mol / L), s 32.97
求双侧95%的参考值范围:
下限 上限
x 1.96s 350.24 32.97 285.62(mol / L)
x 1.96s 350.24 32.97 414.86(mol / L)
总结
正态分布是描述个体变异的重要分布之一,也是 统计学理论中的重要分布之一;
正态分布是一簇分布,由两个参数决定:均数和 标准差;
正态分布曲线下的面积是有规律的,且与标准正 态分布曲线下的面积对应(以标准正态离差为 单位)。
样本均数的均数为 μ; 样本均数的标准差为
x
。n
46
中心极限定理(central limit theorem)
Case 2:
从非正态分布总体(均数为μ,方差为σ)中随 机抽样(每个样本的含量为n),可得无限多个 样本,每个样本计算样本均数,则只要抽样 次数足够大(n>50),样本均数也近似服从正态 分布。
参考值范围确定的原则
选定同质的正常人作为研究对象 控制检测误差 判断是否分组(性别,年龄组) 选择百分界值(90%,95%) 确定可疑范围 单、双侧问题
单侧与双侧参考值范围
根据医学专业知识确定!
双侧:白细胞计数,血清总胆固醇, 单侧:上限: 转氨酶,尿铅,发汞 ……
下限: 肺活量,IQ,
参考值范围的估计方法
-3 -2 - + +2 +3
-4 -3 -2 -1 0 1 2 3 4
正态曲线下的面积规律
S(-, -3)=0.0013 S(-, -2)=0.0228 S(-, -1)=0.1587 S(-, -0)=0.5
S(-3, -2)=0.0215 S(-2, -1)=0.1359 S(-1, )=0.3413
42
抽样误差的表现
抽 样 误 差 的 表 现
样本均数和 总体均数间 的差别 X i
样本均数和 样本均数间 的差别 Xi X j
43
抽样误差
★★★★★
定义:
由于个体变异的存在,由抽样引起的样本统计量与总体 参数间的差别。
原因:个体变异+抽样
表现:
不同样本统计量间的差别
样本统计量与总体参数间的差别
V(x2)=S22,则x1+x2的方差为?
49
标准误与标准差(1)
联系:
都表示变异的大小;
SX S / n
样本含量一定时,标准差越大,标准误越大。
标准误与标准差(2)
标准差 含义:
一组变量值离散程度; 标准差越小,均数的代表性越好;
应用: 估计参考值范围; 与n的关系:样本含量越大,标准差越稳定,n 很大时,
正态曲线下的面积规律
X轴与正态曲线所夹面积恒等于1 。 对称区域面积相等。
S(-, -X)
S( +X,)=S(-, -X)
X
正态曲线下的面积规律
对称区域面积相等。
S(-x1, -x2)
S(x1,x2)=S(-x2,-x1)
-x1 -x2
x2 x1
正态曲线下的面积规律
S(-, )=0.5 S(-, -1)=0.1587 S(-, -2)=0.0228 S(-, -3)=0.0013
-3 -2 - + +2 +3
-4 -3 -2 -1 0 1 2 3 4
正态曲线下的面积规律
2.5%
95%
2.5%
-1.96
+1.96
正态曲线下的面积规律
90%
5%
5%
-1.64
+1.64
正态曲线下的面积规律
0.5%
-2.58
99%
0.5%
+2.58
思考
S(-1.96, +1.64)=?
正态曲线下的面积规律
Sampling Distribution of sample means
X Population B
Population A
X
X
Population D
X
X X
X
SamplinΒιβλιοθήκη Baidu Distribution of sample means
Sampling Distribution of sample means
标准正态分布
标准正态分布(standard normal distribution)是均数为0,标 准差为1的正态分布。
记为N(0,1)。 标准正态分布是一条曲线。 概率密度函数:
( X ) 1 eu2 2 2
(-∞< u <+∞)
正态分布转换为标准正态分布
若 X~N(,2),作变换:
u X ~ N (0,1)
合 计 120
0.0083 0.0167 0.0833 0.1834 0.3083 0.2167 0.1250 0.0333 0.0167 0.0083
1.0000
7
身高的分布
8
正态分布的概率密度函数
如果随机变量X的概率密度函数
f (X)
1
2
( X )2
e
2 2
(-∞< X <+∞)
则称X服从正态分布,记作X~N(,2),其中,
Sampling Distribution
of sample means 53
与样本含量的关系
n 越大,均数的均数就越接近总体均数; n 越大,变异越小,分布越窄;
对称分布接近正态分布的速度,大于非对称分 布。分布越偏,接近正态分布所需样本含量 就越大。
54
抽样误差的规律性(1)
均数的抽样误差规律:
为什么如此摆放奖品? 平时,我们很少有人会去关心小球下 落位置的规律性,人们可能不相信它是 有规律的。
高尔顿钉板试验
4
正态分布的背景-高尔顿钉板试验
x -8 -7 -6 -5 -4 -3 -2 -1 O1 2 3 4 5 6 7 8
这条曲线就是我们将要介绍的正态分布曲线。 5
频 0.40 率
0.30
S(-, +1)=0.8413
S(-, +2)=0.9772 S(-, +3)=0.9987
S(-, )=1
-3 -2 - + +2 +3
-4 -3 -2 -1 0 1 2 3 4
正态曲线下的面积规律
1-S(- , +)=0.3174 1-S(-2 , +2)=0.0456 1-S(-3 , +3)=0.0026
0.20
0.10
0
124
132
140
148
156
164
图 某市120名12岁男童身高(cm)的频数分布
6
极差=160.9-125.9=35
分10组,组距=极差/10=35/10=3.5,组距取 4
下界 124 ,上界164
组段 频数
频率
124~ 1 128~ 2 132~ 10 136~ 22 140~ 37 144~ 26 148~ 15 152~ 4 156~ 2 160~164 1
参考值范围(reference interval)
参考值范围又称正常值范围(normal range)。 什么是参考值范围:
是绝大多数正常人的某观察指标所在的范围。 绝大多数:90%,95%,99%等等。
确定参考值范围的意义:
用于判断正常与异常。
“正常人”的定义:
排除了影响所研究的指标的疾病和有关因素的同质 的人群。
需要掌握的内容
正态分布的性质 正态曲线下面积的分布规律 参考值范围确定的原则和方法
抽样误差及其规律性
Sampling variability and its attributes
从一个例子来谈抽样误差
假如事先知道某地七岁男童的平均身高为 119.41cm。研究者从所有符合要求的七岁男 童中每次抽取100人,共计抽取了五次。
标准差趋向于总体标准差。
标准误与标准差(3)
标准误 含义:
样本统计量的离散程度; 标准误越小,用样本均数来反映总体均数越可靠;
应用: 计算可信区间; 与n的关系:
样本含量越大,均数的标准误越小,n很大时,标准误 趋向于0。
样本均数的抽样分布
n=2 n=4 n=10
X Population C
n=25
则u服从标准正态分布。 u称为标准正态离差(standard normal
deviate)
标准正态分布曲线下面积(u)
u
0.00 0.02 0.04 0.06 0.08
-3.0 0.0013 0.0013 0.0012 0.0011 0.0010
-2.5 0.0062 0.0059 0.0055 0.0052 0.0049
抽样误差是不可避免的! 抽样误差是有规律的!
44
均数的抽样误差之特点
各样本均数未必等于总体均数; 样本均数间存在差异; 样本均数的分布很有规律;
45
中心极限定理(central limit theorem)
Case 1:
从正态分布总体N(μ,σ) 中随机抽样(每个样 本的含量为n[如10]),可得无限多个样本[如 1000次],每个样本计算样本均数,则样本 均数也服从正态分布。
38
μ=119.4cm σ = 4.38cm
119.4 u
122.7 121.0 118.1 108.3 124.5 121.1 115.8 120.9 117.9 ……
x = 118.4cm
S =4.41cm
39
μ=119.41cm σ= 4.38cm
X 118.21cm s=4.45cm
X 120.18cm s=4.90cm
样本均数的均数为 μ; 样本均数的标准差为
x

n
47
标准误(standard error)
样本统计量的标准差称为标准误。
样本均数的标准差称为均数的标准误。
均数的标准误表示样本均数的变异度。
x
n
sx
s n
这个公式是怎 么来的?
前者称为理论标准误,后者称为样本标准误。
48
已知变量x的方差V(x)=S2,则2x的方差为? 已知变量x1的方差V(x1)=S12,变量x2的方差
正态分布及其应用
Normal distribution and its applications
统计学中最重要的理论分布之一
正态分布(Normal distribution)
法国概率论学者狄莫弗 德国数学家Gauss 最早用于物理学、天文学 Gaussian distribution
2
3
正态分布的背景-一个街头赌博游戏
为分布的均数, 为分布的标准差。
正态分布图示
.4
f(x)
.3
.2
.1
0
x
方差相等、均数不等的正态分布图示
3 1 2
均数相等、方差不等的正态分布图示
2
1 3
正态分布的特征
正态分布有两个参数(parameter),即位置参数 (均数)和变异度参数(标准差)。
高峰在均数处; 均数两侧完全对称。 正态曲线下的面积分布有一定的规律。
在样本含量足够大时,无论总体分布如何,其均数 的分布趋于正态分布
55
如果样本含量较小时均数的抽样分布
f(t)
(标准正态曲线)
0.3
=3

0.2
0.1
-4 -3 -2 -1 0 1 2 3 4
-0.5 0.3085 0.3015 0.2946 0.2877 0.2810
0
0.5000 0.4920 0.4840 0.4761 0.4681
u0
正态分布的应用
估计频数分布 质量控制 确定临床参考值范围
估计频数分布
某项目研究婴儿的出生体重服从正态分布,其均 数为3150g,标准差为350g。若以2500g作为低 体重儿,试估计低体重儿的比例。
正态曲线下面积总和为1; 正态曲线关于均数对称;对称的区域内面积相等; 对任意正态曲线,按标准差为单位,对应的面积相等;
-1.64~ +1.64内面积为90%; -1.96~ +1.96内面积为95%; -2.58~ +2.58内面积为99%。 小于-3的面积为 0.13%; 小于-2的面积为 2.28%; 小于- 的面积为15.87%。
X 117.78cm s=3.98cm
X 120.81cm s=4.33cm
X 119.87m s=5.15cm
40
导致总体均数与样本均数、样本均数之间有差 别的可能原因是?
41
抽样误差的定义
五次抽样得到了不同的结果,原因何在?
不同男童的 身高不同
每次抽到的 人几乎不同
个体变异
随机抽样
抽样误差
-2.0 0.0228 0.0217 0.0207 0.0197 0.0188
-1.9 0.0287 0.0274 0.0262 0.0250 0.0239
-1.6 0.0548 0.0526 0.0505 0.0485 0.0465
-1.0 0.1587 0.1539 0.1492 0.1446 0.1401
相关文档
最新文档