四川大学 医学统计 第三讲正态分布和总体均数估计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
-0.069
样本均数直方图
25 20 15 10 5 0
3.90 3.92 3.94 3.96 3.98 4.00 4.02 4.04 4.06 4.08 4.10 4.12
正态总体样本均数抽样分布的特点
各样本均数未必等于总体均数; 样本均数之间存在差异; 样本均数分布基本服从正态分布; 样本均数的变异范围较变量的变异范围小; 随着样本含量增加,样本均数的变异范围逐渐
正态分布曲线下,中央部分面积为90%,
95%,99%(1-)时x1 , x2的值。
0.4
0.3
0.2
1-
0.1
/2
/2
0
0
1
2
3 x14
5
6x2 7
8
9
10
0.4
z/2
0.3
0.2
0.1
0
-4
-3
-2
-1
0
1
2
3
4
0.5
0.4
0.3
0.2
0.1
0
0
1
2
3
4
5
6
7
8
/2
查表
z/2
第三讲 正态分布和总体均数估计
潘杰
副教授,华西公共卫生学院 Email: panjie.jay@scu.edu.cn 《医学统计学》,2015年3月10日
上讲回顾
频数表 直方图

集中趋势



离散趋势
分布形式
对称分布
X
偏态分布、分布不明、 开口或有极端值资料
M
S
P75 P25
上讲回顾
频数分布表和频数分布图
下限:x -1.96s =55.26-1.960.38=54.52(1012/L)
上限:x +1.96s =55.26+1.960.38=56.00(1012/L)
该地正常成年男子红细胞数的95%参考值范围 (54.521012/L, 56.001012/L)
制定正常值范围时注意事项
均值为0,标准差为1的正态分布;
表示为:Z~N(0, 1);
密度函数
(z)
1
z2
e 2 , z
2
标准正态分布z~N(0, 1)
-4
-2
0
2
4
标准正态分布的转换
按式z X 进行变量变换, 得到标准正态 分布:
x
P( X x) F ( x) f ( x)dx
X ~ N (6.0,1.52 )
z x
P( X 3) F(3) 换元
(z) ( 3 6) (2) 查表
1.5
1 2 3 4 5 6 7 8 9 10 11
29
血糖水平3.0~7.5mmol/L之间的大学生所占比例
X ~ N(, 2)
n 100 x 6.0mmol / L s 1.5mmol / L
1
2
3
4
5
6
7
8
9 10
μ=5,σ=1.0
0.5
0.4
0.3
0.2
ຫໍສະໝຸດ Baidu
0.1
0
0
1
2
3
4
5
6
7
8
9 10
μ=5,σ=1.0
μ=4,σ=1.0
0.5 0.4 0.3 0.2 0.1
0 0
1
2
3
μ=5,σ=1.0
4
5
6
μ=5,σ=1.5
7
8
9 10
μ=5,σ=2.0
正态分布的特征
正态曲线在横轴上方均数处最高; 正态分布以均数为中心,左右对称;
8-6
问题提出
已知150例7岁男童的平均身高为123.8cm, 标准差为4.7cm,试估计该地所有7岁男童身 高的总体均数?
进一步地,如果我们再随机抽取一份样本, 得到平均身高为126.9cm,此时总体平均身 高的点估计是多少?
那么,123.8cm V.S. 126.9cm,哪一个结论 更接近总体均数?
一、样本均数的抽样分布
个体变异
同质总体中的个体间存在的差异。
抽样误差(sampling error)
由个体变异产生的、随机抽样引起的样本统计 量与总体参数间的差异。
产生原因:个体变异; 产生条件:抽样研究中; 表现形式:总体参数与样本统计量之间的差异
的度量指标。
模拟实验:从总体N(4.0, 0.22)中抽出100个 n=30的样本的均数、标准差
特点
事前,不能确定其结果(取值); 事后(大量观察后),其结果(取值)有一定
规律。
基本概念
分布
随机变量各种结果(取各种值)的概率的规律, 称为分布规律。
每一个取值的概率
离散型随机变量分布
可直接获取每一个取值的概率
连续型随机变量分布
正态分布 无法一一获取,通过积分获得
医学参考值范围常用方法
正态分布法
适用于正态或近似正态分布资料。 双侧界值:
X z 2s
单侧上界:
X z s
单侧下界:
X z s
医学参考值范围常用方法
对数正态分布法:
适用于对数正态分布资料 双侧界值:
lg1 (lg x z 2 slg x )
样本编号
1 2 3 4 5 6 7 … 100 均数 均数的标准误
x
3.995 3.962 3.966 3.975 3.985 3.979 4.001
… 4.069 4.001 0.004
s
0.213 0.233 0.262 0.212 0.189 0.192 0.186
… 0.236
误差 (-x) 0.005 0.038 0.034 0.025 0.015 0.021 -0.001
b
b
a
P(a x b) f ( x)d x f ( x)d x f ( x)d x F (b) F (a)
a


a
b
二、标准正态分布
正态分布
不同均值和标准差形成不同位置和形状正态分布;
标准正态分布(standard normal distribution)
百分位数法:
常用于偏态分布资料; 双侧界值:P2.5和P97.5 单侧上界: P95 单侧下界: P5
引例
某地调查正常成年男子200人的红细胞数得
均数 x =55.26×1012/L,标准差
s=0.38×1012/L,试估计该地正常成年男 子红细胞数的95%参考值范围。
因红细胞数过多或过少均属异常,故取双侧。
95%
33
常用的三个区间
1.645区间面积占总面积(或总观察例
数)的90%。
1.96区间面积占总面积(或总观察例数)
的95%。
2.58区间面积占总面积(或总观察例数)
的99%。
调查100名大学生早餐前血糖水平,得:x
6.0mmol/L,s=1.5mmol/L,设血糖水 平服从正态分布,求:
频数表的编制,频数分布的两个特征(集中趋势 和离散趋势)和频数分布的类型(对称分布和偏态 分布),频数表的用途。
集中趋势的描述
算术平均数,几何均数及中位数的意义,计算 方法和适用范围;结合中位数介绍百分位数的 意义,计算方法和应用。
上讲回顾
离散趋势的描述
离散程度常用指标如极差,四分位数间距,方 差,标准差,变异系数的意义,计算方法,优 缺点及适用范围。
缩小。
非正态总体样本均数抽样分布的特点亦是。
大数定理
lim
n
p

1 n
n i 1
Xi




1
当样本容量n 充分大时,可以用 样本平均估计总体平均。
lim
x

1
1( x )2
z x
z
e 2 dx (z)dz
2

z1
z2

e 2 dz (z)
2
标准正态分布曲线下面积
从-到z的曲线下面积(z) 可通过查附表2 获得
曲线下横轴上的总面积为100%或1,即
() =1
中间95%大学生的血糖水平。
解: 1.96
2.制定医学参考值范围
也称医学正常值范围; 它是指所谓“正常人”的解剖、生理、生化
等指标的波动范围; 所谓“正常人”不是指“健康人”,而是指
排除了影响所研究指标的疾病和有关因素的 同质人群。
医学参考值范围制定步骤
1.确定观察对象和抽取足够的观察单位; 2.测定方法应该统一、准确; 3.决定是否分组制定参考值范围; 4.确定取双侧或单侧参考值范围; 5.选定适当的百分界限; 6.选择制定一些参考值范围的方法。
f (x)
1
e
( x )2 2 2
2
x
其中、为常数,为圆周率,e为自然底数;
称X服从参数为 , 2的正态分布;
亦称高斯(Gauss)分布;
记作 X ~ N ( , 2 )。
正态分布的图形
0.5
0.4
0.3
0.2
0.1
0
0
x za 2
z 2 x
x z 2
32
标准正态分布z~N(0, 1)
z
2

x
x


z
2
z 2
X z 2 S
-4
-3 -2.58 --12.96 -1.65 -1
0
1 1.65 1.962 2.58 3
4
99%
90%

当分布不是标准正态分布,先按式 z X 求得z值,再查表求得曲线下某区间的面积 。
z
(z) (z)dz P(Z z) z
(z) 1 (z)
(z)
(z)
z
z
当分布不是标准正态分布
P(X≤x)=F(x)
F(x) 定积分
x
0.5 X~N(, 2) 换元积分 z
0.4
(z)
0.3
Z~N(0, 1)
0.4
0.3
0.2
0.2
0.1
0.1
0
0
1
2
3
4
5
6
7
8
查表
0
-4
-3
-2
-1
0
1
2
3
4
三、正态分布的应用
估计频率分布; 制定医学参考值范围; 质量控制; 正态分布是许多统计方法的理论基础。
1.估计总体变量值的频率分布
调查100名大学生早餐前血糖水平,得:x
基本概念
连续型随机变量X的分布
获得其密度函数f(x) 分布函数
������
������ ������ = ������(������)������������
−∞
������ ������ ≤ ������ = ������ ������
一、正态分布
若X的概率密度函数(d.f.)为:
正态分布有两个参数,即均数与标准差
X~N(, 2);
曲线下面积表示相应的概率
x
P( X x) F ( x) f ( x)dx 概率分布函数
分布函数与密度函数几何意义
0.5
0.4
0.3
0.2
F(x)
y f (x)
0.1
0 0 1 2 3 4 5 6 7 8 9 10
6.0mmol/L,s=1.5mmol/L,设血糖水 平服从正态分布,求:
血糖水平3.0mmol/L以下的大学生所占比例; 血糖水平3.0~7.5mmol/L之间的大学生所占比
例; 中间95%大学生的血糖水平。
血糖水平3.0mmol/L以下大学生所占比例
X ~ N(, 2)
n 100 x 6.0mmol / L s 1.5mmol / L
X ~ N (6.0,1.52 )
P(3 X 7.5)
F (7.5) F (3)
( 7.5 6) ( 3 6)
1.5
1.5
(1) (2)
[1 (1)] (2)
查表
1 2 3 4 5 6 7 8 9 10 11
30
已知概率求界值
8-7
本讲提要
正态分布
正态分布概念、特征及应用
均数的抽样误差与标准误
样本均数的抽样分布、均数的标准误
t分布
t分布的概念、特征、界值
总体均数的估计
点估计、区间估计
第一节 正态分布及其应用
基本概念
随机变量
(医学领域中)某事件观察到的或试验的各种 可能结果,称为随机变量;
要确定一批样本含量足够大的“正常人”; 需根据指标的实际用途确定单侧或双侧界值; 根据研究目的和实用要求选定适当的百分界值,
如80%,90%,95%,和99%,常用95%; 根据资料的分布特点,选用恰当的计算方法 。
其他应用
质量控制; 正态分布是许多统计方法的理论基础。
第二节 均数的抽样误差与标准误
问题提出
已知150例7岁男童的平均身高为123.8cm, 标准差为4.7cm,试估计该地所有7岁男童身 高的总体均数?
8-5
问题提出
已知150例7岁男童的平均身高为123.8cm, 标准差为4.7cm,试估计该地所有7岁男童身 高的总体均数?
进一步地,如果我们再随机抽取一份样本, 得到平均身高为126.9cm,此时总体平均身 高的点估计是多少?
相关文档
最新文档