抽样分布与参数估计

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

三、t分布曲线下的面积分布规律
自由度为的t分布曲线
t 分布曲线下的整个面积为1, t 分布曲线下从a到b 的面积为t值分布在此范围内的百分比，即t值落在此范围内的概率P。
双侧：由于t分布以0为中心对称，即 P（t≤- t, ）＝ P（t≥ t, ）＝ /2 于是有P（- t, ≤t≤ t, ）＝1-
sx
u X
X
t X ＝n-1
s X
u分布 t分布
二、t分布图形的特点
• 1. t分布是一簇曲线。 t分布有一个参数，即自由度，与标准差的自由度一致。
• 2. t分布曲线以0为中心，左右对称；越小， t变量值的离散程度越大，曲线越扁平。
• 3. t分布曲线较标准正态曲线要扁平些（高峰低些，两尾部翘得高些），逐渐增大， t分布曲线逐渐的逼近于标准正态曲线，若＝，则t分布曲线和标准正态曲线完全吻合。
参数估计在统计方法中的地位
统计方法
描述统计
推断统计
点值估计
参数估计
假设检验
区间估计
一、基本概念
➢ 参数估计：用样本统计量来估计总体参数。
点值估计：不计抽样误差，直接用样本均数来估计μ。
区间估计：根据抽样误差的规律，按一定的概率估计总体均数的所在范围。统计上习惯用95% 或99%可信区间表示总体均数可能所在范围。
第一节均数的抽样误差第二节 t分布第三节总体均数可信区间的估计
一、抽样研究:从总体中随机抽取部分观察单位构成样本，用样本信息去推断总体特征的研究方法。
统计推断的过程
总体
样
样本统计量
本
例如：样本均
值、比例
二、抽样误差：在抽样研究中，因抽样造成的样本统计量与样本统计量、样本统计量与总体参数的差值。
总体均数的95%置信区间表示的实际涵义是：如果从同一总体中重复抽取100份样
本含量相同的独立样本，每份样本分别计算1个置信区间，在100个置信区间中，将大约有95个置信区间覆盖总体均数，大约有5个置信区间并不覆盖总体均数。
9
8
7
6
5
4
3
2
1
0
0
10
20
30
40
50
60
70
80
90
100
通常情况下，我们只进行一次抽样，对于某一次估计的置信区间，我们总是宣称这个区间覆盖了总体均数，但不一定是真的覆盖了总体均数，于是，我们补充一句：置信水平为95%。
（3）联系：两者均为变异指标；样本含量不变时，均数的标准误与标准差成正比；
两者均可与均数结合使用（但描述的内容各不相同）
标准差（s）
计算公式 s (X X )2
n 1
（1）表示观察值的变异程度
（2）计算变异系数 CV= s 100%
X
（3）确定医学参考值范围（4）计算标准误
标准误
s s Xn （1）估计均数的抽样误差的大小（2）估计总体均数可信区间
１、中心极限定理：
（１）从正态分布资料中，随机抽取例数n 的样本，其样本均数也服从正态分布；当n足够大时（n大于30），从偏态总体中抽样，其均数也近似于正态分布。
（２）从正态分布资料中，随机抽取例数n 的样本，其样本均数的总体均数也为μ，其标准差为 X 。
=10
= 50
X
总体分布
n= 4
X k (sk )
u Hale Waihona Puke (X )/u (X )/ X
均数μ标准差为
均数μ标准差为 X
若σ未知，人们只能用S代替，从而获得
以 SX
代替 X
，显然 X X ，它
X
SX
不再服从标准正态分布。
W.S.Gosett于1908年用笔名student研究了它的分布规律，称之为t分布。
X ~ t分布， n 1
可信区间有两个要素：准确度和精密度。
准确度反映在可信度（1-α）的大小上，即可信区间包含总体均数的可能性大小，从准确性的角度看，愈接近1 愈好。如，可信度 99%比95%好；
精密度反映在可信区间的宽度上，即长度愈小愈好。在抽样误差确定的情况下，二者是相互矛盾的，若提高了可信度，可信区间势必增大，精密度下降。
所以资料不同总体均数的估计方法也不同。
（一）正态分布法适用条件：σ已知或σ未知但n较大时（n>30）
x u
n
或 x u
s n
x_
x 2.58 x x 1.96 x
X
x 2.58 x
x 1.96
x
95% 的样本 99% 的样本
例3.3 测得某地110名18岁男大学生身高 X =172.73cm，s=4.19cm，估计该地18岁男大学生身高均数的 95%可信区间。
单侧： P（t≤- t, ）＝或 P（t ≥t, ）＝
由上可知，单侧和双侧2的t界值相
同，即单侧t,＝双侧t2, 。
如＝20时，单侧t0.05,20=双侧t0.10,20。
从t界值表中亦可看出：在相同自由度时， t
值越大，概率P越小；在相同t值时，双侧概率P为单侧概率P的两
倍，即t0.10/2,16=t0.05,16=1.746
（2）估计总体均数的可信区间。
（3）用于均数的假设检验。
４、标准误与标准差的区别与联系
（1）概念不同标准差是描述样本个体值间的变
异，标准差小，说明变量值围绕均数的波动小，均数的代表性好。标准误是描述样本均数的抽样误差，标准误越小，表示样本均数围绕总体均数的波动小。
（2）用途不同
标准差表示变量值对均数的波动大小，当资料呈正态分布时，与均数结合估计参考值范围、计算变异系数、标准误等。而标准误表示样本统计量对总体参数的波动情况，用于估计参数的可信区间、进行假设检验。
• 本例n=110, X =172.73cm，s=4.19cm，双侧u0.05=1.96
(172.73 1.96 4.19 ,172.73 1.96 4.19 )
110
110
(171.97,173.49)
即：该地18岁男大学生身高均数的95%可信区间为171.97cm～173.49cm
（二）t分布法
适用条件：σ未知且n较小时（n<30）
X t , (s / n )
例7-15 以表7-10第一个10球样本为例，求其总体均数的95%及 99%可信区间。
X 1.007, sX 0.0235 , n 10
查t值表： t(0.05,9) 2.262,t(0.01,9) 3.250
95%可信区间：X （t 0.05，9）sx 1.0070 2.262 0.0235 （0.9588 ~ 1.0602）
以样本均数作为随机变量，有以下特点：
（1）各样本均数未必等于总体均数。（2）样本均数之间存在差异。（3）样本均数的分布很有规律，围绕着总体
均数，中间多、两边少，左右基本对称。
（4）样本均数的变异范围较之原变量的变异范围大大缩小。
数理统计研究表明，抽样误差具有
一定的规律性，可以用特定的指标来描述。样本均数的标准差（简称标准误， standard error）是描述均数的抽样误差大小的指标。
( X t , s X , X t , s X )
（3）进行假设检验
一、t分布的概念
对于正态变量X
N(μ, 2)
u (X )/ 0 1
N(0, 1)
如果我们从一个总体中抽取无数个样本含量n 足够大的样本，样本均数的分布服从正态分布：
抽出无数个样本含量为n的样本随机抽样
X 1 (s1 ) X 2 (s2 )
3. 在已知均数为μ, 标准差为σ的正态总体中随机抽样，
( )的X概率为 5%。
A. 1.96
B. 1.96 X
t S C. 0.05/ 2,
D. t S 0.05/ 2, X
t E. 0.05/ 2, X
4. ( )小，表示用该样本均数估计总体均数的可靠性（或精密度）大。
A. CV
B. B. S
C. 当∞时，tZ
D. t分布图以0为中心，左右对称
E. 相同时， t越大，P越大
2.某指标的均数为 X ，标准差为S，由公
式 X 1.96S, X 1.96S 计算出来的区间称为( )。
A. 99%参考值范围 B. 95%参考值范围 C. 99%置信区间 D. 95%置信区间 E. 90%置信区间
x 5
n =16
x 2.5
x 50
X
抽样分布
偏态分布总体
x
n
当样本容量足够大时(n 30) ，样本均值的抽样分布逐渐趋于正态分布
x
X
２、标准误的计算
x
n
理论标准误
实际工作中，常用S代σ
s s
x
n
n增加时，可降低抽样误差
样本标准误
３、均数标准误的用途：
（1）衡量样本均数的可靠性由于均数标准误越小，均数的抽样误差越小，样本均数就越可靠。
99%可信区间：X （t 0.01，9）sx 1.0070 3.250 0.0235 （0.9306 ~ 1.0834）
可信区间与医学参考值范围不同
区别点
意义生理
均数的可信区间
参考值范围
包含总体均数的可 “正常人”的解剖、
能范围
生化指标的波动范围
计算公式
(X
t
,
s X
,
X
t , sX
)
C.
X
D. R
E. 四分位数间距
[计算题]
某地抽查120份黄连中小蘖碱含量（mg/100g)得平均数为4.38，标准差为0.18，假设数据服从正态分布，问：
（1）95%的黄连样品中小蘖碱含量在什么范围？（2）估计黄连中小蘖碱含量总体均数在什么范围？
（1）根据公式 X 1.96s得：
(4.38 1.96 0.18) (4.02,4.73)
例如：从某地7岁男童中随机抽取110名，测得平均身高为119.95cm，该样本均数不一定等于该地7岁男童身高的总体均数，这种样本均数与总体均数间的差别，称为均数的抽样误差。
原因：个体变异
特征：A不可避免性；B可控性
三、均数的抽样误差
现以表7-1中120个125I-T3比值写在 120个玻球上当作一个均数µ=1.005，标准差为σ=0.087的假设总体，放在布袋中做随机抽样实验，每次抽取10个数据为一样本，计算平均数，重复抽取100次，共算得100个样本均数，见表7-10。
可信区间
样本统计量 (点估计)
下限
上限
➢可信区间的概念
μ的1-α可信区间指一个范围，该范围包含μ 在内的可能性为1-α，不包含μ在内的可能性为α。
常用的可信区间为95%和99% 。
➢可信限的概念
是指可信区间的下限和上限，即可信区间的两个端点值，可信区间是指以上、下可信限为界的一个范围(但不包含上下限两个值，故用（）表示其为开区间)。
因此，需要同时兼顾准确度与精确度，一般情况下，常用95%可信区间。
区间与置信水平
均值的抽样分布
x
/2
1-
/2
X
x
(1 - ) % 区间包含了 % 的区间未包含
二、总体均数的区间估计方法
X 服从于正态分布
X
X
s 服从于自由度＝n-1的t分布 X X
当自由度较大时 s 趋近于正态分布 X
（2）根据公式 X 1.96sX 得：
(4.38 1.96 0.18 / 120 ) (4.35,4.41)
( X u sX , X u sX )
(X u X , X u X )
(X us, X us)
X u s（单） X u s（单）
用途
估计总体均数
判断观察对象的某项指标是否正常
[最佳选择题]
1.关于以0为中心的t分布，错误的是（） A. t分布图是一簇曲线 B. t分布图是单峰分布