抽样分布与参数估计
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
三、t分布曲线下的面积分布规律
自由度为 的t分布曲线
t 分布曲线下 的整个面积为1, t 分布曲线下从a到b 的面积为t值分布 在此范围内的百分 比,即t值落在此 范围内的概率P。
双侧:由于t分布以0为中心对称,即 P(t≤- t, )= P(t≥ t, )= /2 于是有P(- t, ≤t≤ t, )=1-
sx
u X
X
t X =n-1
s X
u分布 t分布
二、t分布图形的特点
• 1. t分布是一簇曲线。 t分布有一个参数, 即自由度 ,与标准差的自由度一致。
• 2. t分布曲线以0为中心,左右对称; 越小, t变量值的离散程度越大,曲线越扁平。
• 3. t分布曲线较标准正态曲线要扁平些(高 峰低些,两尾部翘得高些), 逐渐增大, t分布曲线逐渐的逼近于标准正态曲线,若 =,则t分布曲线和标准正态曲线完全吻 合。
参数估计在统计方法中的地位
统计方法
描述统计
推断统计
点值估计
参数估计
假设检验
区间估计
一、基本概念
➢ 参数估计:用样本统计量来估计总体参数。
点值估计:不计抽样误差,直接用样本均数来 估计μ。
区间估计:根据抽样误差的规律,按一定的概 率估计总体均数的所在范围。统计上习惯用95% 或99%可信区间表示总体均数可能所在范围。
第一节 均数的抽样误差 第二节 t分布 第三节 总体均数可信区间的估计
一、抽样研究:从总体中随机抽取部分 观察单位构成样本,用样本信息去 推断总体特征的研究方法。
统计推断的过程
总体
样
样本统计量
本
例如:样本均
值、比例
二、抽样误差:在抽样研究中,因抽样造 成的样本统计量与样本统计量、样本统计 量与总体参数的差值。
总体均数的95%置信区间表示的实际涵义 是:如果从同一总体中重复抽取100份样
本含量相同的独立样本,每份样本分别计 算1个置信区间,在100个置信区间中,将 大约有95个置信区间覆盖总体均数,大约 有5个置信区间并不覆盖总体均数。
9
8
7
6
5
4
3
2
1
0
0
10
20
30
40
50
60
70
80
90
100
通常情况下,我们只进行一次抽样,对 于某一次估计的置信区间,我们总是宣 称这个区间覆盖了总体均数,但不一定 是真的覆盖了总体均数,于是,我们补 充一句:置信水平为95%。
(3)联系:两者均为变异指标;样本含 量不变时,均数的标准误与标准差成正比;
两者均可与均数结合使用(但描述的内容 各不相同)
标准差(s)
计算公式 s (X X )2
n 1
(1)表示观察值的变异程度
(2)计算变异系数 CV= s 100%
X
(3)确定医学参考值范围 (4)计算标准误
标准误
s s Xn (1)估计均数的抽样误差的大小 (2)估计总体均数可信区间
1、中心极限定理:
(1)从正态分布资料中,随机抽取例数n 的样本,其样本均数也服从正态分布;当n足 够大时(n大于30),从偏态总体中抽样,其 均数也近似于正态分布。
(2)从正态分布资料中,随机抽取例数n 的样本,其样本均数的总体均数也为μ,其 标准差为 X 。
=10
= 50
X
总体分布
n= 4
X k (sk )
u Hale Waihona Puke (X )/u (X )/ X
均数μ标准差为
均数μ标准差为 X
若σ未知,人们只能用S代替,从而获得
以 SX
代替 X
,显然 X X ,它
X
SX
不再服从标准正态分布。
W.S.Gosett于1908年用笔名student研究了它的 分布规律,称之为t分布。
X ~ t分布, n 1
可信区间有两个要素:准确度和精密度。
准确度反映在可信度(1-α)的大小上,即 可信区间包含总体均数的可能性大小,从准 确性的角度看,愈接近1 愈好。如,可信度 99%比95%好;
精密度反映在可信区间的宽度上,即长度愈 小愈好。在抽样误差确定的情况下,二者是 相互矛盾的,若提高了可信度,可信区间势 必增大,精密度下降。
所以资料不同总体均数的估计方法也不同。
(一)正态分布法 适用条件:σ已知或σ未知但n较大时(n>30)
x u
n
或 x u
s n
x_
x 2.58 x x 1.96 x
X
x 2.58 x
x 1.96
x
95% 的样本 99% 的样本
例3.3 测得某地110名18岁男大学 生身高 X =172.73cm,s=4.19cm, 估计该地18岁男大学生身高均数的 95%可信区间。
单侧: P(t≤- t, )= 或 P(t ≥t, )=
由上可知,单侧和双侧2的t界值相
同,即单侧t,=双侧t2, 。
如=20时,单侧t0.05,20=双侧t0.10,20。
从t界值表中亦可看出:在相同自由度时, t
值越大,概率P越小; 在相同t值时,双侧概率P为单侧概率P的两
倍, 即t0.10/2,16=t0.05,16=1.746
(2)估计总体均数的可信区间。
(3)用于均数的假设检验。
4、标准误与标准差的区别与联系
(1)概念不同 标准差是描述样本个体值间的变
异,标准差小,说明变量值围绕均数 的波动小,均数的代表性好。标准误 是描述样本均数的抽样误差,标准误 越小,表示样本均数围绕总体均数的 波动小。
(2)用途不同
标准差表示变量值对均数的波动大 小,当资料呈正态分布时,与均数结合 估计参考值范围、计算变异系数、标准 误等。而标准误表示样本统计量对总体 参数的波动情况,用于估计参数的可信 区间、进行假设检验。
• 本例n=110, X =172.73cm,s=4.19cm, 双侧u0.05=1.96
(172.73 1.96 4.19 ,172.73 1.96 4.19 )
110
110
(171.97,173.49)
即:该地18岁男大学生身高均数的95%可信 区间为171.97cm~173.49cm
(二)t分布法
适用条件:σ未知且n较小时(n<30)
X t , (s / n )
例7-15 以表7-10第一个10球样本 为例,求其总体均数的95%及 99%可信区间。
X 1.007, sX 0.0235 , n 10
查t值表: t(0.05,9) 2.262,t(0.01,9) 3.250
95%可信区间:X (t 0.05,9)sx 1.0070 2.262 0.0235 (0.9588 ~ 1.0602)
以样本均数作为随机变量,有以下特点:
(1)各样本均数未必等于总体均数。 (2)样本均数之间存在差异。 (3)样本均数的分布很有规律,围绕着总体
均数,中间多、两边少,左右基本对称。
(4)样本均数的变异范围较之原变量的变异 范围大大缩小。
数理统计研究表明,抽样误差具有
一定的规律性,可以用特定的指标来描 述 。样本均数的标准差(简称标准误, standard error)是描述均数的抽样误差 大小的指标。
( X t , s X , X t , s X )
(3)进行假设检验
一、t分布的概念
对于正态变量X
N(μ, 2)
u (X )/ 0 1
N(0, 1)
如果我们从一个总体中抽取无数个样本含量n 足够大的样本,样本均数的分布服从正态分布:
抽出无数个样本含量为n的样本 随机抽样
X 1 (s1 ) X 2 (s2 )
3. 在已知均数为μ, 标准差为σ的正态总体中随机抽样,
( )的X概率 为 5%。
A. 1.96
B. 1.96 X
t S C. 0.05/ 2,
D. t S 0.05/ 2, X
t E. 0.05/ 2, X
4. ( )小,表示用该样本均数估计总体均 数的可靠性(或精密度)大。
A. CV
B. B. S
C. 当∞时,tZ
D. t分布图以0为中心,左右对称
E. 相同时, t越大,P越大
2.某指标的均数为 X ,标准差为S,由公
式 X 1.96S, X 1.96S 计算出来的区间称为( )。
A. 99%参考值范围 B. 95%参考值范围 C. 99%置信区间 D. 95%置信区间 E. 90%置信区间
x 5
n =16
x 2.5
x 50
X
抽样分布
偏态分 布总体
x
n
当样本容量足够 大时(n 30) , 样本均值的抽样 分布逐渐趋于正 态分布
x
X
2、标准误的计算
x
n
理论标准误
实际工作中,常用S代σ
s s
x
n
n增加时,可降低抽样误差
样本标准误
3、均数标准误的用途:
(1)衡量样本均数的可靠性 由于均数 标准误越小,均数的抽样误差越小,样 本均数就越可靠。
99%可信区间:X (t 0.01,9)sx 1.0070 3.250 0.0235 (0.9306 ~ 1.0834)
可信区间与医学参考值范围不同
区别点
意义 生理
均数的可信区间
参考值范围
包含总体均数的可 “正常人”的解剖、
能范围
生化指标的波动范围
计算公式
(X
t
,
s X
,
X
t , sX
)
C.
X
D. R
E. 四分位数间距
[计算题]
某地抽查120份黄连中小蘖碱含量(mg/100g)得平 均数为4.38,标准差为0.18,假设数据服从正态 分布,问:
(1)95%的黄连样品中小蘖碱含量在什么范围? (2)估计黄连中小蘖碱含量总体均数在什么范围?
(1)根据公式 X 1.96s得:
(4.38 1.96 0.18) (4.02,4.73)
例如:从某地7岁男童中随机抽取110名,测得 平均身高为119.95cm,该样本均数不一定等于 该地7岁男童身高的总体均数,这种样本均数与 总体均数间的差别,称为均数的抽样误差。
原因:个体变异
特征:A不可避免性;B可控性
三、均数的抽样误差
现以表7-1中120个125I-T3比值写在 120个玻球上当作一个均数µ=1.005,标 准差为σ=0.087的假设总体,放在布袋中 做随机抽样实验,每次抽取10个数据为 一样本,计算平均数,重复抽取100次, 共算得100个样本均数,见表7-10。
可信区间
样本统计量 (点估计)
下限
上限
➢可信区间的概念
μ的1-α可信区间指一个范围,该范围包含μ 在内的可能性为1-α,不包含μ在内的可能性为α。
常用的可信区间为95%和99% 。
➢可信限的概念
是指可信区间的下限和上限,即可信区间的两个 端点值,可信区间是指以上、下可信限为界的一个 范围(但不包含上下限两个值,故用()表示其为开 区间)。
因此,需要同时兼顾准确度与精确度,一般 情况下,常用95%可信区间。
区间与置信水平
均值的抽样分布
x
/2
1-
/2
X
x
(1 - ) % 区间包含了 % 的区间未包含
二、总体均数的区间估计方法
X 服从于正态分布
X
X
s 服从于自由度=n-1的t分布 X X
当自由度 较大时 s 趋近于正态分布 X
(2)根据公式 X 1.96sX 得:
(4.38 1.96 0.18 / 120 ) (4.35,4.41)
( X u sX , X u sX )
(X u X , X u X )
(X us, X us)
X u s(单) X u s(单)
用途
估计总体均数
判断观察对象的某 项指标是否正常
[最佳选择题]
1.关于以0为中心的t分布,错误的是( ) A. t分布图是一簇曲线 B. t分布图是单峰分布