最新4抽样误差和可信区间

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

t分布的性质
❖ t分布为一簇单峰分布曲线,高峰在0的位置上,说明 从正态总体中随机抽样所得样本计算出的t值接近0的 可能性较大。
❖ t分布以0为中心,左右对称。 ❖ 分布的高峰位置比 u 分布低,尾部高。
❖ t分布与自由度有关,自由度越小,t分布的峰越低,
而两侧尾部翘得越高;自由度逐渐增大时,t分布逐渐 逼近标准正态分布;当自由度为无穷大时,t分布就是 标准正态分布。
sX
s n
标准误的意义
❖ 反映了样本统计量(样本均数,样本率)分布的 离散程度,体现了抽样误差的大小。
❖ 标准误越大,说明样本统计量(样本均数,样本 率)的离散程度越大,即用样本统计量来直接估 计总体参数越不可靠。反之亦然。
❖ 标准误的大小与标准差有关,在例数n一定时, 从标准差大的总体中抽样,标准误较大;而当总 体一定时,样本例数越多,标准误越小。说明我 们可以通过增加样本含量来减少抽样误差的大小。
区间估计
【例4.1】 随机抽取某地25名正常成年 男子,测得该样本的脉搏均数为73.6 次/分,标准差为6.5次/分,估计正常 成年男子脉搏总体均数。
区间估计的实质
❖ 假设某个总体的均数为µ ,需要找到两 个量A和B,使得在一个比较高的可信 度下(如95%),区间(A,B)能包含µ 。 即
P(A<µ <B)=0.95
3. 标准误的定义
❖ 抽 样 误 差 的 标 准 差 称 为 标 准 误 (standard error)。
❖ 样本统计量的标准差反映了从某个总体中随机 抽样所得样本之均数分布的离散程度。
标准误的计算
❖ 计算公式为
X
n
❖ 其中,σ为总体标准差,n为抽样的样
本例数
❖ 在研究工作时,由于总体标准差常常 未知,可以利用样本标准差近似估计
❖ 样本含量较大时,t分布逼近u分布
X u 0 .0 2 5 s X ,X u 0 .0 2 5 s X
例:
【例4.1】 随机抽取某地25名正常成年男子, 测得该样本的脉搏均数为73.6次/分,标准 差为6.5次/分,求该地正常成年男子脉搏总 体均数95%的可信区间。
【例4.2】 某市2001年120名7岁男童的身高 =123.62(cm) , 标 准 差 s=4.75(cm) , 计 算 该 市7岁男童总体均数90%的可信区间。
均数之差可信区间的计算
正常组
肝炎组
1=?
2=? 1- 2 =?
均 数:273.18ug/dL 标准差:9.77ug/dL
均 数: 231.86ug/dL
标准差:12.17ug/dL
X 1X 242.32
合并方差与均数之差的标准误
❖ 合并方差(方差的加权平均)
sC 2(n11 n)1s 1 2 n2(n 221)s2 2
可信区间的定义
❖ 按一定的概率或可信度(1-α)用一个区间 来估计总体参数所在的范围,该范围通 常称为参数的可信区间或者置信区间 (confidence interval,CI),预先给定的概 率(1-α)称为可信度或者置信度 (confidence level),常取95%或99%。
❖ 可信区间(CL, CU )是一开区间 CL、CU 称 为可信限
❖ 均数之差的标准误
s X1X2
sC2(n11
1) n2
Fra Baidu bibliotek
与均数之差有关的抽样分布
三. 参数估计
▪ 点估计(Point Estimation) ▪ 区间估计 (Interval Estimation)
参数估计之一:点估计
❖ 用样本统计量作为总体参数的估计
例如: 用样本均数作为总体均数的一个估计
ˆ x
区间估计
❖ 可信区间的定义 ❖ 总体均数之可信区间的求解 ❖ 均数之差的可信区间 ❖ 可信区间的要素 ❖ 正确理解可信区间的含义
4抽样误差和可信区间
主要内容(Content)
❖ 抽样误差及其规律性 ❖ 标准误 ❖ 抽样分布与t分布 ❖ 统计推断与参数估计 ❖ 总结
2. 抽样误差的规律性(分布)
既然抽样误差是有规律的, 那么到底它的分布规律到底 是怎样的?
原始 总体
μ
A Simulation Study
SAMPLE 1:x11 x12 x13 x14...x1n
均数的(1-α)100%可信区间
P(t t/2,)
P(t/2, tt/2,)1
1-
P(t/2, xsxt/2,)1
P(xt/2,sx xt/2,sx)1
/2
/2
-t/2, v
0
t/2, v
均数的95%可信区间
❖ 样本含量不是很大时,
X t 0 .0 2 5 , s X ,X t 0 .0 2 5 , s X
二.t分布
t分布的演化
❖ 由于总体标准差往往是未知的,此时 往往用样本标准差代替总体标准差,
t
X s
n
~
t
这里,ν为自由度,取值为n-1
❖ 由W.S. Gosset提出
t分布的图形
自由度分别为1、5、 ∞时的 t 分布
f(t) =∞(标准正态曲线)
=5
0.3
=1
0.2
0.1
-4 -3 -2 -1 0 1 2 3 4
t 0.05,10=2.228 (双侧) t 0.05,10=1.812 (单侧)
统计推断
❖所谓统计推断(statistical inference), 是指如何抽样,以及如何用样本 性质推断总体特征。
▪ 参数估计(parameter estimation) ▪ 假设检验(hypothesis testing)
X1
SAMPLE 2:x21 x22 x23 x24...x2n
X2
SAMPLE k:xk1 xk2 xk3 xk4...xkn
Xk
k个样本均数的频数分布图
❖ 从正态总体中随机抽样,其样本均数 服从正态分布
❖ 从任意总体中随机抽样,当样本含量 足够大时,其样本均数的分布逐渐逼 近正态分布
均数的抽样误差 x -μ的分布
❖ 每一自由度下的t分布曲线都有其自身分布规律。t界值 表。
t分布曲线下的面积
f(x)
nn21n1xn2
n12
2
-t 0 t
t界值表
单侧:
P(t <-tα,ν)= α或 P(t >tα,ν)= α 双侧:
-t 0 t
P(t <-tα/2,ν)+ P(t >tα/2,ν)= α 即:P(-tα/2,ν<t <tα/2,ν)= 1-α [例] 查t界值表得t值表达式
相关文档
最新文档