抽样误差与可信区间
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Page12
t分布的演化
• 根据中心极限定理的内容,当样本含量足够大时,对从均 数为μ,标准差为σ的任意总体中随机抽样所得的样本均数 进行标准化变换,有
Xi ~ N (0,1) ni
Page 13
t分布的演化
• 由于总体标准差往往是未知的,此时往往用样本标准差代 替总体标准差,
X t ~ t s n
主要内容(Content)
• 抽样误差及其规律性 • 标准误 • 抽样分布与t分布
• 可信区间
• 总结
Page 1
抽样误差的定义
• 为了估计七岁男童的平均身高(总体均数),研究者从所 有符合要求的七岁男童中每次随机抽取100人,共计抽取了 三次。
X 118.21cm s =4.45cm
X 120.18cm s =4.90cm
X 120.81cm s =4.33cm
Page 2
Leabharlann Baidu
抽样误差的定义
• 三次抽样得到了不同的结果,原因何在?
不同男童的 身高不同
Page 3
抽样误差
• 定义:
★★★★ ★
• 由于个体变异的存在,由抽样引起的样本统计量与总体参数间 的差别。
• 原因:个体变异+抽样 • 表现: • 不同样本统计量间的差别 • 样本统计量与总体参数间的差别
t界值表
单侧: P(t <=-tα,ν)= α或 P(t >=tα,ν)= α 双侧: P(t <=-tα,ν)+ P(t >=tα,ν)= α 即:P(-tα,ν<t <tα,ν)= 1-α [例] 查t界值表得t值表达式 t 0.05,10=2.228 (双侧) t 0.05,10=1.812 (单侧)
Page 6
X Population C Population B
X Population A
X Population D
X
n=2 n=4 n=10 n=25
Sampling Distribution of sample means Sampling Distribution of sample means0
Page 19
参数估计之一:点估计
• 用样本统计量作为总体参数的估计 • 简单易行 • 未考虑抽样误差 例如: 用样本均数作为总体均数的一个估计
Page 20
点估计
• 总体:某市2001年所有7岁男童的身高 • 样本:n=120 mean=123.62 s=4.75 • 点估计:本市7岁男童的平均身高为123.62, 标准差为4.75
Page 10
减少抽样误差的方法
(1)改进抽样方法,增加样本的代表性。 样本量 n 相等的情况下: 整群抽样>单纯随机抽样>系统抽样>分层抽样 (2) 增加样本量n (3)选择变异程度较小的研究指标
Page11
样本均数的抽样误差之特点
• • • • 各样本均数未必等于总体均数; 样本均数间存在差异; 样本均数的分布很有规律; 样本均数的变异较之原变量的变异大大缩小
X
X
X
X
Sampling Distribution of sample means
Sampling Distribution of sample means
7
标准误的定义
• 样本统计量(如均数)也服从一定的分布; • 与描述观测值离散趋势的指标类似,我们使用 样本统计量的标准差来反映抽样误差的大小。 又称标准误(standard error)。
这里,ν为自由度,取值为n-1
• 由W.S. Gosset提出
Page 14
t分布的图形
自由度分别为1、5、 ∞时的 t 分布 =∞(标准正态曲线) f ( t)
=5
0.3 0.2 0.1
=1
-4
Page 15
-3
-2
-1
0
1
2
3
4
t分布的性质
• t分布为一簇单峰分布曲线。 • t分布以0为中心,左右对称。 • 分布的高峰位置比 u 分布低,尾部高。即相同 的尾部面积对应的界值,比 u 分布大。例如: P=0.05,u=1.64,而自由度为10的 t分布界值, t = 1.812。 • t分布与自由度有关,自由度越小,t分布的峰 越低,而两侧尾部翘得越高;自由度逐渐增大 时,t分布逐渐逼近标准正态分布;当自由度为 无穷大时,t分布就是标准正态分布。 • 每一自由度下的t分布曲线都有其自身分布规律。 Page 16 t界值表 。
Page 8
标准误的计算
• 计算公式为
X
n
其中,σ为总体标准差,n为抽样的样本例数 • 在研究工作时,由于总体标准差常常未知,可以利用样本标准 差近似估计
s sX n
Page 9
标准误的意义
• 反映了样本统计量(样本均数,样本率)分布 的离散程度,体现了抽样误差的大小。 • 标准误越大,说明样本统计量(样本均数,样 本率)的离散程度越大,即用样本统计量来直 接估计总体参数越不可靠。反之亦然。 • 标准误的大小与标准差有关,在例数n一定时, 从标准差大的总体中抽样,标准误较大;而当 总体一定时,样本例数越多,标准误越小。说 明我们可以通过增加样本含量来减少抽样误差 的大小。
-t
0
t
Page 17
统计推断
• 所谓统计推断(statistical inference), 是指如何抽样,以及如何用样本性 质推断总体特征。
• 参数估计(parameter estimation) • 假设检验(hypothesis testing)
Page 18
• 参数估计
• 点估计(Point Estimation) • 区间估计(Interval Estimation)
• 抽样误差是不可避免的! • 抽样误差是有规律的!
Page4
抽样误差的重要性
总体
同质个体、个体变异 随机 抽样
样本
代表性、抽样误差
总体参数
未知
统计 推断
样本统计量已
知
风 险
Page 5
样本均数的抽样分布规律
• 中心极限定理
从均数为μ,标准差为σ的正态总体中随机抽样,样 本均数服从均数为μ,标准差为 n 的正态分布。 从均数为μ,标准差为σ的任意总体中随机抽样, 当样本含量足够大时,样本均数近似服从均数为μ, 标准差为 n 的正态分布。
点估计的缺陷
μ=?cm σ=?cm
x =143.3747
S= 5.2347 x1,x2,x3…x10
x1,x2,x3,x4……