第四章 抽样分布与参数估计(1)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

样本均数的标准误计算公式:
常未知

X

n
样本均数的标准误的估计值计算公式:
S SX n
举例1 2000年某研究者随机调查某地健康成年男子
27人,得到血红蛋白量的均数为125g/L,标
准差为15g/L。试估计该样本均数的抽样误差。
二、样本频率的抽样分布与标准误
(一)摸球实验 1 (n=35) 2 3
由个体变异引起的、抽样造成的样本均数之间、样 本均数与总体均数之间的差异。
2 样本均数的标准误(standard error of mean)
表示均数抽样误差大小的指标,称样本均数的标 准差,也称样本均数的标准误。
样本均数的标准误计算公式:
常未知

X

n
样本均数的标准误的估计值计算公式:
S SX n
笔名发表论文,证明统计量 t 服从自由度ν = n-1
的t分布,即
X X t ~ t分布, n 1 SX S n
二、 t 分布的图形和界值表
(一)图形
v=∞ v=5
v=1
t 分布与自由度ν =(n-1) 有关,t 分布的图形 不是一条曲线,而是一簇曲线。
(二)图形特征
二、总体均数置信区间的计算
(一)t分布法
t分布法:σ未知,且样本含量n不大。 根据 t 分布原理,可得到:
P(t / 2, t t / 2, ) 1
总体均数的双侧置信区间
P(t / 2, t t / 2, ) 1
样本均数的标准误与标准差成正比,
与样本含量平方根成反比;
样本均数的标准误反映了样本均数的
离散程度;
也反映了样本均数抽样误差的大小。
若随机变量X~N( ,2 ),
则 X ~ N (, ) 。
2 X
若从非正态总体中 抽样,样本均数的 分布如何
总体均数为1, 总体标准差为1。
图2
指数分布图
.0675
16
22 15 7 7 5 3
16.0
22.0 15.0 7.0 7.0 5.0 3.0
37.0~40.0
合计
2
100
2.0
100.0
(二)标准误(standard error ) 1 频率的抽样误差
由于个体差异与偶然性的影响所致的样本频 率与样本频率之间,样本频率与总体频率之 间的差异。 2 频率的标准误 表示频率抽样误差的指标。
第二节
一、 t 分布的概念 随机变量X N(,2 ) 均数 X 2 N(, X )
Z
t 分布
Z
X
标准正态分布 N(0,1 ) 标准正态分布 N(0,1 ) 常未知, 用 S X 估计
2 2

X
X
X ≠Z SX
=t
一、 t 分布的概念
英国统计学家W. S. Gosset于1908年以“Student”
样本含量n=4 X 的平均数=1.0133 X 的标准差=0.5031 X 的中位数 =0. 9298
Fraction
0 .051759 meanx 3.79467
图3
பைடு நூலகம்
样本均数直方图(1)
.0683
样本含量n=9 X 的平均数=0.9959 X 的标准差=0.3332 X 的中位数 =0.9574
举例3
1
10,单 =0.05, t0.05,10 1.812 ,则有
P(t 1.812) 0.05 或 P(t 1.812) 0.05
2
10,双 =0.05, t0.05 / 2,10 2.228 ,则有
P ( t 2.228) P ( t 2.228) 0.05
1 从非正态总体中抽取样本(n足够大),所得 均数分布仍近似呈正态分布,均数为 , 标准差为 X 。 2 随着样本量的增大,样本均数的变异范围 逐渐变窄。
数理统计的中心极限定理和大数定理表明:① 从正 态总体N(μ, σ2)中随机抽取含量为n的样本,其 样本均数服从正态分布;即使从偏态总体中随机抽 样,当n足够大时(如n>30),样本均数也近似正 态分布;② 从均数为μ,标准差为σ的总体中随机抽 取含量为n的样本,则样本均数的均数也为μ,样本 均数的标准差为 X 。
参数估计就是用样本统计量估计总体参数。
方法有两种:
点估计(point estimation)
区间估计(interval estimation)
(一)点估计
用样本统计量直接作为总体参数的点估计值。
即:样本均数 X 估计总体均数 ,
样本频率p估计总体频率π。
缺点:没考虑抽样误差,无法评价估计值与真 值之差距。
154.6
3.89
156.6
6.35
表1 从正态总体抽样得到的100个样本均数的频数分布
组段下限值(cm) 152.6~ 153.2~ 153.8~ 154.4~ 频数 1 4 4 22 频率(%) 1.0 4.0 4.0 22.0
155.0~
155.6~ 156.2~
25
21 17
25.0
21.0 17.0
统计推断
参数估计
estimation of parameters
统计推断
Inferential statistics
假设检验
test of hypothesis
第四章 抽样分布与参数估计
主要内容
抽样分布与标准误 t 分布 总体均数及总体率的估计
第一节 抽样分布与标准误
一、样本均数的抽样分布与标准误 (一)样本均数抽样分布的模拟实验
156.8~
157.4~ 158.0~158.6 合计
3
2 1 100
3.0
2.0 1.0 100.0
图1 从正态总体抽样得到的100个样本均数的直方图
模拟实验
1 (n=30) 2
X
156.7
S
4.98 5.20
正态分布总体 μ= 155.4 σ=5.3
3
158.1
155.6 99
100
6.35
f( t)
自由度为1的t分布 自由度为9的t分布 标准正态分布
0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 -4 -3 -2 0.0 -1 0
t
1
2
3
4
(二)图形特征
1 单峰分布,曲线在 t=0 处最高,并以 t=0
为中心左右对称;
2 自由度越小,曲线最高处较矮,两尾部翘
的较高; 3 随自由度增大,曲线逐渐接近正态分布; 分布的极限为标准正态分布。
Fraction
0 .191269 meanx 2.73185
图4
样本均数直方图(2)
.0704
样本含量n=100 X 的平均数=0.9993 X 的标准差=0.1001 X 的中位数 =0.9958
Fraction
0 .654635 meanx 1.49848
图5
样本均数直方图(3)
中心极限定理
样本频率的标准误计算公式:
常未知

p

(1 )
n
样本频率的标准误的估计值计算公式:
S
p

p(1 p) n
频率的标准误反映了样本频率之间的
离散程度;
也反映了样本频率抽样误差的大小。
举例2
某市随机调查了50岁以上的中老年妇女776人, 其中患有骨质疏松症者322人,患病率为41.5%, 试估计该样本频率的抽样误差。
某年某地所有13岁女学生身高服从总体均数
=155.4cm,总体标准差 =5.3cm的正态
分布,从该总体中随机抽取30人为一个样本, 重复抽取100次。
模拟实验
1 (n=30) 2
X
156.7
S
4.98 5.20
正态分布总体 μ= 155.4 σ=5.3
3
158.1
155.6 99
100
6.35
p1=14.4%
p2=19.8%
p3=20.2%
π=20%
100
p100=22.5%
表2 总体概率为20%时的随机抽样结果
黑球比例(%) 5.0~ 样本频数 3 频率(%) 3.0
8.0~
11.0~ 14.0~
7
5 8
7.0
5.0 8.0
17.0~
20.0~ 22.0~ 25.0~ 28.0~ 31.0~ 34.0~
154.6
3.89
156.6
6.35
SX
样本均数的抽样分布的四个特点: 1 各样本均数未必等于总体均数;
2 样本均数之间存在差异;
3 样本均数围绕总体均数,中间多,两边 少,服从正态分布; 4 样本均数的变异比原变量的变异大大缩小。
(二)标准误(standard error )
1 均数的抽样误差
(二)区间估计
按预先给定的概率 (1 ) 确定的包含未知总体参
数的可能范围。 该数值范围通常称为参数的置信区间(confidence interval ,CI)。 预先给定的概率 或99%。
(1 ) 称为置信度。常取95%
可信区间的确切含义是指:总体参数在可信 区间内的可能性为1-α(如95%)。可信区间 通常由两个数值即可信限(confidence limit )构成。其中较小值称为下限(lower limit) ,较大的值称为上限(upper limit)。
三鹿婴幼儿奶粉事件
抽样
总体特征
统计推断
Inferential statistics
样本信息
总体参数
样本统计量
抽样研究(sampling study) 抽样研究是从研究总体中随机抽取一定数量观察单 位作为样本进行研究,通过样本的研究结果来推论
总体。
一个好的抽样研究可用尽量少的人力、物力、经费
和时间获得需要的、符合一定科学要求的结果。
1
单侧
P(t t , ) 和P(t t , )
2 双侧
P(t t / 2, ) P(t t / 2, )
由t界值表知:ν相同时,∣t∣↑,概率P↓;
t值相同时,双尾P 等于2倍单尾P
第三节 总体均数及总体概率的估计
一、参数估计的概念
(三)t 界值表
t界值表:反映 t 分布曲线下的面积与横轴 t 值
之间的关系,详见附表(t界值表) 。 单侧概率或单尾概率:用 t , 表示; 双侧概率或双尾概率:用 t / 2, 表示。
附表 t 界值表
自由度 单侧 双侧 1 2 3 4 5 6 7 8 9 10 21 22 23 24 25 0.25 0.50 1.000 0.816 0.765 0.741 0.727 0.718 0.711 0.706 0.703 0.700 0.686 0.686 0.685 0.685 0.684 0.20 0.40 1.376 1.061 0.978 0.941 0.920 0.906 0.896 0.889 0.883 0.879 0.859 0.858 0.858 0.857 0.856 0.10 0.20 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.323 1.321 1.319 1.318 1.316 0.05 0.10 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.721 1.717 1.714 1.711 1.708 概率,P 0.025 0.01 0.05 0.02 12.706 31.821 4.303 6.965 3.182 4.541 2.776 3.747 2.571 3.365 2.447 2.365 2.306 2.262 2.228 2.080 2.074 2.069 2.064 2.060 3.143 2.998 2.896 2.821 2.764 2.518 2.508 2.500 2.492 2.485 0.005 0.0025 0.001 0.0005 0.01 0.005 0.002 0.001 63.657 127.321 318.309 636.619 9.925 14.089 22.327 31.599 5.841 7.453 10.215 12.924 4.604 5.598 7.173 8.610 4.032 4.773 5.893 6.869 3.707 3.499 3.355 3.250 3.169 2.831 2.819 2.807 2.797 2.787 4.317 4.029 3.833 3.690 3.581 3.135 3.119 3.104 3.091 3.078 5.208 4.785 4.501 4.297 4.144 3.527 3.505 3.485 3.467 3.450 5.959 5.408 5.041 4.781 4.587 3.819 3.792 3.768 3.745 3.725
相关文档
最新文档