与参数估计(Estimate)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
则总体均值的置信区间为
(x x , x x )
例:从某大学学生中随机抽取100名调查体重情况。经称量和计 算,得到平均体重为58千克。根据过去的资料知道大学生体重 的标准差是10千克。在95%的置信水平下,求该大学学生平均体 重的置信区间。
解:已知 x =58,σ=10,zα/2=1.96,n=100 x =10/10=1(千克) n z / 2 =1.96×1=1.96(千克)
总体分布 (population distribution)
1. 总体中各元素的观察值所形成的分布
2. 分布通常是未知的 3. 可以假定它服从某种分布
总体
样本分布 (sample distribution)
1.
2. 3.
一个样本中各观察值的分布
也称经验分布 当样本容量n逐渐增大时,样本分布逐渐接近总 体的分布
第6章 抽样(Sampling)
与参数估计(Estimate)
重点:深刻理解抽样分布的概念及中心极限定理的意义,灵活掌握 均值和比例的区间估计方法的应用。 难点:在不同条件下的区间估计。
抽样法的特点:随机原则
部分估计总体 存在误差并可以控制
抽样法的应用:对某些不可能进行全面调查而又需要了解其
P(1 P) N n ( ) n N 1
式中,P为总体比例,实际计算时通常采用以往经验数据或
样本比例 。
例:灯泡厂从10000只灯泡中随机抽取500只检查其耐用时数, 结果如下表。该厂规定耐用时数在850以下为不合格。求平 均耐用时数及不合格率的抽样平均误差。
耐用时数 800-850 850-900 900-950 950-1000 1000-1050 1050-1100 合计 灯泡数 37 129 185 102 40 7 500
全面情况的社会经济现象,必须应用抽样法。(破坏性试验、 总体过大、单位过于分散,实际调查不可能的)
第1节 抽样与抽样分布
一、有关抽样的基本概念
总体(母体)(Population)
样本(子样)(Sample) 总体指标(总体参数)(Population parameter)
样本指标(样本统计量)(Sample statistic)
X 2.5 2 X 0.625
2、样本均值的抽样分布
样本平均数的标准差反映了样本平均数与总体平均数的平
均误差,故称之为抽样平均误差(或抽样标准差)。计算 公式: (重复抽样) x
x
n 2 N n ( ) n N 1
2
n
(1
n ) N n
(1
概率抽样的组织方式
简单随机抽样:从总体中抽取样本最常用的方法。
从容量为N的总体中进行抽样,如果容量为n 的每 个可能样本被抽到的可能性相等,则称容量为n的 样本为简单随机样本。 分层抽样:也称分类抽样或类型抽样,它是按某个 主要标志对总体各单位进行分类,然后从各层中按 随机原则分别抽取一定数目的单位构成样本。 等距抽样也称机械抽样或系统抽样。它是先将总体 单位按一定顺序排队,计算出抽样间隔(或抽样距 离),然后按固定的顺序和间隔抽取样本单位。 整群抽样:也称丛聚抽样或集团抽样。它是将总体 分为若干部分(每一部分称为一个群),然后按随机 原则从中一群一群地抽选,对抽中群内的所有单位 进行全面调查。
第3节 总体均值的区间估计
一、区间估计的基本原理
1、大数定律 大数定律主要是说明:当n足够大时,独立同分布的随机变 量的算术平均数趋近于数学期望;事件发生的频率接近于其 发生的概率。 即样本统计量接近于总体参数。 2、中心极限定理 中心极限定理是说明:当n充分大时,大量的起微小作用的 相互独立的随机变量之和趋于正态分布。
0.074(1 0.074) 500 (1 ) 500 10000
练习:
1、从某大学学生中随机抽选100名调查体重,结果平均体重




为58千克。根据过去的资料知道该校学生体重标准差为10千 克。求抽样误差。 2、某工厂共生产新型聚光灯2000只,随机抽选400只进行耐 用时间调查,结果平均寿命为4800小时,标准差为300小时。 求抽样误差。 3、从某校学生中随机抽选400名,发现戴眼镜的有80人。计 算求抽样误差。 4、一批食品罐头60000桶,随机抽查300桶,有6桶不合格。 求合格率的抽样误差。 5、假设4个人工资分别为:400、500、700、800元,现随机 抽选2人进行调查。 (1)验证 E ( x) X (2)计算重复抽样及不重复抽样的抽样平均误差。
x
P { x t / 2
s/ n s s x t / 2 } 1 n n
置信下限 x t / 2
s n
置信上限
f p 37 / 500 7.4% f
s
( x x ) 2 f 1475000 /(500 1) 54.(小时) 3 f 1
sp
p(1 p) 26%
500 2.4(小时)
重复抽样条件下 x 54.3 / n
不重复抽样条件下
P(1 P) n p (1 ) n N 1.14%
大样本(n≥30)下总体均值的区间估计
区间估计就是根据样本求出总体未知参数的估计区间,并使其
可靠程度达到预定要求。 (1) 总体方差σ 2已知时
由于
z
α ,有
x / n
2
N (0,1)
,所以对于给定的置信度1-
P{ z
x z } 1 2 / n
P x z / 2 1 即 n z z / 2 x /2 x 可见,极限误差的计算公式为 n
.3
均值和方差

x
i 1
N
i
.2 .1 0
1 2 3 4
N
N i 1
2.5
2
2 ( x ) i
N
1.25
现从总体中抽取n=2的简单随机样本,在重复抽样 条件下,共有42=16个样本。所有样本的结果为
所有可能的n = 2 的样本(共16个) 第一个 观察值 1 2 3 4 1 1,1 2,1 3,1 4,1 第二个观察值 2 1,2 2,2 3,2 4,2 3 1,3 2,3 3,3 4,3 4 1,4 2,4 3,4 4,4
计算出各样本的均值,如下表。并给出样本均值的抽 样分布

16个样本的均值(x) 第一 第二个观察值 个 观察 1 2 3 4 1 1.0 1.5 2.0 2.5 2 1.5 2.0 2.5 3.0 3 2.0 2.5 3.0 3.5 4 2.5 3.0 3.5 4.0
x x
置信下限为58-1.96=57.04,
置信上限为58+1.96=59.96 故所求置信区间为(57.04,59.96)千克。
(2 )
由于
T x s/
总体方差σ 2未知时
n
~t(n-1),对于给定的置信度1-α,有
t / 2 } 1
P {t / 2



样本平均数的抽样极限误差
x X x
x x X x x
样本比例的抽样极限误差
p P p p p P p p
抽样误差与抽样可靠性的关系
ˆ ˆ P

1
影响抽样误差的主要因素
1 、抽样单位数的多少。在其它条件不变的情况下,抽样 单位数愈多,抽样误差愈小;反之抽样单位数愈少,抽样 误差就愈大。 2、总体离散程度的高低。当其它条件不变时,总体离散 程度愈低,抽样误差愈小;反之总体离散程度愈高,抽样 误差愈大。 3、抽样方法 4、组织方式
样本均值是总体均值μ的点估计量,样本方差s2是总体方差σ2
的点估计量,样本比例p是总体比例P的点估计量。 有效性 一致性
优良估计量的标准: 无偏性
二、区间估计(Interval estimate)
抽样误差 统计调查的误差,是指调查所得结果与总体真值之间的差异。 误差的来源有登记性误差和代表性误差两大类。代表性误差分 为系统性误差和偶然性误差。抽样估计中所谓的抽样误差,就 是指这种偶然性误差或随机误差。 (1)实际抽样误差。指某一特定样本的样本估计值与总体参 数真值之间的离差。 (2)抽样平均误差。统计学中常用标准差来衡量均值的代表 性,所以抽样平均误差可以衡量样本对总体的代表性大小。 (3)抽样极限误差。指一定概率条件下抽样误差的可能范围, 也称允许误差。抽样极限误差的可能范围与抽样估计的可能性 即概率紧密相联。
x
825 875 925 975 1025 1075 ——
xf
30525 112875 171125 99450 41000 7525 462500
( x x) 2 f
370000 322500 0 255000 400000 157500 1475000
解:
xf x 462500 / 500 925 (小时) f
n ) N
可见,抽样平均误差与总体标准差成正比变化,与样本容
量的平方根成反比变化。 当总体为正态分布时,对于任何样本容量,样本平均数的 抽样分布是正态分布。若总体方差σ2未知,则可用样本方 差s2取而代之 。 样本容量很大,无论总体分布如何,样本平均数近似服从 正态分布。
3、样本比例的抽样分布
当从总体中抽出一个容量为n的样本时,样本比例服从二项
分布。 当 n→∞ 时,二项分布趋近于正态分布。所以,在大样本下, 若np≥5且n(1-p) ≥5,样本比例p近似服从正态分布。 比例的抽样平均误差 (重复抽样) P(1 P)
p
n P(1 P) n (1 ) n N
p
抽样分布 (sampling distribution)
总体
样 本
计算样本统计 量 例如:样本均 值、比例、方 差
例:样本均值的抽样分布
【例】设一个总体,含有4个元素(个体) ,即总体单位 数N=4。4 个个体分别为x1=1、x2=2、x3=3 、x4=4 。总 体的均值、方差及分布如下 总体分布
样 本
二、抽样分布 (Sampling distribution)
1、抽样分布的意义
对统计量的所有可能取值及其对应概率的描述,
就是统计量的抽样分布,即抽样分布。 抽样分布反映样本统计量的分布特征,根据抽 样分布的规律,可揭示样本统计量与总体参数 之间的关系,计算抽样误差,并说明抽样推断 的可靠程度。
抽样方法



重置抽样(重复抽样)(Sampling with replacement) 要从总体N个单位中随机抽取一个容量为n的样本, 每次从总体中抽取一个单位,把顺序号登记下来之后, 重新放回参加下一次抽选,连续反复抽取n次组成所 要求容量的样本。 不重置抽样(不重复抽样)(Sampling without replacement) 要从总体N个单位中随机抽取一个容量为n的样本, 每 次从总体中抽取一个单位,被抽中的单位不再放 回参加下一次抽选,连续进行次便组成样本。 不重复抽样所得样本对总体的代表性较大,抽样误差 较小,所以实践中通常采用不重复抽样。
.3 .2 .1 P (X )

0
1.0 1.5 2.0 2.5 3.0 3.5 4.0 X
样本均值的抽样分布
样本均值的分布与总体分布的比较
总体分布
.3 P(X)
.1 0
1
2
3
4
1.0 1.5 2.0 2.5 3.0 3.5 4.0
X
= 2.5
σ2 =1.25
第2节 参数估计的基本方法
参数估计——以实际观察的样本数据所计算的统计量作为未
知总体参数的估计值。
一、点估计(Point estimate) 点估计也称定值估计,就是直接以样本统计量作为总体参数 的估计值。 点估计的优点是它提供了总体参数的具体估计值,可作为决 策的依据,其缺点是不能提供有关抽样误差的信息。
相关文档
最新文档