抽样分布与参数估计

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
E(X) = µ = 5.5
σx =
σ
n
= 2.87228/ 2 = 2.0310
在不放回抽样的情况下,数学上可以证明,其样本平均数的期 望值同样等于总体的期望值。而样本平均数的标准差为:
σx =
σ 2 N − n
n N −1
(5.10)
上式中的 N 为总体单位数。与放回抽样相比,这里多了一个
所谓可靠性是指估计结果正确的概率保证,可用 置信度来反映。在区间估计中,置信度十分重要。只 有精度而没有置信度的估计是毫无意义的。能够给出
ˆ 置信度的前提条件是,能够证实估计量 θ 服从(精确
地或是近似地)某种已知的常见分布。
二、总体均值的估计
设随机变量 X ~ N µ , σ
(
2
) ,(X ,X
N −n n ≈ 1− ,这个系数称为不放回抽样的修正系数。由于 N −1 N
该系数在 0,1 之间,因此,不放回抽样的标准差比放回抽样小。 当 N 远大于 n 时,修正系数近似 1,修正与否对平均误差几乎没有 影响,这时可以不考虑抽样方式差异,都按放回抽样处理。
(二)样本平均数的分布规律
当总体 X 服从正态分布时, 根据正态分布的再生
作为参数的区间估计, 应满足以下两个要 求:一是估计的精度要求,二是可靠性要求。 所谓精度要求就是估计误差必须控制在 一定的范围内。允许误差的最大值,可通过极 限误差来反映。 显然,Δ越小,估计的精度 要求越高,Δ越大,估计的精度要求越低。极 限误差的大小要根据研究对象的变异程度和 分析任务的性质来确定。
2
2. 区间估计 根据《抽样分布》一节的论述,我们已知 X ~ N(µ,σX ) 。
2
为了进行区间估计,首先,把 X 标准化
Z=
X −µ
σx
(5.21)
显然,Z 是标准正态变量(见图 5-1) 。如果我们在图 5-1 的两个 尾部各取面积α/2,临界值(我们把截取尾部面积的横坐标点叫 做临界值)分别为- zα /2 和+ zα /2 ,那末,显然有:
(三)估计量的优良标准
ˆ 1.无偏性。 θ 的数学期望值等于θ。即有:
∧ Eθ =θ
(5.17)
ˆ P(θ)
无偏 有偏
A
B
θ
ˆ θ
2.有效性:对同一总体参数的两个无偏点估计 有效性: 量,有更小标准差的估计量更有效
ˆ P(θ)
ˆ θ1 的抽样分布
B A
ˆ θ2的抽样分布
θ
ˆ θ
B A
θ
较小的样本容量
ˆ θ
(四)区间估计与估计的精度和可靠性
区间估计 就是以一定的概率保证来估计包含 总体指标的一个值域,即根据样本指标和抽 样平均误差推断总体指标的可能范围。
1.
2.
将构造置信区间的步骤重复很多次, 将构造置信区间的步骤重复很多次,置信区间 包含总体参数真值的次数所占的比率称为置信 水平 表示为 (1 - α) %
差、标准差分别为:
E(X) = E(
X1 +X2 +L n +X ) n
1 = [ E(X1) + E(X2 ) +L+ E(Xn )] = µ n
X1 + X2 +L+ Xn σ = D( ) n 1 σ2 = 2 [ D(X1) + D(X2 ) +L+ D(Xn )] = n n
2 x
(5.7)
n
(三)样本方差的抽样分布
对于来自正态总体的样本容量为 n 的简单随机样本,统计量
(n −1 S2 )
σ2
) 服从自由度为 (n −1 的 χ 分布,即
2
χ2 =
(n−1 s2 )
σ
2
) ~ χ (n −1
2
(5.16)
【例 5-6】某企业生产一种零件,已知其直径服从正态分 布,总体的标准差为 0.01 毫米。现随机抽查 36 个零件, 试求其样本标准差大于 0.012 的概率。 解: χ =
统计方法
描述统计 推断统计 参数估计 假设检验
一、参数估计概述
(一)参数估计的定义与种类 所谓参数估计, 所谓参数估计,就是用样本统计量去估 计总体的未知参数(或参数的函数)。例如, 计总体的未知参数(或参数的函数)。例如, )。例如 估计总体均值, 估计总体均值,估计总体比例和总体方差等 等。 参数估计有两种基本形式: 参数估计有两种基本形式:点估计和区间 估计。前者是用一个数值作为未知参数θ的估 估计。前者是用一个数值作为未知参数 的估 计值,后者则是给出具体的上限和下限, 计值,后者则是给出具体的上限和下限,把 θ 包括在这个区间内。 包括在这个区间内。下面分别介绍点估计与 区间估计的有关概念。 区间估计的有关概念。
二、样本比例的抽样分布
(一)样本比例的期望值与方差 一 样本比例的期望值与方差
设随机变量 X 服从二点分布,其总体平均数为 ρ ,ρ 又 称为总体比例,总体方差 σ 2 ( ρ ) = ρ(1− ρ ) 。现对其进行 n 次独立重复观测,得到下列样本:(X1,X 2,…,X n),其中, 观测结果为“成功”的次数是 N1。 我们把样本中“成功”的次数所占比例定义作样本比例 P。
80%×20% 400 = 1− =1.932 400 6000
(二)样本比例的分布规律
中心极限定理表明,当 n 充分大时,样本比例近似服从正态
ρ(1− ρ) 分布 N ρ , 。这里大样本的条件是:n ρ 和 n(1- ρ ) n
都要大于等于 5。 实际工作中, 0.1≤ ρ ≤ 0.9 , 符合表 5-5 要求的大小时, 当 n 就可以认为 P 近似服从正态分布。 由于总体参数通常并不知道,所以,实际总体是否符合表中 所列情况,可以用样本比例来近似判断。
通常,我们先给出置信度 1−α 的具体数值,根据这个数 值查标准正态分布表求得 zα /2 值,然后计算置信区间的上下 限。
放回抽样的场合, σX =
σ
n
来自百度文库。总体均值的
置信度为 1−α 的区间估计为:
ˆ µ ± zα /2
σ
(5.25)
n
∆= zα /2
抽样极限误差为:
σ
n
(5.26)
n N −1 置信度为 1−α 的区间估计为:
我们只能是希望这个区间是大量包含总体参数真值 的区间中的一个, 的区间中的一个,但它也可能是少数几个不包含参 数真值的区间中的一个
置信区间与置信水平
样本均值的抽样分布
α /2
σx
1–α
α /2
µx = µ
(1 - α) % 区间包含了µ
x
α % 的区间未包含µ
影响区间宽度的因素
总体数据的离散程度, 总体数据的离散程度,用 σ 来测度 σ 样本容量 σx = n 置信水平 (1 - α),影响 z 的大小 ,
3. 一致性,一致性是指随着样本容量不断增大,样本统计 , 量接近总体参数的可能性就越来越大,或者,对于任意给定的偏 差控制水平,两者间偏差高于此控制水平的可能性越来越小,接 近于 0。用公式表示就是:
∧ lim pθ−θ < ε =1 n→ ∞ ˆ 较大的样本容量 P(θ)
(5.18)
1
2
,…,X n)
是取自 X 的简单随机样本。根据简单随机样本的定 义,自然有,各个 Xi(i=1,2,…,n)独立,并且 与 X 有相同的分布,即 xi ~ N µ , σ 2 。现在我们来 估计 X 的均值μ。
(
)
(一)总体方差σ 已知的情形 1. 点估计 1n (5.20) ˆ µ = X = ∑Xi n i=1
【例 5-5】从某地区 6000 名适龄儿童中用不放回抽样方法 抽取 400 名儿童, 其中有 320 名儿童入学, 求样本入学率的标准 差。 320 = 80% 解: P = 400
ρ(1− ρ) N −n ≈ P(1− P) 1− n σp = N N n N −1
表5-5
ρ
总体 参数 样本量 至少为 1- -
用正态分布来近似时对样本量的要求
0.50 0.50 36
0.45 0.55 37
0.40 0.60 38
0.35 0.65 40
0.30 0.70 43
0.25 0.75 48
0.20 0.80 57
0.15 0.85 71
0.10 0.90 100
ρ
2
(n−1 s2 )
σ2
35(0.012)2 = 50.4 = 2 0.01
利用 Excel CHIDIST 函数,可方便地求得这一概率。 CHIDIST(50.4,35)=P(x < X< ∞)(右单尾概率) =0.044448
第三节 参数估计
一、参数估计概述 二、总体均值的估计 三、总体比例的估计 四、总体方差的估计
(5.8)
σx =
σ
n
(5.9)
【例 5-3】计算例 5-2 中 10 名推销员平均的任职年限 例 及其标准差, 并与例 5-2 求得的样本平均数的期望值与方差 作比较。 解:
µ = (1+ 2+3+4+5+6+7+8+9+10)/10=5.5
σ = (1−5.5)2 +(2−5.5)2 +L(10−5.5)2 /10 = 2.87228
第二节 抽样分布
一、样本平均数的抽样分布 二、样本比例的抽样分布
一、样本平均数的抽样分布
(一)样本平均数的期望值与方差
在放回抽样的情形下,设从总体中抽出的 与总体服从同一分布。设总体均值为 µ ,方差 为 σ ,则可推导出样本平均数的期望值与方
2
, 样本为 x1, x2 ,L xn ,其是相互独立的,并且
2 X ~ N(µ,σX ) 。 定理, 样本平均数服从正态分布, 即
当总体不服从正态分布时,根据中心极限定理, 只要样本容量 n 足够大,样本平均数 X 仍近似地服 从正态分布 N(µ,σX ) 。 一般来说, 当总体分布接近 正态分布时,所需的样本容量 n 可以较小,反之则需
2
要较大的样本容量。通常将样本单位数不少于 30 的 称为大样本。
α 为是总体参数未在区间内的比率 为是总体参数未在 未在区间内的比率
相应的 α 为0.01,0.05,0.10 , ,
3.
常用的置信水平值有 99%, 95%, 90%
置信区间
1. 由样本统计量所构造的总体参数的估计区间称 为置信区间 2. 统计学家在某种程度上确信这个区间会包含真 正的总体参数, 正的总体参数,所以给它取名为置信区间 3. 用一个具体的样本所构造的区间是一个特定的 区间, 区间,我们无法知道这个样本所产生的区间是 否包含总体参数的真值
(5.12)
(5.13)
在不放回抽样条件下,有关结论与样本平均数相类似,即
E(P) = ρ
σp = ρ(1− ρ) N −n
n N −1
(5.14)
(5.15)
N − n 当 N 很大,而抽样比 n/ N ≤ 5%时,其修正系数 趋于 1, N −1
这时样本比例的方差也可不必修正,可直接用(5.13)式来计算。
N1 P= n
(5.11)
根据上一章的介绍,我们知道,N1 服从二项分布,它的数 学期望是 nρ ,方差是 nρ(1− ρ) 。利用这一结果与期望值的 计算规则,可得:
N1 nρ E( P) = E = =ρ n n
N1 V ( N1 ) nρ(1− ρ) ρ(1− ρ) V ( P) =V = = = 2 2 n n n n
(二)点估计 点估计,主要有矩估计法和最大似然估计法。 点估计,主要有矩估计法和最大似然估计法。 矩估计法是用样本矩去估计总体矩( 矩估计法是用样本矩去估计总体矩(或是用样 本矩的函数去估计总体矩的相应函数) 本矩的函数去估计总体矩的相应函数)的一种估计 方法,由此获得的估计量称作矩估计量; 方法,由此获得的估计量称作矩估计量; 最大似然估计法是把待估计的总体参数看作一个 可以取不同数值的变量, 可以取不同数值的变量,计算当总体参数取上述不 同数值的时候, 同数值的时候,发生我们当前所得到的样本观测值 的不同概率,总体参数取哪一个数值的时候这种概 的不同概率, 率最大,便把这个数值作为对总体参数的估计结果。 率最大,便把这个数值作为对总体参数的估计结果。
P( −zα /2 < Z < zα /2 ) =1−α
(5.22)
将式(5.21)代入式(5.22)得到:
X −µ P −zα /2 < < zα /2 =1−α σX
P( X − zα /2σX < µ < X + zα /2σX ) =1−α
(5.23)
在式(5.23)的括号内做不等式的等价变换后得到: (5.24)
相关文档
最新文档