区间估计

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

常见形式
间估计的区间上、下界通常形式为：“点估计±误差” “总体均值”的区间估计
总体均值：μ 总体方差：σ 样本均值：x =(1/n）×Σ（Xi) 样本方差：s =(1/(n-1））×Σ（Xi-x)^2 符号假设置信水平：1-α 显著水平：α
已知n个样本数据Xi (i=1,2,...,n），如何估计总体的均值? 首先，引入记号：区间估计σ'=σ/sqrt(n) s'=s/sqrt(n) 然后，分情况讨论：情况1 小样本（n<30），σ已知，此时区间位于 x ± z（α/2）×σ' 情况2 小样本（n<30），σ未知，此时区间位于 x ± t（α/2）×s' 区间估计情况3 大样本（n≥30），σ已知，此时区间位于 x ± z（α/2）×σ' 情况4 大样本（n≥30），σ未知，此时区间位于 x ± z（α/2）×s' 其中， z（α/2）表示：正态分布的水平α的分位数 t（α/2）表示：T分布的水平α的分位数
置信区间
区间估计有时，对所考虑的置信区间（或上、下限）加上某种一般性限制，在这个前提下寻找最优者。无偏性是经常用的限制之一，如果一个置信区间（上、下限）包含真值θ的概率，总不小于包含任何假值θ┡的概率，则称该置信区间（上、下限）是无偏的。同变性（见统计决策理论）也是一个常用的限制。
求置信区间的方法最常用的求置信区间及置信上、下限的方法有以下几种。
即
费希尔把这个等式解释为：在抽样以前，对于θ落在区间内的可能性本来一无所知，通过抽样，获得了上述数值，它表达了统计工作者对这个区间的"信任程度",若取b)=-α=uα/2，则得到区间，其信任程度为 1-α。即当用上述区间作为θ的区间估计时，对于“它能包含被估计的θ”这一点可给予信任的程度为1-α。
出发点
区间估计区间估计（interval estimation）是从点估计值和抽样标准误差出发，按给定的概率值建立包含待估计参数的区间.其中这个给定的概率值称为置信度或置信水平(confidence level），这个建立起来的包含待估计参数的区间称为置信区间（confidence interval），指总体参数值落在样本统计值某一区内的概率；而置信区间是指在某一置信水平下，样本统计值与总体参数值间误差范围。置信区间越大，置信水平越高。划定置信区间的两个数值分别称为置信下限(lower confidence limit,lcl）和置信上限（upper confidence limit,ucl)
正文
形式
构造
贝叶斯方法参数估计的一种形式。通过从总体中抽取的样本，根据一定的正确度与精确度的要求，构造出适当的区间，以作为总体的分布参数（或参数的函数）的真值所在范围的估计。例如，估计一种药品所含杂质的比率在1～2%之间；估计一种合金的断裂强度在1000～1200千克之间，等等。在有的问题中，只需要对未知量取值的上限或下限作出估计。如前例中，一般只对上限感兴趣，而在第二例中，则只对下限感兴趣。
区间估计
统计学方法
01 基本定义
03 常见形式 05 区间理论
目录
02 出发点 04 正文 06 优良准则
07 置信区间
09 推断法
目录
08 假设检验
区间估计（interval estimate）是在点估计的基础上，给出总体参数估计的一个区间范围，该区间通常由样本统计量加减估计误差得到。与点估计不同，进行区间估计时，根据样本统计量的抽样分布可以对样本统计量与总体参数的接近程度给出一个概率度量。下面将以总体均值的区间估计为例来说明区间估计的基本原理。
优良准则
区间估计置信系数1-α反映了置信区间【A(X),B(X）】的可靠程度，1-α愈大，【A(X),B(X）】用以估计 θ时，犯错误（即θ并不在【A(X），B(X）】之内）的可能性愈小。但这只是问题的一个方面。为了使置信区间【A(X),B(X）】在实际问题中有用，它除了足够可靠外，还应当足够精确。比如说，估计某个人的年龄在 5至95 岁之间，虽十分可靠，但太不精确，因而无用。通常指定一个很小的正数α（一般，α取0.10,0.05，0.01等值），要求置信区间【A(X),B(X）】的置信系数不小于1-α，在这个前提下使它尽可能地精确。对于“精确”的不同的解释，可以导致种种优良性标准。比较重要的有两个：一是考虑区间的长度B(X)-A(X）愈小愈好。这个值与X有关，一般用其数学期望Eθ（B(X)-A(X））作为衡量置信区间【A(X),B(X）】精确程度的指标。这个指标愈小，置信区间的精确程度就愈大。另一个是考虑置信区间【A(X),B(X）】包含假值（指任何不等于被估计的 θ的值）θ┡的概率，它愈小，【A(X),B(X）】作为θ的估计的精度就愈高。
谢谢观看
在本例以及其他某些简单问题中，用费希尔的方法与用奈曼的方法得出一致的结果。但是，这两个方法不仅在基本观点上不一致，而且在较复杂的问题中，所得出的结果也不同。一个著名的例子是所谓的费希尔－贝伦斯问题：设两个正态分布μ1，μ2，σ娝，σ娤都未知，要求μ1-μ2的区间估计。费希尔用他的方法提供了一个与奈曼理论不一致的解法，奈曼在1941年曾对此进行了详尽的讨论。
推断法
费希尔的信任推断法20世纪30年代初期，统计学家R.A.费希尔提出了一种构造区间估计的方法，他称之为信任推断法。其基本观点是：设要作θ的区间估计，在抽样得到样本X以前，对θ一无所知，样本X透露了θ的一些信息，据此可以对θ取各种值给予各种不同的“信任程度”，而这可用于对θ作区间估计。例如，设X是从正态总体N（θ，1）中抽出的样本，则服从标准正态分布N(0,1），由此可知，对任何α<b）有
对θ的上、下限估计有类似的概念，以下限为例，称A(X）为θ的一个置信下限，若一旦有了样本X，就认为 θ不小于A(X），或者说，把θ估计在无穷区间【A(X），∞）内。"θ不小于A(X)"这论断正确的概率为θ）。 π1（θ）对不同的θ取的最小值1-α（0<；α<1）称为置信下限A(X）的置信系数。
在数理统计中，常称不超过置信系数的任何非负数为置信水平。
区间估计如果A(X）是θ的置信下限，则在保证A(X）的置信系数不小于1-α的前提下，A(X）愈大，精确程度愈高。这也可以用【A(X），∞）包含假值θ┡（θ┡<；θ）的概率来衡量，此概率愈小，置信下限A(X）的精确程度愈高。对置信上限有类似的结果，若在某个准则下，一个置信区间（或上、下限）比其他置信区间都好，则称它为在这个准则下是一致最优的。例如，在上述准则下，置信系数1-α的一致最优置信下限A(X）定义为： A(X）有置信系数1-α，且对任何有置信系数1-α的置信下限A1(X），当θ┡<；θ时，成立
基本定义
区间估计，是参数估计的一种形式。1934年，由统计学家J.奈曼所创立的一种严格的区间估计理论。置信系数是这个理论中最为基本的概念。通过从总体中抽取的样本，根据一定的正确度与精确度的要求，构造出适当的区间，以作为总体的分布参数(或参数的函数)的真值所在范围的估计。
区间估计用数轴上的一段距离或一个数据区间，表示总体参数的可能范围.这一段距离或数据区间称为区间估计的置信区间。
还有一种方法是利用大样本理论（见大样本统计）。例如，设x1,x2，…，xn为抽自参数为p的二点分布（见概率分布）的样本，当n→∞时，依分布收敛（见概率论中的收敛）于标准正态分布N(0,1），以 uα/2记N (0， 1）的上 α/2分位数，则有。所以，可作为p的一个区间估计，上面的极限值1－α就定义为它的渐近置信系数。
一种是利用已知的抽样分布（见统计量）。例如，设x1,x2，…，xn为正态总体N（μ，σ2）（见正态分布）中抽出的样本，要作μ的区间估计，记，·则服从自由度为n-1的t分布。指定α>0，找这个分布的上α/2分位数 tα/2(n-1），则有
即
由此得到 μ的一个置信系数为 1-α的置信区间。类似地可以定出μ的置信系数为1-α的置信上、下限分别为。
假设检验
贝叶斯方法另一种是利用区间估计与假设检验的，设要作θ的置信系数为1－α的区间估计，对于任意的θ0，考虑原假设为 H：θ=θ0，备择假设为 K：θ≠θ0。设有一水平为α的检验，它当样本X属于集合A( θ0）时接受H。若集合{θ0∶X∈A（θ0)}是一个区间，则它就是θ的一个置信区间，其置信系数为1-α。就上例而言，对假设H：μ=μ0的检验常用t检验：当时接受μ=μ0，集合即为区间这正是前面定出的μ的置信区间。若要求θ的置信下限（或上限），则取原假设为θ≤θ0（或θ≥θ0），备择假设为θ>；θ0（或θ<；θ0），按照同样的方法可得到所要求的置信下（上）限。
在数理统计学中，待估计的未知量是总体分布的参数θ或θ的某个函数g（θ）。区间估计问题可一般地表述为：要求构造一个仅依赖于样本X=(x1,x2，…，xn）的适当的区间【A(X),B(X）】，一旦得到了样本X的观测值尣，就把区间【A（尣），B（尣）】作为θ或g（θ）的估计。至于怎样的区间才算是“适当”，如何去构造它，则与所依据的原理和准则有关。这些原理、准则及构造区间估计的方法，便是区间估计理论的研究对象。作为参数估计的形式，区间估计与点估计是并列而又互相补充的，它与假设检验也有密切的。
区间理论
这是1934年，由统计学家J.奈曼所创立的一种严格的区间估计理论。置信系数是这个理论中最为基本的概念。
区间估计置信系数奈曼以概率的频率解释为出发点，认为被估计的θ是一未知但确定的量，而样本X是随机的。区间【A(X），B(X）】是否真包含待估计的θ，取决于所抽得的样本X。因此，区间【A(X),B(X）】只能以一定的概率包含未知的θ。对于不同的θ，π（θ）之值可以不同，π（θ）对不同的θ取的最小值1-α（0<； α<1）称为区间【A(X），B(X）】的置信系数。与此相应，区间【A(X），B(X）】称为θ的一个置信区间。这个名词在直观上可以理解为：对于“区间【A(X),B(X）】包含θ”这个推断，可以给予一定程度的相信，其程度则由置信系数表示。