6.4充分统计量
充分统计量的证明方法及几个重要定理
充分统计量的证明方法及几个重要定理刘冬喜(湖南娄底职业技术学院计算机系湖南娄底417000)摘要:本文讨论了充分统计量的充分性,给出了统计量的充分性的两种主要证明方法,介绍了几个重要的定理,它们可以用来间接地证明统计量的充分性.关键词:统计量;充分统计量;因子分解定理;统计结构;Fisher信息Proof method of Sufficient statistic and several important theoremsLiu Dong-xi(Loudi Vocational and Technical College,Loudi Hunan 417000)Abstract:In this paper,we discuss the sufficient statistic sufficiency and the two main proof methods to statistic sufficiency. Several important theorems are introduced and they may be used to prove the sufficiency of statistic indirectlyKey words:Statistic, sufficient statistic, factoring theorem, statistical structure, Fisher information一、统计量与充分统计量统计量是样本的函数,定义在可测空间(X, ,B)上的统计量T=T(x),实际上是对样本X=(X1,…,Xn)进行某种加工和提炼的结果,把样本中所含的总体的相关信息集中起来,针对不同问题构造出样本的适当函数,这种加工从本质上体现了统计量压缩数据的功能.从直观上看,样本的不同的观察值,统计量T可能有相同的值,如:样本均值和样本方差不会随样本观察的排列顺序的改变而改变,这体现了统计量的“压缩数据”的功能.从理论上看,若T是在(T,C)上取值的可测映照,那么对σ代数C中任一元素c在B中都有一个原像T﹣1(C)={x:T(x)∈C}∈B .把所有原像的全体记为T-1(C)={T-1(C):C∈C} ⊂B。
充分统计量_完备统计量_指数分布族
对任给 X x1, xn 和 t ,满足 X At ,有
-1-
P X1 x1,, X n xn T t
P
X1
x1,, X n xn ,T
PT t;
t;
P
X1
x1,, X n
PT t;
xn ;
g t,
g t, h x1,, xn h y1,yn :T y1,yn t y1, yn
f x, g T x h x
(0.1)
对每一 与x X 成立.
注: h x不依赖于.
证:只对离散型情况给出证明.这时,
f x, P X x
对于T X 的值域中任意固定的 t ,定义集合
At x :T x t.
充分性 设 f x, 使因子分解式(1.1)成立.则对任意的 x At , T x t 成立,
X1, X 2 ,, X n 的条件与 无关.
即不包含关于参数的信息
2)定理 5.5.1(因子分解定理 Factorization Theorem):设总体概率函数为 f (x; ) ,
X1, X 2,, X n 为样本,则 T T ( X1, X 2 ,, X n ) 为充分统计量得充分必要条件是:存
2)定理(极小充分统计量的存在定理): 假定分解定理中的条件成立,且样本空间为欧
式的,则极小充分统计量存在.
3)要求:①信息损失越少越好
②统计量越简化越好
4.指数族:
1)定义:设 (, | p : |) 是可控参数统计结构,加入其密度函数可表示为如下形
k
式: p (x) c( ) exp{ cj ( )Tj (x)}h(x) i 1
期望)可以看作一个变换,且是一对一的变换.
统计学课后思考
1.1什么是统计学统计学是关于数据的一门学科,它收集,处理,分析,解释来自各个领域的数据并从中得出结论。
1.2解释描述统计和推断统计描述统计;它研究的是数据收集,处理,汇总,图表描述,概括与分析等统计方法。
推断统计;它是研究如何利用样本数据来推断总体特征的统计方法。
1.3统计学的类型和不同类型的特点统计数据;按所采用的计量尺度不同分;(定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述;(定性数据)顺序数据:只能归于某一有序类别的非数字型数据。
它也是有类别的,但这些类别是有序的。
(定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。
统计数据;按统计数据都收集方法分;观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。
实验数据:在实验中控制实验对象而收集到的数据。
统计数据;按被描述的现象与实践的关系分;截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。
时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。
1.4解释分类数据,顺序数据和数值型数据答案同1.31.5举例说明总体,样本,参数,统计量,变量这几个概念对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。
1.6变量的分类变量可以分为分类变量,顺序变量,数值型变量。
变量也可以分为随机变量和非随机变量。
经验变量和理论变量。
1.7举例说明离散型变量和连续性变量离散型变量,只能取有限个值,取值以整数位断开,比如“企业数”连续型变量,取之连续不断,不能一一列举,比如“温度”。
2.1什么是二手资料?使用二手资料应注意什么问题与研究内容有关,由别人调查和试验而来已经存在,并会被我们利用的资料为“二手资料”。
第6章-统计量及其抽样分布
对应于每个数值的相对出现频数排成另一列, 由此,全部可能的样本统计量值形成了一个概 率分布,这个分布就是我们想要得到的抽样分 布。
样本均值的抽样分布 与中心极限定理
当总体服从正态分布N(μ,σ2)时,来自该总体的所有 容量为n的样本的均值x也服从正态分布,x 的数
1.0 1.5 2.0 2.5 3.0 3.5 4.0 x
样本均值的抽样分布
所有样本均值的均值和1.0 1.5 4.0 16
2.5 m
n
(xi mx )2
s
2 x
i 1
M
M为样本数目
(1.0 2.5)2
(4.0 2.5)2
s2
0.625
16
n
1. 样本均值的均值(数学期望)等于总体均值 2. 样本均值的方差等于总体方差的1/n
从检查一部分得知全体。
复习 抽样方法
抽样方式
概率抽样
非概率抽样
简单随机抽样 整群抽样
多阶段抽样
分层抽样 系统抽样
方便抽样 自愿样本 配额抽样
判断抽样 滚雪球抽样
6.2.1 抽样分布 (sampling distribution)
1. 样本统计量的概率分布,是一种理论分布
在重复选取容量为n的样本时,由该统计量的所有可 能取值形成的相对频数分布
2. 随机变量是 样本统计量
样本均值, 样本比例,样本方差等
3. 结果来自容量相同的所有可能样本
4. 提供了样本统计量长远而稳定的信息,是进行推 断的理论基础,也是抽样推断科学性的重要依据
抽样分布的形成过程 (sampling
distribution)
充分统计量举例说明
充分统计量举例说明
充分统计量是指能够包含样本中所有关于总体参数的信息的统计量。
它能够提供关于总体未知参数的最大可能的信息量,从而使得对总体参数的推断更加准确和可靠。
下面是一些充分统计量的例子:
1. 样本均值,对于总体均值的估计,样本均值是一个充分统计量。
它包含了样本中所有观测值的信息,并且是总体均值的无偏估计量。
2. 样本方差,对于总体方差的估计,样本方差也是一个充分统计量。
它包含了样本中所有观测值的离散程度的信息,并且是总体方差的无偏估计量。
3. 样本中位数,对于总体中位数的估计,样本中位数是一个充分统计量。
它能够提供总体分布的中心位置的信息,尤其在样本中存在异常值或者偏态分布的情况下更为有效。
4. 样本最大值和最小值,对于总体范围的估计,样本的最大值和最小值是充分统计量。
它们能够提供总体数据的上限和下限的信
息,对于描述总体数据的分布范围有重要意义。
5. 样本相关系数,对于总体相关关系的估计,样本相关系数是一个充分统计量。
它能够提供总体变量之间线性相关关系的信息,对于研究变量之间的相互关系非常有用。
需要注意的是,充分统计量的选择应该基于所研究问题的特点和目标,以及样本数据的性质。
以上只是一些常见的例子,实际应用中可能还会根据具体情况选择其他充分统计量。
充分统计量与完备统计量
完备统计量的含义不如充分统计量那么明确,但由
定义可见它有如下特征:
P g1 (T ) g2 (T ) 1, E g1 (T ) E g2 (T ), 。
(1.7)
对于一般的统计T T ( X 1 , X 2 , , X n ) ,总有
对统计量 T,如果已知它的值以后,样本的条件分布 与 无关,就意味着样本的剩余部分中已不再包含关于 的信息, 也就是在 T 中已包含有关 的全部信息。 因此, 对 的统计推断只需要从 T 出发即可, 不再需要样本数据。
二、 因子分解定理
根据充分统计量的含义,在对总体未知参数进 行推断时,应在可能的情况下尽量找出关于未知参 数的充分统计量。 但从定义出发来判别一个统计量是否是充分统 计量是很麻烦的。 为此,需要一个简单的判别准则。下面给出一 个定理——因子分解定理,运用这个定理,判别甚 至寻找一个充分统计量有时会很方便。
n P ( X 1 x1 , X 2 x 2 , , X n x n ) , 如 果 x i k, P (n X k ) i 1 n 0, 如 果 x i k , i 1 n n xi n xi n p i 1 (1 p ) i 1 , 如 果 xi k, k k nk C n p (1 p ) i 1 n 0 , 如 果 xi k, i 1 n 1 C k , 如果 xi k, i 1 n n 0, 如果 xi k, i 1
其中 h( x1 , x2 ,, xn ) 1 ,
而 g (T ( x1 , x2 , , xn ); ) 显 然 是 T ( x , xi2 ) 和 ( , 2 ) 的函数。 故由因子分解定理知 T ( X , x i2 ) 是 ( , 2 )
充分统计量_完备统计量_指数分布族
为T X 的函数,而另一个仅为 x 的函数,与参数 无关,则T X 是 的充分统计量.
2.完备性
1)定义: F { p(x; ), },设 g(x) 是定义在样本空间 上的一个实函数,一般来
说,积分(如果存在) E[g(x)] g(x) p(x; )dx ( ),因此上述积分(数学
}
exp{
x2 2 2
x 2}
其中 c(, )
1 2
exp{
2 2 2
},
c1
(
,
)
2
, c2 (,
)
1 2
2
h(x) 1,T1(x) x,T2 (x) x2
伽玛分布族:
p ,
(x)
( )
x 1ex
exp{ x ( 1) ln x} ( )
c( , ) exp{c1( , )x c2 ( , ) ln x}, x 0
计 量 T T (X1, X2,, Xn ) 称 为 的 充 分 统 计 量 , 如 果 在 给 定 T 的 取 值 后 ,
X1, X 2 ,, X n 的条件与 无关.
即不包含关于参数的信息
2)定理 5.5.1(因子分解定理 Factorization Theorem):设总体概率函数为 f (x; ) ,
P
X
x
T
X
t
P
X P
x,T
T X
X t
t
P P T t
0.
也与 无关.因此,条件分布 f x t f x t 与无关,即T X 是的充分统计量.
必要性 设 T X 是 的充分统计量,由充分统计量的定义, P X x T X t 与
参数 无关,它是 x 的函数,记为 h x. 于是,对任意固定的 t ,当 x At 时,T x t
第1.2节 充分统计量与完备统计量
条件 分 布 (离 散 总体 为 条 件概 率 , 连续 总 体 为条 件 密 度) 与 参 数θ 无关 , 则 称T 为 θ 的充 分 统 计量 .
3. 充分统计量的意义 如果知道了统计量T的观察值以后, 如果知道了统计量 的观察值以后,样本的条 的观察值以后 件分布与θ无关, 件分布与θ无关,也就是样本的剩余部分不再包含 关于θ的信息,换言之, 关于θ的信息,换言之,在T中包含了关于θ的全部 中包含了关于 信息,因此要做关于θ的统计推断,只需用统计量T 信息, 的统计推断, 就足够啦. 就足够啦. 1.3) 例1(p6 例1.3 设总体X 服从两点分布B(1, p),即
例4(p9 例1.6) 设( X1 , X 2 ,L , X n )T 是来自正态总体 1.6
1 n ,1)的 N(µ ,1)的一个样本,试证X = ∑ X i 是参数µ的充 n i =1 分统计量. 1 −{ ∑ ( x − µ ) } 1 2 解 L( µ ) = e
n 2 i i =1
( 2 π )n 1 1 n exp{ − ∑ ( x i − x + x − µ ) 2 = 2 i =1 ( 2 π )n 1 1 n n 2 exp{ − ∑ ( x i − x ) − ( µ − x ) 2 } = 2 i =1 2 ( 2 π )n
= h( x1 , x2 ,L , xn ) g( f −1 ( f (T ( x1 , x2 ,L , xn ))), θ ) = h( x1 , x2 ,L , xn )q( f ( x1 , x2 ,L , xn ), θ )
i =1
由因子分解定理可知,f ( x1 , x2 ,L , xn )是θ的充分统 计 量 , 因 而 充分 统 计 量 不 唯 一 .
充分统计量
充分统计量充分统计量又称足够的样本容量,是指一个总体能从各种可能中得到它所需要的资料。
这里需说明的是“全部”并不等于每个个体都被收集起来加以考察。
这也就是为什么有些人很忙,但工作成效却很低的原因。
只有对总体进行研究后才能发现其规律性和特征,而大量重复就会使统计工作变得无用,而且费力。
另外,抽样时还必须保证总体中每个个体都具有同质性或相似性。
根据这两点,充分统计量应该满足:(1)当总体中任何一个个体值均落入某一区间内时,则认定此数据已达到了充分统计量;(2)若总体中存在非随机误差项,那么在估算充分统计量时,将其剔除出去,再求解,直至误差消失为止。
我们在作调查时,常遇见这类问题:“你家几口人?”、“你今年多少岁啦!”…诸如此类的提问方式显然没有经过严格的科学论证,甚至连最基础的概率知识都未掌握。
试想,假设甲乙丙三位老师同时向100名小朋友询问上述问题,结果会怎样呢?答案肯定是令人吃惊的!由此看来,我们平日里做事情,尤其是搞社会调查活动,切忌凭主观臆断下结论,更不能道听途说,盲目地给别人贴标签。
俗话说:“凡事预则立,不预则废。
”正确运用好充分统计量,关系着整个调查报告的质量高低与否。
如果调查者缺乏专业素养,往往会导致错误的判断,造成决策失误。
例如,前面讲到的美国人口普查局的一次实验。
他们选择了一批6-10岁儿童,让他们填写自己父母亲的职业,并把这份表交回来,请他们的父母评价孩子的智商水平。
这个实验虽然取得了良好的效果,但是却留下了许多疑惑——为什么受测者的父母对孩子的智商竟毫无觉察呢?难道真像他们所宣传的那样,他们天生愚钝吗?通过仔细推敲,他们终于找到了症结所在:原来,这群孩子之所以智商偏低,完全是因为他们的父母压根儿就没有意识到自己的孩子智商比较低罢了。
充分统计量例题
充分统计量例题一、概述在统计学中,充分统计量(sufficient statistic)是指能够包含样本中所有关于未知参数的信息的统计量。
它们能够有效地减少样本数据的维度,并且在推断未知参数时提供足够的信息。
充分统计量在统计推断和参数估计中起着重要的作用。
它们能够帮助我们从样本中推断出总体参数的值,而无需关注整个样本的数据。
在许多情况下,通过使用充分统计量,我们可以简化推断过程,减少计算的复杂性,并获得更精确和可靠的估计结果。
二、定义充分统计量的定义是基于条件概率。
对于一个参数θ的统计模型,我们可以将观测数据表示为X = x,其中X表示从总体中抽取的随机样本,x表示观测到的样本数据。
给定样本X = x,一个统计量T(X)称为充分统计量,如果对于所有可能的样本X,给定充分统计量T(X)后,样本的条件分布不依赖于待估参数θ。
换句话说,充分统计量能够保留样本中所有关于待估参数θ的信息,而无需知道样本中每个观测值的具体取值。
三、寻找充分统计量的方法寻找充分统计量的方法有多种,常用的有因子分解定理、最大似然估计和贝叶斯估计等。
1. 因子分解定理因子分解定理是寻找充分统计量的经典方法之一。
其基本思想是将样本的联合概率密度函数(或概率质量函数)分解为两个函数的乘积。
其中一个函数是与参数θ无关的函数,另一个函数只是依赖于θ。
通过因子分解定理,我们可以找到一组与θ无关的函数h(x)和依赖θ的函数g(x;θ),使得联合概率密度函数(或概率质量函数)可以表示为:p(x;θ) = h(x)g(x;θ)其中,h(x)称为充分统计量的底层函数。
2. 最大似然估计最大似然估计是寻找充分统计量的另一种常用方法。
最大似然估计的目标是找到使得样本出现的概率最大的参数值。
在最大似然估计中,我们首先构造样本的似然函数,然后通过最大化似然函数来得到参数的估计值。
如果我们能找到一个统计量,它的分布与待估参数的似然函数相同,那么这个统计量就是充分统计量。
充分统计量例题
充分统计量例题充分统计量是指在给定总体分布下,能够包含全部信息的统计量。
在统计学中,充分统计量是非常重要的概念,它可以帮助我们更好地理解总体分布,并且可以用来进行参数估计和假设检验等统计分析。
下面我们来看一个例题,通过这个例题来理解什么是充分统计量。
假设我们有一个总体分布,它的概率密度函数为f(x;θ)=θx^(θ-1),其中θ>0,0<x<1。
现在我们从这个总体中随机抽取了n个样本,样本值为x1,x2,…,xn。
我们的目标是找到一个充分统计量。
首先,我们需要根据样本数据来构造一个统计量T(x1,x2,…,xn),这个统计量应该能够包含全部信息。
我们可以尝试构造如下的统计量:T(x1,x2,…,xn)=∏(i=1 to n)x_i这个统计量的意义是将所有样本值相乘,它能够包含全部信息吗?我们可以使用因子分解定理来验证一下。
因为总体分布的概率密度函数可以写成如下形式:f(x;θ)=exp{ln(θ)+ln(x^(θ-1))}所以,我们可以将样本的联合概率密度函数写成如下形式:L(x1,x2,…,xn;θ)=exp{ln(θ)+∑(i=1 to n)ln(x_i^(θ-1))}根据因子分解定理,我们可以将上式分解成如下形式:L(x1,x2,…,xn;θ)=h(x1,x2,…,xn)g(θ)其中,h(x1,x2,…,xn)=∏(i=1 to n)x_i^(θ-1),g(θ)=exp{ln(θ)}。
我们可以看到,h(x1,x2,…,xn)与T(x1,x2,…,xn)是等价的,因此,T(x1,x2,…,xn)是一个充分统计量。
接下来,我们可以使用这个充分统计量来进行参数估计。
假设我们要估计总体分布的参数θ,我们可以使用最大似然估计法。
根据最大似然估计法的原理,我们需要找到一个参数θ的值,使得样本的联合概率密度函数L(x1,x2,…,xn;θ)最大。
因为h(x1,x2,…,xn)与θ无关,所以我们只需要最大化g(θ)即可。
充分统计量的定义
充分统计量的定义
充分统计量对于给定的统计推断问题,包含了原样本中关于该问题的全部有用信息的统计量。
对于未知参数的估计问题,保留了原始样本中关于未知参数θ的全部信息的统计量,就是充分统计量。
如样本均值X是总体数学期望的充分统计量。
数学上,设(X₁,…,Xₑ)是来自总体X的一个随机样本,T=T(X₁,…,Xₑ)是一统计量。
若在T=t 的条件下,样本的条件分布与未知参数θ无关,则称统计量T是θ的充分统计量。
充分统计量的基本介绍:
样本中包含关于总体的信息可分为两部分:其一是关于总体结构的信息,即反映总体分布的结构;其二是关于总体中未知参数的信息,这是由于样本的分布中包含了总体分布中的未知信息。
我们对信息的加工只会减少,不会增多,即统计量具有压缩数据功能,但会凸显我们需要的信息。
那么一个好的统计量应该能将样本中包含未知参数的全部信息提取出来,即样本加工不损失未知参数的信息称为充分性。
如何将这一想法用数学形式表示呢?费希尔在1922年提出了一个重要概念——充分统计量计量。
粗略地说,充分统计量就是不损失信息的统计量,在简化统计问题中是非常重要的概念,也是经典统计和贝叶斯统计中为数不多的相一致的观点之一。
充分统计量与完备统计量
关, 则称 T 是θ 的充分统计量.(含意 见 P. 5--6)
例 1.3 设总体 X 服从两点分布 B(1,p),即
P{ X = x} = px (1 − p)1− x , x = 0,1,
其中 0<p<1, ( X1,..., Xn )T 是来自总体 X 的一个样本,试证
X
=
1 n
n
∑
i =1
Xi
律可表示为
n
∏ P{ X1 = x1 , X 2 = x2 ,", X n = xn } = P{ X = xi } i =1
= h( x1, x2 ,", xn )g(T ( x1, x2 ,", xn );θ ),
(1.4)
其中 h 是 x1, x2 ,", xn 的非负函数且与θ 无关, g 仅通过 T
m
m
∏ ∑ f ( xi ,θ ) = C(θ )exp{ bj (θ )Tj ( x1, x2 ,", xn )}h( x1, x2 ,", xn ) (1.8)
i =1
i =1
且对于 f ( x,θ ) 的支撑{ x : f ( x,θ } > 0}不依赖于θ . 其中
C(θ ), bj (θ ) 只与参数θ 有关而与样本无关,Tj ,h 只与样本
1 exp{− n (µ − T )2 },
2π )n
2
则 L(µ ) = h ( x1, x2 ,", xn ) g(T ( x1, x2 ,", xn ) ; µ ). 由因子分解定理知,T ( X1 , X 2 ,", X n ) = X 是 µ 的充分统计 量.
例(补充)求出均匀分布U(0,θ ) 中参数θ 的充分统计量.
完全充分统计量定义
完全充分统计量定义完全充分统计量是指一个观测数据的函数,它包含了样本中所有对参数的信息,能够完全确定参数的取值。
在统计推断中,完全充分统计量是非常重要的概念。
为了更好地理解完全充分统计量的定义,我们需要先了解一些基本的统计概念。
首先,我们有一个总体,总体中的每一个个体都有一个或多个待估计的参数,比如平均值、方差等。
我们通常无法获得整个总体的数据,因此我们通过对总体进行抽样来获取一部分数据。
抽样是指从总体中随机地选择出一部分观测数据。
样本是我们从总体中抽取的这部分数据,可以看作是总体的一个子集。
样本中的观测值被用来作为对总体的估计。
在统计推断中,我们需要根据样本数据对总体参数进行估计。
估计可以分为点估计和区间估计。
点估计是指用一个值来估计总体参数,而区间估计是指用一个区间来估计总体参数。
一个估计量的好坏可以通过其偏差和方差来评估。
偏差是估计值与真实值之间的差异,方差是估计值在重复抽样中的变动程度。
我们希望估计量的偏差较小,方差较小。
完全充分统计量是为了满足某种优良性质的统计量。
它是一个函数,将每个样本映射到一个数值。
这个函数的构造需要同时满足充分性和完全性的条件。
充分性是指统计量包含了样本中的所有信息,即样本观测值所包含的参数信息都能够通过统计量获得。
充分性的定义可以理解为,如果两个样本在所有参量下有相同的统计量值,那么这两个样本是等价的,即它们包含了相同的信息。
完全性是指统计量含有的信息与总体的参数是一致的。
如果一个估计量是充分的,并且其他充分统计量的函数,那么它就是完全充分的。
完全充分统计量的重要性在于,它能够最大程度地利用样本数据中的信息,提供最优的参数估计。
如果一个统计量是完全充分的,那么在给定这个统计量的情况下,其他统计量都是冗余的。
完全充分统计量在统计推断中有着广泛的应用。
在构造置信区间、检验假设等方面,完全充分统计量起到了关键作用。
通过使用完全充分统计量,我们可以在减小样本数据的维度的情况下,获得对参数更准确的估计。
充分统计量与完备统计量
例5
设( X 1 , X 2 , , X n )T 是来自正态总体N( , 2 )
n i 1
的一个样本,试证T(X 1 , X 2 , , X n ) ( X , X i2 )T 是参数 =( , 2 )T的联合充分统计量.
解 L( )
1
1 ( 2π )n
{
证明涉及测度论,从略 说明:
如果参数为向量时,统计量T也是随机向量,例如
( , ), 则相应的统计向量可以为T ( X , S ).
2 2 n
以下将通过几个例子来说明判别法则的应用
例2 根据因子分解定理证明例2.3 解
P{ X1 x1 , X 2 x2 , , X n xn }
x !
i 1 i
n
g (T ( x1 , x2 , , xn ), ) nT e n ,因而,X 是充分统计量.
例4 设( X 1 , X 2 , , X n )T 是来自正态总体N( ,1)的
1 n 一个样本,试证X X i 是参数的充分统计量. n i 1
k k 证 由于P{ X } P{nX k }=C n p k (1 p)n k ,因而 n n
k k p k 即对任意的0 p 1, g ( )C n ( n 1 p ) 0,而此式 k 0 p 是关于 的多项式,因而每项系数只能为0,则 1 p k k g( ) 0,因而满足Pp { g( ) 0} 1, 所以X 是完备 n n 统计量.
§2.3 充分统计量与完备统计量
一、充分统计量
二、因子分解定理
三、完备统计量 四、指数型分布族
一、充分统计量
1. 问题的引出
充分统计量与完备统计量
三、完备统计量
为了介绍完备统计量的概念,首先需要引入完备分 布函数族的概念。
定义 1.5 设总体 X 的分布函数族为F( x; ), ,
若对任意一个满足
E g( X ) 0,对一切
的随机变量 g( X ),总有
(1.5)
P g( X ) 0 1,对一切 , 则称F( x; ), 为完备的分布函数族。
族——指数型分布族。它包含了一些常用分布,如泊松
分布、正态分布、指数分布、二项分布和 分布等,对这
类分布族,寻找参数的充分完备统计量是方便的。
定理 1.5 设总体 X 的分布密度 f ( x; )为指数型分布
族,即样本的联合分布密度具有如下形式:
n i 1
f
( x;
)
C (
) exp
m j1
=T(X1,X2,…,Xn) 也有一个抽样分布FT(t) 。
当我们期望用统计量T 代替原始样本并且不
损失任何有关 的信息时,也就是期望抽样分布 FT(t) 像 F(x) 一样概括了有关 的一切信息。
这即是说在统计量T 的取值为 t 的情况下
样本 x 的条件分布F(x|T=t) 已不含 的信息,
bj (
)Tj ( x1 ,
x2 ,,
xn
)
h( x1 , x2 ,, xn ),
2.9
其中 (1,2 ,,m ), 。如果中包含有一个m 维矩形,
而且 B (b ( ),b ( ),,b ( ))的值域包含一个m 维开集,则
1
2
m
T (T ( X , X ,, X ),T ( X , X ,, X ),T ( X , X ,, X ))
完备统计量的含义不如充分统计量那么明确,但由
充分统计量与完备统计量
例5 设( X1, X 2 , , X n )T 是来自正态总体N(, 2 )
n
的一个样本,试证T(X1, X 2 , , Xn ) ( X ,
X
2 i
)T
i 1
是参数 =(, 2)T的联合充分统计量.
解 L( )
1
e
{
1 2
2
n
( xi )2 }
i 1
( 2π )n
(
1
1
2π )n exp{ 2 2
一个样本,试证X
1 n
n i 1
X i是参数的充分统计量.
解
L( )
1
{ 1
e 2
n i 1
(
xi
)2
}
( 2π )n
(
1 2π )n
exp{
1 2
n i 1
( xi
x
x
)2
(
1 2π )n
exp{
1 2
n i 1
( xi
x )2
n (
2
x)2 }
(
1 2π )n
exp{
1 2
n i 1
N(, 2 )的一个样本,试证T(X1, X2 , , Xn ) ( X ,
F ( x, )的一个样本,T T ( X1 , X2 , , Xn )为一个(一维或多
维)统计量,当给定T t时,若样本(X1 , X2 ,
,
X
)T的
n
条件分布(离散总体为条件概率,连续总体为条件密度)
F ( x1 , x2 , , xn | t)与参数 无关,则称T为的充分统计量.
3. 充分统计量的意义
例6(p11 例1.8) 设总体X服从两点分布B(1, p),即 P{ X x} px (1 p)1x , x 1, 0,
充分统计量的证明方法及几个重要定理
充分统计量的证明方法及几个重要定理一、充分统计量的证明方法1. Fisher-Neyman因子分解定理:Fisher-Neyman因子分解定理是一种证明充分统计量的重要方法,其内容可以简述如下:设X1, X2, ..., Xn是来自总体X的一个样本,f(x,θ)是总体X的概率密度函数(或概率质量函数),T(X)是一个统计量。
如果存在函数g1(X), g2(X), ..., gm(X)和h(X),使得f(x,θ)=g1(x)g2(T(x),θ)h(x)那么统计量T(X)是总体X的一个充分统计量。
在实际应用中,通常可以通过一些常用的概率分布的特性,如指数分布、正态分布等,来确定T(X)是充分统计量。
2.因子分解定理:因子分解定理是另一种证明充分统计量的常用方法。
设X1,X2,...,Xn是来自总体X的一个样本,f(x,θ)是总体X的概率密度函数(或概率质量函数),T(X)是一个统计量。
如果存在函数g(T(X),θ)和h(x),使得f(x,θ)=g(T(x),θ)h(x)那么统计量T(X)是总体X的一个充分统计量。
这种方法的优点是不需要分解出g1(X), g2(X), ..., gm(X),即可以直接得到充分统计量。
1. Neyman的因子分解定理提出了充分统计量的概念和证明方法,即Fisher-Neyman因子分解定理。
2. Lehmann-Scheffé定理设X1,X2,...,Xn是来自总体X的一个样本,θ是总体X的未知参数,T(X)是θ的一个无偏估计量,且g(T(X))是对θ的无偏估计量φ(θ)的一个充分统计量。
那么对于任意的θ,对应的T(X)是φ(θ)的最小方差无偏估计量。
这个定理说明了充分统计量的重要性,因为对于最小方差无偏估计量的构造,充分统计量是必不可少的。
3. Rao-Blackwell定理设X1, X2, ..., Xn是来自总体X的一个样本,θ是总体X的未知参数,T(X)是θ的一个无偏估计量,W(X)是θ的另一个无偏估计量,且Var(T(X)) < ∞。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
x e 0 f ( x; ) x! ,x 0,1,2,,是未知参数. 0 其他 取子样(1 , 2 ) ( x1 , x2 ) (1,2) , 试证 : 21 2 不是的充分统计量.( p286 ) ( 291
解 : 因为 21 2 , 则y 2 x1 x2 4
y x ) x , )
n
i 1 i i 1 i
n
n
P (1 x1 , 2 x2 ,, n xn ) P ( y ) P (1 x1 ) P ( 2 x2 ) P ( n xn ) P ( y )
i 1 (1 )
若条件概率不依赖于参数 , 则为的一个 充分统计量
Fisher因子分解定理
设1 , 2 ,, n 是取自具有概率函数f ( x; ), 的母体的一个容量为n的子样. 设是一个统计量,
具有概率函数g( y; ).
L( ; x1 , x2 , xn ) f ( x1 ; ) f ( x2 ; ) f ( xn ; ) 若 g ( y; ) g ( y; ) h( x1 , x2 , xn )
f ( x1 ; ) f ( x2 ; ) f ( xn ; ) K 1[u( x1 , x2 ,, xn ); ] K 2 ( x1 , x2 ,, xn )
且当y u( x1 , x2 ,, xn )取定值时,函数K 2不依赖于 .
例3 设1 , 2 ,, n 是独立同分布的随机变量, 都服从 泊松分布, 则证明: Tn i 是关于的充分统计量.
e ( x ) f ( x; ) 0 ne n ( y ) g ( y; ) 0
x 其他 其他
,
y
x i n
n
f ( x1 ; ) f ( x2 ; ) f ( xn ; ) e i 1 n ( y ) g ( y; ) ne
i 1 n
x 0 e 解 : f ( x; ) x ! , 0 n 其他 xi e n i 1 f ( x1 ; ) f ( x2 ; ) f ( xn ; ) n xi !
取K 1 xi
i 1 n
i 1
(1) f ( x1 ; ) f ( x2 ; ) f (1; ) f ( 2; ) P (1 1) P ( 2 2)
1
1!
e
2
2!
e
3
2
e
2
( 2) y 4时的概率函数为: g(4; ) P ( 4) P ( 21 2 4)
xi
n
n
xi
n
n xi
i 1
n
i C n1 i 1 (1 )
xi
n
n xi
i 1
n
1
i C n1
xi
n
i 是充分统计量.
i 1
与θ无关!
1 , 2 ,, n为离散型r .v .
P (1 x1 , 2 x2 ,, n xn | y )
x i n
i 1
n
由题意可知, F ( x )
x
0 x f ( t )dt 1 e ( x ) x
n[1 (1 e ( y ) )]n y e ( y ) y ( 2) g( y; ) 0 其他 ne n( y ) y 0 其他
P (1 0, 2 4) P (1 1, 2 2) P (1 2, 2 0)
e e
2
4
4!
e e
2
2!
e
2
2!
e e
(
4
3
24
2
2
2
)
12 f (1; ) f ( 2; ) 2 4 3 2 2 12 12 2 g ( 4; ) ( )e 24 2 2
e
n
, K 2 ( xi !) 与 无关.
1 i 1
n
由因子分解定理, Tn 是的充分统计量.
例4 设1 , 2 , n 是取自 0, ]上的均匀分布母体的一个 [ 子样,为未知参数, 试证 : ( n ) 是的一个充分统计量.
1 0 x 解 : f ( x; ) 0 其他 1 n f ( x1 ; ) f ( x2 ; ) f ( xn ; ) 0 x( n ) , x( 1 ) 0 其他
若设统计量 i , 则相应地, 令 y时, y xi
i 1 i 1 n n
由简单随机子样的性质 ~ b( n, ), 其概率函数为: ,
g ( y; ) C (1 )
y n y n y
y 0,1,2,, n
P (1 x1 , 2 x2 , , n xn y ) P (1 x1 , 2 x2 , , n P ( y ) Leabharlann 1 2不是的充分统计量.
3
e 2
6.4.2 耐曼因子分解定理
定理6.2 设1 , 2 ,, n为取自具有概率函数f ( x; ),
的母体的一个子样, 则统计量 u(1 , 2 ,, n )是一个 充分统计量 非负函数K 1和K 2 , 使得
1
n
I ( x( n ) )
取K 1 1
, 其中I表示集合的示性函数.
I ( x( n ) ) , K 2 1, 则由因子分解
作业: p.310 6.42、 6.43
n
定理结论得证.
§6.4 充分统计量
6.4.1 相关定义
定义1 设1 , 2 ,, n 是取自具有概率函数f ( x; ), 的
母体的一个容量为n的子样, 并设统计量 u(1 ,, n )
若在某些有利的条件下 , 统计量没有丢失子样的任何 与有关的信息, 则称是的一个充分统计量
xi
n
e i 1 e n e i 1 e i 1 ny n ny n ( min xi ) ne e ne ne i
上述表达式与无关, 所以 (1) 是一个充分统计量.
xi
n
xi
n
f ( x1 ; ) f ( x2 ; ) f ( xn ; ) g ( y; ) 例2 设母体服从泊松分布,
Fisher . R. A于1920年
(1)给出了 信息量毫无丢失"的一个具体的可操作的解释; " ( 2)提出了一种简单易行的充分性判别法.
主要工作思路
(1)令统计量 y , 在子样空间中界定子集 S {(1 , 2 ,, n ) : (1 , 2 ,, n ) y }
定理1 统计量为的充分统计量 在 y的条件下,
(1 , 2 ,, n )的分布与母体分布参数无关.
例1 设1 , 2 ,, n 是取自两点分布母体的一个子样, 其概率函数为 f ( x; ) x (1 )1 x x 0,1 0 1 (为未知参数)
P (1 x1 , 2 x2 ,, n xn ) P ( y ) P (1 x1 ) P ( 2 x2 ) P ( n xn ) P ( y )
L( )
1 , 2 ,, n为连续型r .v .
L( )
p( x1 ,, xn ) p( x1 ) p( xn ) p1 ,, n | ( x1 ,, xn | y ) p ( y ) p ( y )
其中因子h不依赖于参数 , 则称为的一个充分统计量
e x , 例1 设母体具有密度函数f ( x; ) , 0 其他 试证 : 最小次序统计量 (1) 是的充分统计量.
( x )
解: ) f ( x1 ; ) f ( x2 ; ) f ( xn ; ) e (1
( 2)再在S中进行一次抽样, 这样所得与有关的信息可 分为两部分. 一部分在内,另一部分在后一次抽样中 .
第二步相当于在给定 y的条件下进行抽样 , 若 此条件分布与母体分布中的未知参数无关,当然不会 再含有与之有关的信息了, 即所含与有关信息全部在
上 , 所以认为统计量是的充分统计量