关于充分统计量

相关主题

关于充分统计量

《现代应用数学手册—概率统计与随机过程卷》P150：

定义11.2.7：设1X 、2X 、…、n X 为取自总体分布F θ的样本，θ为（有限维的）未知参数。T 为一个（有限维的）统计量。若当给定T 时，样本1X 、2X 、…、

n X 的条件分布与未知参数θ

无关，则称T 为充分统计量。

其含义是：样本中包含关于未知参数θ的信息全部压缩在充分统计量之中了。而这一点是通过比较样本的无条件分布和给定T 之后的条件分布看出来的。

解读这个定义：

所谓样本的条件分布，是一个这样的式子：

1(,,|)

n f x x T

这个式子是一个N 维空间下的概率密度函数。我们用最简单的方式来解释：假定N=2，也就是说这个样本中只包含两个观察值。限定条件是

x x x +=

=，我们令这个统计量为T 。

上述的式子意思就是说，当限定两个数的均值为5时，1x 和2x 取各种值的概率密度分别是多少。如果这个概率密度与任何未知的参数都无关，则T 就是充分统计量。

那么，什么情况下，这个概率密度与其他未知参数无关呢？

如果已知样本是来自于正态总体，而且总体方差是已知的，则这个时候概率密度就只与T 有关，而与总体的未知参数——均值——无关了。

如果已知样本来自于正态总体，但总体方差未知，则光有T 的信息，还不足以反映样本的分布，因为方差不同的情况下，1x 和2x 取各种值的概率密度是不同的。此时，充分统计量除了T 之外，还要加上样本的方差信息。

再如果根本就不知道样本来自于哪一种分布的总体，此时，即使已知总体方差，我们也无法判断1x 和2x 的分布特征，此时T 就不是充分统计量。

课本中所讲到的因子分解定理，是如下的形式：

因子分解定理：设样本1X 、2X 、…、n X 取自总体分布F θ，有频率函数

111(,,|)((,,),)(,,)

n n n f x x g T x x h x x θθ=⋅ ，

其中1(,,)n T x x 与参数θ无关，1(,,)n h x x 与θ无关，则1(,,)n T x x 为充分统计量。

（因子分解定理是《现代应用数学手册—概率统计与随机过程卷》的原式，但我怀疑式子中T 后面的θ是多余的。否则我很难解释。但我目前还没有找到其他的来源。）

结合课本来说：

充分统计量的概念，并不依赖于被估计的参数。事实上，说A 是参数B 的充分统计量的说法，是不正确的。只能说A 是样本F 的充分统计量。

不严格地说，充分统计量是指能够完整反映样本中所包含的总体信息的统计量。

比如说，已知样本来自于一个正态总体，但总体的均值和方差都未知。此时，用样本的均值和方差，可以反映出样本与总体的全部关系，因此说样本均值和方差是这个样本的充分统计量。

而如果其中有一个参数是已知的，比如说总体的均值已知，那么为了说明样

本的特征，只需要补充方差的信息就可以了。此时，统计量

()

i i x n

μ=-∑就是样本

的充分统计量。因为这个统计量中包含了样本中所有可以用来推断总体方差的信息。

在此，我们要特别注意，充分统计量中的“充分”二字，并不是指能够充分反映总体参数，而是指能够充分反映样本中与总体参数相关的信息。

例如，我们已知一个样本1、3、6、8是从一个正态总体中得到的随机样本。此时，这个总体的均值可能是5，也可以是50，从样本中无法“充分”地认识总体均值。因此，我们绝不能说这个样本构造出来的某个统计量是总体均值的充分统计量。

课本中的[例6.2]是错误的。如果我们不知道产品缺陷出现的特征，那么仅仅用前100个样本中有3个出错，并不能反映出这100个样本的全部信息。

例如，假如这家工厂的产品缺陷分布特征包括两个方面，第一，每100个中有3个缺陷；第二，3个缺陷是连续出现的。那么，仅仅用T=3%，就损失了第二点特征，因此就不是充分统计量了。

T=3%成为充分统计量的前提，是已知这家工厂的产品缺陷分布特征，例如，其属于二项分布。此时，也不能说T是P是充分统计量，而只能说T是这100个产品质量状况的充分统计量。

充分统计量的概念对于非专业的学生来说，没有现实的意义。