基于熵模型的多维变量熵不确定度

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于熵模型的多维变量熵不确定度

摘要:基于信息熵概念在测量精度分析中的应用特点,从理论上推出信息熵和不确定度的关系式。试图寻找合适的模型,将已知一维随机变量的熵不确定度指标推广到二维、三维和N维的情况,得出多维变量的熵不确定度指标的统一公式,并对结果加于讨论和验证。

关键词:熵不确定度;信息熵;多维随机变量;

1 熵与不确定度的关系

首先我们从理论上推出信息论中的熵和误差理论中的不确定度的关系式,并着重说明二者在物理意义上的一致性。

1.1 信息论中的熵

在信息论中,熵可用作某一事件不确定度的量度。信息量越大,体系结构越规则,功能越完善,熵就越小。利用熵的概念可以从理论上研究信息的计量、传递、变换和存储。

信息论中的熵:由信息论的创始人Shannon在著作《通信的数学理论》中提出,并建立在概率统计模型上的信息度量。他把信息定义

为“用来消除不确定性的东西”。

Shannon公式:I(A)=-log P(A)(1)

公式中:I(A)为度量事件A发生所提供的信息量,称之为事件A的自信息;P(A)为事件A发生的概率。

熵定义为信息量的概率加权统计平均值:如果一个随机试验有个可能的结果,或一个随机消息有n个可能值,若它们出现的概率分

别为P\-1,P\-2…,P\-n,则这些事件的自信息的平均值:

H=-SUM(P\-i×log(P\-i)),i=1,2,…,n。[JY](2)或

H(x)=-∫p(x)log p(x)dx(连续型)[JY](3)

式中p(x)为概率密度函数。

1.2 误差理论中的不确定度

测量不确定度是与测量结果相联系的参数,是表示对测得值不能肯定的程度的分散性参数。当此参数以标准差表征时,其不确定度为标准不确定度;当此参数以标准差σ乘以一个倍数k表征时,不确定度为扩展不确定度,这一倍数称为包含因子,也称其为置信系数。不确定度可表示为:

U=kσ[JY](4)

1.3 熵与不确定度的关系

由上面对信息熵和不确定度的含义分析,可以得出它们共有的一个特性:都代表随机事件的不确定性。熵代表随机事件的平均不确定性,具有普遍性;不确定度代表测量结果(或误差)的不确定性,适

用于对计量学中的数据处理。

对于常见的几种典型分布,如正态分布、均匀分布和指数分布,根据式(3)和已知的概率密度函数,可分别求出它们的熵与方差的

关系,并由此推出熵与不确定度的关系。

正态分布:

H(x)=-∫p(x)log p(x)dx =-∫[DD(]-∞[]∞

[DD)]p(x)log[SX(]1[]P[KF(]2π[KF)]σ[SX)]e\{x2/2σ2\}dx

=[SX(]1[]2[SX)]log(2πeσ2) [JY] (5)

均匀分布:

H=[SX(]1[]2[SX)]log(12σ2)

指数分布:

H=[SX(]1[]2[SX)]log(e2σ2)

下面把式(4)代入,得到熵与不确定度的关系式:

H=[SX(]1[]2[SX)]log(4π2σ2)=log(2U)[JY](6)

由式(5)和式(6)得正态分布时的k=2.066

2 多维随机变量的熵

对于n维连续随机变量为X=(x\-1,x\-2,…,x\-2)T,设它的概

率密度函数为p(x\-1,x\-2,…,x\-n),则它的联合熵H(X)定义为

H(X)=-∫…∫p(x\-1,x\-2,…,x\-n)log

p(x\-1,x\-2,…,x\-n)dx\-1,dx\-2…dx\-n

则n维连续随机变量X的概率密度为:

P(x)=[SX(]1[](2π)\{n/2\}|∑|\{1/2\}[SX)]•exp

[JB({]-[SX(]1[]2[SX)](X-μ)T∑\{-1\}( X-μ)[JB)}][JY](7)

其中:μ是n维均值向量,∑是n×n维协方差矩阵,|∑|是∑的行列式。

设:k2=(X-μ)T∑\{-1\}(X-μ)

上式为一个正定二次型,正定二次型有着明显的几何意义,当n=2,即二维的正定二次型,其几何图象是一族椭圆;当n=3,其几何图象则是一族椭球面;n维时,其几何图象为n维几何空间中的一族同心超椭球面,中心为(μ\-1,μ\-2,…,μ\-n),超椭球面的主轴方向由∑阵的特征向量决定,主轴的长度与相应的协方差矩阵∑的特征值成正比。超椭球体的大小是观测向量对于均值向量的离散度度量。在数理统计中,称为X到μ的Mahalanobis distance(马氏距离),等密度点的轨迹是X到μ的Mahalanobis distanc为常数的超椭球面。

Mahalanobis distanc为k的超椭球体的体积为

V=V\-n|∑|\{[SX(]1[]2[SX)]\}kn[JY](8)

维连续随机变量在Rn空间服从等概率的均匀分布,其概率密度为:

V\-n=[JB({]1/V (x-μ)T∑\{|-1\}(x-μ)≤k2

0 (x-μ)T∑\{-1\}(x-μ)>k2[JB)]

则它的熵为:

H(X)=ln V=ln(V\-n|∑|\{1/2\}kn)[JY](9)若n维连续随机变量XX在Rn空间服从正态分布,它的熵为:

H(x)=ln{(2πe)\{n/2\}|∑|\{1/2\}}[JY](10)

3 基于熵模型的讨论

设n维随机变量X在一个有限范围内取值,根据最大熵定理:n维连续变量X在超椭球体内服从均匀分布时

具有最大熵。设最大初始熵为H(X),测量后对随机变量X的不确定度缩小为疑义度H(x/x\-n),又称剩余熵,两者之差就是香农信息I,即:

I=H(x)-H(x/x\-n)=ln V\-1-ln V\-2=ln [SX(]V\-1[]V\-2[SX)]=ln n[JY](11)

其中:V\-1和V\-2分别为超椭球体的体积,n表示两者的倍数。

信息论关心的是熵差(获得的信息),而不是熵本身的大小,也就是说,我们希望能够确定剩余熵所对应的不确定度半径。对于

n维随机点的位置不确定性可用熵意义下的超椭球体来度量,而要确定这个超椭球体,关键是确定熵系数k。

3.1 熵系数k的确定

根据均匀分布信源,即峰值功率受限下具有最大熵的信源,如果超椭球体由正态分布的熵确定,则

V=e\{H\-\{max\}(x/x\-n)\}=(2πe)\{n/2\}|∑|\{1/2\}[JY](12)

设熵意义下的超椭球体的标准方程为:

[SX(]v2\-1[]λ\-1[SX)]+ [SX(]v2\-2[]λ\-2[SX)]+…

+[SX(]v2\-n[]λ\-n[SX)]≤k2

其中λ\-1, λ\-2,…,λ\-n为协方差矩阵∑的特征值。

令:a\-i=k[KF(]λ\-i[KF)] (i=1,2,…,n)

相关文档
最新文档