最大熵原理与最小鉴别信息原理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第七章 最大熵原理与最小鉴别 信息原理
非适定问题与最大熵和最小鉴别原理 ⑴非适定问题的概念 先了解正问题,逆问题,过定、欠定 由与欠定原因造成解不存在,不唯一或不连续, 称为非适定问题 如:地震勘探确定地层结构 雷达根据接受信号进行功率谱估计 以及声音、图象识别问题
⑵最大熵原理 概念:把符合约束条件但熵值取最大的概率分布的解, 作为唯一不偏不倚的解。 即:在约束条件∑q(ak)fm(ak)=cm ∑ q(ak)=1 使熵 ∑ q(ak)log q(ak) 取最大分布,按拉格朗日 乘数法: q(ak)=exp[-λ0- ∑ λ m fm(ak)] m=1….M 该试就是满足约束条件下最大熵的q分布. 实际例子: 1)统计力学气体分子速度的分布是能量约 束下的最大熵分布; 2)大气层空气密度随高度的分布,是平均 势能约束下最大熵分布; 应用范围:统计学、运输、排队、建模、防真、决策、 股市 信号处理(谱估计,图象复原) 理解:
我们不难由鉴别信息的基本性质证明鉴别 信息取最小所得解确实满足上述4条公理, 这意味着其他泛函取最小所得的解将不 满足上述4条公理的一部分或全部。这4 条公理有时统称一致性公理,因为它要 求不同计算途径下所得结果的一致性。
⑵最大熵原理的推导 可以证明满足4条公理的算子相当于使下述 泛函取最小F(q)=A∑ q(ak)log q(ak)-KA+B 就是 H(x)= -∑ q(ak)log q(ak) 熵取最大。 这一证明,意味着在离散分布和对先验分 布无知的情况下,只有最大熵原理才能 提供,满足这些公理的解。
1967年 J.P.Burg 根据最大熵原理对谱估计 问题提出理想的解决办法。他不是用窗 函数简单减少相关函数估计值两侧不可 靠数据给功率谱的影响,而是根据已知 的比较可靠的部分数据对相关函数进行 最大熵准则下的外推。 已知随机信号的P+1个相关函数值为约束 条件寻找满足此约束条件的具有最大熵 率的随机过程。 此过程就是高斯马尔可夫过程 P279
最大熵与最小鉴别信息原理应用
由于熵和鉴别信息在信息技术中具有普遍意义, 所以最大熵和鉴别信息原理在理论上也有普遍 的适用性,但是利用这两个原理进行优化时, 熵和鉴别信息的计算都是比较繁重的,尽管现 在已有一些成熟的算法,如最大熵求解时的见 桥算法等,但其运算量比用二次函数作准则的 最优化运算量要大得多,因此在实际运用中要 根据这两个原理的特点正确应用,下面通过事 例说明什么情况下应用适当,并能取得其它准 则达不到的效果
⑶最小鉴别信息原理 概念:把满足约束条件下接近于 P(x)( 先验概率 ) 的概率分布的解,接近于 P(x),说明鉴别信息 最小。 即:在约束条件∫q(x)fm(x)dx=Cm 其中∫q(x)dx=1 的 q(x) 中选择能使鉴别信息取最小的解 , 作 为q(x)的估计 引入拉格朗日乘子, 得q(x)=p(x)exp[λ0+ ∑ λ m fm(x)] 理解:是最大熵原理的推广,在特定条件下达到 统一(等概分布),当然鉴别信息越小越好。
最小鉴别信息原理与最大熵原理的公理化推导 ⑴最小鉴别信息原理推导,P261—P268 证明引入了一致性的 4 条公理,即:唯一性、不 变性、子集独立和系统独立。说明只有鉴别信 息最小所得的解满足4条公理。 4条公理的理解: 唯一性:要求解是唯一 不变性:坐标变换下解的不变性 独立性:按两种方式求得解要一致 子集独立性:把集合分成若干独立的子集 所得解一致
已知随机信号的 P+1 个值为约束条件寻找 满足此约束条件的具有最大熵率的随机 过程。 此过程就是高斯马尔可夫过程 P279
⑵最小鉴别信息盲分离 信息论指出:在信息意义上鉴别信息是两种概率 密度函数差别的一种理想量度,所以可取鉴别 信息作为盲分离的优化准则。 这样盲分离的求解就成为最小差别信息准则下的 最优化问题,由于鉴别信息是凸函数,这就从 原则上保证了其解必定是全局最优,所以最小 鉴别信息准则下的优化计算是求解盲分离问题 的理想办法 ⑶缺陷:计算量比较繁重,一般只应用比较复杂 和有特殊要求的问题。
⑴最大熵谱估计 根据测量到的一段数据对原信号的功率谱作出估计是 在科学研究和工程设计中经常遇到的问题: 问题的提出:我们对功率谱的估计在 T 趋于 ∞ 时, 其期望可以无偏,但方差不会减少。 造成这一原因就是估计值在 τ在2T(-2T)时的值极不 可靠,为减少影响,最直接的方法是用满足以下条 件下的窗函数W(t)对估计值进行加权 W(t)=0 |t|>D, d<<2T 然后用加权的相关函数估计值求其谱,这样虽然方 差趋于0,但功率谱估计值分辨率减低。是一两难的 处境。
Ø 最大熵原理的合理性 ⑴客观性的问题: 因为香农提出的熵和信息带有一定的主观性, 但最大熵原理下所给出的解却完全是一个客观 量。因为只有一组数学期望值有关,是实实在 在客观测量到的,所以不存在主观性问题。 ⑵如何理wenku.baidu.com被最大熵排除满足约束条件其它解: 理论证明 P259 实测 P260 99.9%的解满足 1.602≤H≤1.61358(Hmax) 这一结果说明:从概率的观点看,熵值远离最大 熵的可能解出的机会非常小,从组合的观点来 看,熵值远离最大熵的组合,种类在所有可解 的组合中所占的比例很小。
非适定问题与最大熵和最小鉴别原理 ⑴非适定问题的概念 先了解正问题,逆问题,过定、欠定 由与欠定原因造成解不存在,不唯一或不连续, 称为非适定问题 如:地震勘探确定地层结构 雷达根据接受信号进行功率谱估计 以及声音、图象识别问题
⑵最大熵原理 概念:把符合约束条件但熵值取最大的概率分布的解, 作为唯一不偏不倚的解。 即:在约束条件∑q(ak)fm(ak)=cm ∑ q(ak)=1 使熵 ∑ q(ak)log q(ak) 取最大分布,按拉格朗日 乘数法: q(ak)=exp[-λ0- ∑ λ m fm(ak)] m=1….M 该试就是满足约束条件下最大熵的q分布. 实际例子: 1)统计力学气体分子速度的分布是能量约 束下的最大熵分布; 2)大气层空气密度随高度的分布,是平均 势能约束下最大熵分布; 应用范围:统计学、运输、排队、建模、防真、决策、 股市 信号处理(谱估计,图象复原) 理解:
我们不难由鉴别信息的基本性质证明鉴别 信息取最小所得解确实满足上述4条公理, 这意味着其他泛函取最小所得的解将不 满足上述4条公理的一部分或全部。这4 条公理有时统称一致性公理,因为它要 求不同计算途径下所得结果的一致性。
⑵最大熵原理的推导 可以证明满足4条公理的算子相当于使下述 泛函取最小F(q)=A∑ q(ak)log q(ak)-KA+B 就是 H(x)= -∑ q(ak)log q(ak) 熵取最大。 这一证明,意味着在离散分布和对先验分 布无知的情况下,只有最大熵原理才能 提供,满足这些公理的解。
1967年 J.P.Burg 根据最大熵原理对谱估计 问题提出理想的解决办法。他不是用窗 函数简单减少相关函数估计值两侧不可 靠数据给功率谱的影响,而是根据已知 的比较可靠的部分数据对相关函数进行 最大熵准则下的外推。 已知随机信号的P+1个相关函数值为约束 条件寻找满足此约束条件的具有最大熵 率的随机过程。 此过程就是高斯马尔可夫过程 P279
最大熵与最小鉴别信息原理应用
由于熵和鉴别信息在信息技术中具有普遍意义, 所以最大熵和鉴别信息原理在理论上也有普遍 的适用性,但是利用这两个原理进行优化时, 熵和鉴别信息的计算都是比较繁重的,尽管现 在已有一些成熟的算法,如最大熵求解时的见 桥算法等,但其运算量比用二次函数作准则的 最优化运算量要大得多,因此在实际运用中要 根据这两个原理的特点正确应用,下面通过事 例说明什么情况下应用适当,并能取得其它准 则达不到的效果
⑶最小鉴别信息原理 概念:把满足约束条件下接近于 P(x)( 先验概率 ) 的概率分布的解,接近于 P(x),说明鉴别信息 最小。 即:在约束条件∫q(x)fm(x)dx=Cm 其中∫q(x)dx=1 的 q(x) 中选择能使鉴别信息取最小的解 , 作 为q(x)的估计 引入拉格朗日乘子, 得q(x)=p(x)exp[λ0+ ∑ λ m fm(x)] 理解:是最大熵原理的推广,在特定条件下达到 统一(等概分布),当然鉴别信息越小越好。
最小鉴别信息原理与最大熵原理的公理化推导 ⑴最小鉴别信息原理推导,P261—P268 证明引入了一致性的 4 条公理,即:唯一性、不 变性、子集独立和系统独立。说明只有鉴别信 息最小所得的解满足4条公理。 4条公理的理解: 唯一性:要求解是唯一 不变性:坐标变换下解的不变性 独立性:按两种方式求得解要一致 子集独立性:把集合分成若干独立的子集 所得解一致
已知随机信号的 P+1 个值为约束条件寻找 满足此约束条件的具有最大熵率的随机 过程。 此过程就是高斯马尔可夫过程 P279
⑵最小鉴别信息盲分离 信息论指出:在信息意义上鉴别信息是两种概率 密度函数差别的一种理想量度,所以可取鉴别 信息作为盲分离的优化准则。 这样盲分离的求解就成为最小差别信息准则下的 最优化问题,由于鉴别信息是凸函数,这就从 原则上保证了其解必定是全局最优,所以最小 鉴别信息准则下的优化计算是求解盲分离问题 的理想办法 ⑶缺陷:计算量比较繁重,一般只应用比较复杂 和有特殊要求的问题。
⑴最大熵谱估计 根据测量到的一段数据对原信号的功率谱作出估计是 在科学研究和工程设计中经常遇到的问题: 问题的提出:我们对功率谱的估计在 T 趋于 ∞ 时, 其期望可以无偏,但方差不会减少。 造成这一原因就是估计值在 τ在2T(-2T)时的值极不 可靠,为减少影响,最直接的方法是用满足以下条 件下的窗函数W(t)对估计值进行加权 W(t)=0 |t|>D, d<<2T 然后用加权的相关函数估计值求其谱,这样虽然方 差趋于0,但功率谱估计值分辨率减低。是一两难的 处境。
Ø 最大熵原理的合理性 ⑴客观性的问题: 因为香农提出的熵和信息带有一定的主观性, 但最大熵原理下所给出的解却完全是一个客观 量。因为只有一组数学期望值有关,是实实在 在客观测量到的,所以不存在主观性问题。 ⑵如何理wenku.baidu.com被最大熵排除满足约束条件其它解: 理论证明 P259 实测 P260 99.9%的解满足 1.602≤H≤1.61358(Hmax) 这一结果说明:从概率的观点看,熵值远离最大 熵的可能解出的机会非常小,从组合的观点来 看,熵值远离最大熵的组合,种类在所有可解 的组合中所占的比例很小。