最大熵原理及其应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
论文名称:最大熵原理及其应用班级:13级通信工程班
专业:通信工程
学号:
学生姓名:
指导老师:
时间:2015年11月8日
摘要
熵是源于物理学的基本概念,后来Shannon在信息论中引入了信息熵的概念,它在统计物理中的成功使人们对熵的理论和应用有了广泛和高度的重视。最大熵原理是一种在实际问题中已得到广泛应用的信息论方法。本文从信息熵的概念出发,对最大熵原理做了简要介绍,并论述了最大熵原理的合理性,最后提及它在一些领域的应用,通过在具体例子当中应用最大熵原理,展示该原理的适用场合,以期对最大熵原理及其应用有更深刻的理解。
关键词:熵;信息熵;最大熵原理;不适定性问题
引言
科学技术的发展使人类跨入了高度发展的信息化时代。在政治、军事、经济等各个领域,信息的重要性不言而喻,有关信息理论的研究正越来越受到重视,信息论方法也逐渐被广泛应用于各个领域。
信息论一般指的是香农信息论,主要研究在信息可以度量的前提下如何有效地、可靠地、安全地传递信息,涉及消息的信息量、消息的传输以及编码问题。1948年C.E.Shannon 为解决通信工程中不确定信息的编码和传输问题创立信息论,提出信息的统计定义和信息熵、互信息概念,解决了信息的不确定性度量问题,并在此基础上对信息论的一系列理论和方法进行了严格的推导和证明,使以信息论为基础的通信工程获得了巨大的发展。信息论从它诞生的那时起就吸引了众多领域学者的注意,他们竞相应用信息论的概念和方法去理解和解决本领域中的问题。近年来,以不确定性信息为研究对象的信息论理论和方法在众多领域得到了广泛应用,并取得了许多重要的研究成果。迄今为止,较为成熟的研究成果有:A.N.Kolmogorov在1956年提出的关于信息量度定义的三种方法——概率法,组合法,计算法;A.N.Kolmogorov在1968年阐明并为J.Chaitin在1987年系统发展了的关于算法信息的理论。这些成果大大丰富了信息理论的概念、方法和应用范围。
在信息论中,最大熵的含义是最大的不确定性,它解决的一大类问题是在先验知识不充分的条件下进行决策或推断等。熵方法在谱估计、图象滤波、图象重建、天文信号处理、专家系统等中都有广泛的应用。最大熵原理在实际问题中的应用近年来一直在不断地发展。
1.信息熵的概念
信息熵是将熵概念成功地扩展到信息科学领域。熵是描述客观事物无序性的参数,它最
早是由R.Clausius 于1865年引入热力学中的一个物理概念,通常称之为热力学熵。后来L.Boltzmann 赋予熵统计意义上的解释,称之为统计热力学熵。1929年,匈牙利科学家Lszilard 首先提出了熵与信息不确定性的关系,使信息科学引用熵的概念成为可能。1948年,贝尔实验室的C .Shannon 创立了信息论,熵的概念有了新的解释,香农认为信息是人们对事物了解的不确定性的消除或减少 ,他把通讯过程中信源讯号的平均信息量称为信息熵,现在一般称之为香农熵,实现了信息熵的实际应用,从此对信息熵的研究,随着信息科学的发展而得到不断的发展。
香农将随机变量X 的信息熵定义为:
=)(X H -n N n n p p log 1
∑= 式中,n p 为=X n x 的概率分布,n=1,2,…,N ;当对数底数取2时,信息熵的单位为bit/sign ;取自然对数时,单位为nat/sign ;取常用对数时,单位为hart/sign 。它代表了信源输出后每个消息所提供的平均信息量,或信源输出前的平均不确定度。信息熵的定义使随机变量的不确定性得到了量度,使信息论得到了空前的发展。
而且,信息熵具有的凸函数性质使得它特别适合作为优化问题中的目标函数,这同时也为信息论概念和方法在除通信领域以外的其他领域内的应用提供了理论基础,拓宽了信息论的应用范围。
2.最大熵原理
香农提出的信息熵的概念很好地解决了随机事件的不确定性程度的度量问题,但没有解决随机事件的概率是如何进行分配的问题。设想有一个可观测的概率过程,其中的随机变量x 取离散值1x ,2x ,…,n x ,如果从观测的结果知道了这个随机变量的均值、方差等特征值,怎样才能确定它取各离散值的概率1P ,2P ,…,n P 呢?在项目决策实际中,有些随机事件不能直接计算其概率,也无法知道其频率,通常只能取得与该随机事件(或随机变量)有关的一个或几个平均值,从理论上讲,对于给定的随机变量,如何获取最为合适的一个分布呢?
1957年,E.T.Jaynes 在“信息论与统计力学”一文中,提出一个选择准则:“当根据部分信息进行推理时,必须选择这样一组概率分配,它应具有最大的熵,并服从一切已知的信
息。换言之,在只掌握部分信息的情况下要对分布做出推断时,符合已知信息的概率分布可能不止一个,而我们应该选取符合约束条件但熵值取最大的概率分布,这是我们可以做出的唯一的不偏不倚的选择,任何其他的选择都意味着我们添加了其他的约束或假设,这些约束或假设根据我们所掌握的信息是无法做出的。E.T.Jaynes建立的这一统计推理准则,被称
为最大熵原理,或者极大熵准则。它为我们如何从满足约束条件的诸多相容分布中,挑选“最佳”、“最合理”的分布提供了一个选择标准。尽管这个准则在性质上也有主观的一面,但却是一个最“客观”的主观准则。因为,我们知道,熵定义的实际上是一个随机变量的不确定性,熵最大的时候,说明随机变量最不确定,换句话说,也就是随机变量最随机,对其行为做准确预测最困难。熵值最大意味着添加的约束和假设最少,这时求出的分布是最自然、偏差最小的。
3.最大熵原理的合理性
最大熵方法对于构造概率密度函数来说,是一种有价值的方法。按照极大熵准则,人们应该挑选在一定约束下(常常是某些与随机变量有关的平均值)使得熵(或条件熵)能极大化的那种分布作为选定的分布。使用这个准则,先验信息(已知数据)将构成求极值的问题的约束条件。由最大熵准则得到的概率分布称为最大熵分布。
应用最大熵准则构造先验概率分布有如下优点:首先,最大熵的解是最超然的,即在数据不充分的情况下求解,解必须和己知的数据相吻合,而又必须对未知的部分做出最少的假定;其次,根据熵集中原理,绝大部分可能状态都集中在最大熵状态附近,因此,用最大熵法所做出的预测是相当准确的;第三,用最大熵法求得的解满足一致性要求—不确定性的测度(熵)与试验步骤无关。最大熵方法的这一宝贵性质来源于推导熵函数的合成法则。
用最大熵准则设立先验分布的理论根据由S.A. Smith从数学上进行了证明,其思路是把随机性决策问题作为对策问题看待,即自然界选择一状态的分布使期望损失极大,而决策人选择一决策使此期望损失为极小,推导出在损失函数的集为适合特定条件的理想集的情况,这个极小化极大解的确能导致一概率分布适合最大熵准则。
4.最大熵原理在实际中的应用
在数学、物理、工程技术及其它领域中,常常要根据测量的数据,所给的条件或所作的假设求解。对于求解,通常关心三个问题:存在性、唯一性和稳定性。如果这三个要求中至